公司動(dòng)態(tài)

聯(lián)系我們

400-8316492

手機(jī)：13823737137

郵箱：3485053954@qq.com

QQ：3485053954

地址：深圳市龍崗區(qū)橫坪公路89號(hào)數(shù)字硅谷E棟4樓

當(dāng)前位置：首頁(yè) > 行業(yè)新聞 > 公司動(dòng)態(tài)

SIGIR 2022 | 多場(chǎng)景多任務(wù)優(yōu)化在支付寶數(shù)字金融搜索的應(yīng)用

時(shí)間：2025-01-12 03:39:41 作者：147小編點(diǎn)擊：次

設(shè)備之心專欄

設(shè)備之心編輯部

本文是螞蟻集團(tuán)和武漢大學(xué)一起提出的，一種面向多場(chǎng)景多任務(wù)優(yōu)化的自動(dòng)稀疏專家選取辦法。論文題目為《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》，它經(jīng)過(guò)簡(jiǎn)潔有效的架構(gòu)，實(shí)現(xiàn)了樣本級(jí)細(xì)顆粒度的自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)，對(duì)各樣場(chǎng)景結(jié)構(gòu)有較強(qiáng)的普適性。論文已被 SIGIR2022 錄用，同期已然在支付寶數(shù)金搜索場(chǎng)景上進(jìn)行了全流量推全，得到了明顯的業(yè)務(wù)效果。

1、業(yè)務(wù)背景和問(wèn)題

支付寶數(shù)金搜索是財(cái)富、保險(xiǎn)等多個(gè)業(yè)務(wù)的重要流量入口。其搜索場(chǎng)景入口如下：

圖 1：數(shù)金搜索場(chǎng)景各個(gè)入口和詳情頁(yè)實(shí)例。

因?yàn)?/span>業(yè)務(wù)種類與目的的豐富性，數(shù)金搜索較通常的垂類搜索面臨更加多的挑戰(zhàn)。以基金搜索為例，它包括：

多入口場(chǎng)景：主搜（即支付寶首頁(yè)頂端的搜索框，包括小程序，生活號(hào)，理財(cái)?shù)葍?nèi)容）理財(cái) TAB（指支付寶下方第二個(gè) tab 理財(cái)?shù)乃阉骺?，又叫垂搜，專注于?shù)金服務(wù)，如理財(cái)和保險(xiǎn)）多種卡片：區(qū)別的搜索詞類型會(huì)觸發(fā)區(qū)別的搜索卡片，例如：熱門(mén)基金：指用戶搜索 “基金”，“股票基金” 等品類詞時(shí)，會(huì)展示類似舉薦規(guī)律的 “熱門(mén)基金” 卡。基金制品：指搜索精細(xì)制品名，或板塊詞（如新能源，白酒基金等），會(huì)展示 “基金制品” 卡。多維度目的：點(diǎn)擊 (PVCTR)、購(gòu)買(mǎi)轉(zhuǎn)化 (CTCVR)，且用戶交互行徑相對(duì)電商更加繁雜，決策周期更長(zhǎng)。

在單場(chǎng)景上進(jìn)行分別迭代，帶來(lái)了巨大的守護(hù)成本；同期，各個(gè)場(chǎng)景都比較重要但又有很強(qiáng)差異。主搜流量大，用戶新，但成交相對(duì)稀疏。理財(cái) TAB (指垂搜)，流量較小，但成交金額是主搜的 3.96 倍，且用戶多為資深用戶。有部分用戶會(huì)同期運(yùn)用主搜和垂搜，倘若用戶行徑信號(hào)不可實(shí)現(xiàn)遷移，亦較難得到滿意的線上效果。因此呢，在多個(gè)場(chǎng)景運(yùn)用統(tǒng)一模型是非常必要且急迫的。

然則，將所有線上樣本進(jìn)行混合，直接運(yùn)用 hard embedding sharing 的網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)了比較嚴(yán)重的負(fù)遷移問(wèn)題。經(jīng)過(guò)近一年來(lái)從 MMOE, PLE 等辦法的應(yīng)用和科研，并調(diào)研了 STAR 等多場(chǎng)景辦法，咱們提出了一種新穎的，基于自動(dòng)專家選取的多場(chǎng)景多任務(wù)搜索框架（AESM^2，Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文簡(jiǎn)叫作 AESM)。

AESM 用一個(gè)框架，并以相同的視角同期處理多場(chǎng)景和多任務(wù)問(wèn)題，它經(jīng)過(guò)簡(jiǎn)潔有效的架構(gòu)，實(shí)現(xiàn)樣本級(jí)細(xì)顆粒度的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)，如下圖所示。值得重視，該辦法不僅可應(yīng)用于搜索，還能應(yīng)用到其他多場(chǎng)景多任務(wù)的算法場(chǎng)景。

將 AESM 模型安排在數(shù)金搜索的四個(gè)子場(chǎng)景中，相針對(duì)各個(gè)各場(chǎng)景中單獨(dú)安排的模型取得了明顯提高。相針對(duì)基線模型，CTR 整體提高 0.10%、 CTCVR 提高 2.51%，成交 GMV 提高 7.21%。仔細(xì)的數(shù)據(jù)分析可見(jiàn)后續(xù)章節(jié)。

2、多場(chǎng)景和多任務(wù)學(xué)習(xí)狀況

多任務(wù)算法（MTL）和多場(chǎng)景學(xué)習(xí)（MSL）在學(xué)術(shù)界和工業(yè)界被廣泛的科研和應(yīng)用，經(jīng)過(guò)多任務(wù)聯(lián)合訓(xùn)練提高應(yīng)用效果，如 ESMM、MMoE、PLE 等。但它們無(wú)直接思慮多場(chǎng)景 + 多任務(wù)的狀況。且 PLE 的場(chǎng)景 / 任務(wù)間的繁雜相關(guān)，需要經(jīng)過(guò)人工指定網(wǎng)絡(luò)結(jié)構(gòu)來(lái)適配。

多場(chǎng)景學(xué)習(xí)旨在處理多個(gè)相同的任務(wù)標(biāo)簽，且空間結(jié)構(gòu)類似的場(chǎng)景。例如 STAR [19] 嘗試經(jīng)過(guò)星型拓?fù)?span style="color: green;">捕捉場(chǎng)景關(guān)聯(lián)性，其中包含共享中心參數(shù)和場(chǎng)景特定參數(shù)，預(yù)設(shè)了各個(gè)場(chǎng)景是扁平的，并無(wú)無(wú)層級(jí)關(guān)系。其他科研 [8, 15] 闡述了將多場(chǎng)景問(wèn)題做為一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題，但這些工作都需要足夠的行業(yè)知識(shí)來(lái)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。

與 MSL 區(qū)別，多任務(wù)學(xué)習(xí)側(cè)重于建模任務(wù)間關(guān)聯(lián)性和區(qū)別。例如，CTR 預(yù)測(cè)和 CVR 預(yù)測(cè) [8, 12] 和信用危害預(yù)測(cè) & 信用額度設(shè)置 [9]。下面是幾種平常的處理多任務(wù)的辦法：

硬參數(shù)共享 (hard emb sharing)[1] 是最簡(jiǎn)單的模型，它經(jīng)過(guò)共享底層學(xué)習(xí)內(nèi)在關(guān)聯(lián)性。然而，它們飽受 “蹺蹺板現(xiàn)象”[20]—— 一項(xiàng)任務(wù)的改進(jìn)常常引起其他有些任務(wù)的性能退化。MMOE 經(jīng)過(guò) gate 門(mén)控機(jī)制對(duì)各個(gè)專家 (experts) 進(jìn)行組合，但各個(gè)專家之間是無(wú)交互的，且不具備稀疏性，所有的任務(wù)都會(huì)運(yùn)用所有的專家，這使得模型規(guī)模變大后，推理性能下降顯著。PLE [20] 采用漸進(jìn)式路由機(jī)制并將 experts 分配給共享和特定的任務(wù)，這緩解了舉薦系統(tǒng)中的蹺蹺板現(xiàn)象，然則它需要人工指定所有的網(wǎng)絡(luò)結(jié)構(gòu)，如哪個(gè)專家是獨(dú)享或共享的，就地景和任務(wù)關(guān)系繁雜時(shí)，這是比較繁雜的。

綜上，現(xiàn)有辦法的問(wèn)題是：

只關(guān)注單場(chǎng)景下的多任務(wù)學(xué)習(xí) (SSL&MTL)，或純粹的多場(chǎng)景模型 (MSL&STL)。無(wú)直接思慮多場(chǎng)景 + 多任務(wù)的狀況。這就引起了這類場(chǎng)景豐富的上下文信息，會(huì)受到蹺蹺板和負(fù)遷移影響。為每一個(gè)場(chǎng)景 / 任務(wù)研發(fā)模型，研發(fā)和守護(hù)成本都會(huì)大大增多。場(chǎng)景 / 任務(wù)間存在相關(guān)和區(qū)別，而以往的模型都經(jīng)過(guò)人工指定網(wǎng)絡(luò)結(jié)構(gòu)來(lái)適配。但這需要海量的實(shí)驗(yàn)和人工調(diào)參，是不是存在簡(jiǎn)單有效的自動(dòng)專家網(wǎng)絡(luò)選取？

咱們將從這幾種網(wǎng)絡(luò)的優(yōu)點(diǎn)和劣勢(shì)總結(jié)如下：

3、算法方法設(shè)計(jì)

挑戰(zhàn)：各場(chǎng)景存在很強(qiáng)的差異

咱們能夠將基金場(chǎng)景抽象成如下樹(shù)狀結(jié)構(gòu)，分別是場(chǎng)景層，卡片層和任務(wù)層。

場(chǎng)景層重點(diǎn)是人群間差異。垂搜流量和成交顯著比主搜更大，專業(yè)用戶更加多，但交集用戶較少。卡片層重點(diǎn)存在 Query 差異性，其原由是搜索 query 觸發(fā)規(guī)律的區(qū)別，搜 "基金","股票型基金" 等泛品類詞會(huì)觸發(fā)熱門(mén)基金卡片，而其他基金詞則會(huì)觸發(fā)基金制品卡。任務(wù)層重點(diǎn)存在任務(wù)間差異。基金購(gòu)買(mǎi)是重決策過(guò)程，用戶會(huì)反復(fù)對(duì)比多只制品，且購(gòu)后都會(huì)反復(fù)搜索和點(diǎn)擊，關(guān)注價(jià)格走勢(shì)和其他信息。點(diǎn)擊和轉(zhuǎn)化率皮爾遜關(guān)聯(lián)性較低。

圖 3：真實(shí)業(yè)務(wù)中繁雜的場(chǎng)景和層級(jí)帶來(lái)的遷移困難

而運(yùn)用 PLE 訓(xùn)練統(tǒng)一數(shù)據(jù) + 模型，其效果不如在各個(gè)場(chǎng)景上獨(dú)立訓(xùn)練的 PLE 模型，存在必定的蹺蹺板效應(yīng)。因此呢，怎樣設(shè)計(jì)一個(gè)統(tǒng)一模型來(lái)處理多場(chǎng)景和多任務(wù)？怎樣自動(dòng)學(xué)習(xí)場(chǎng)景任務(wù)間的相關(guān)，并使得各個(gè)場(chǎng)景都有正向收益？

整體模型結(jié)構(gòu)

咱們針對(duì)如上的場(chǎng)景樹(shù)結(jié)構(gòu)，構(gòu)建多層堆疊的，結(jié)構(gòu)類似的 AESM 網(wǎng)絡(luò)。在下圖中實(shí)例中，真實(shí)場(chǎng)景中的場(chǎng)景層 / 卡片層 / 任務(wù)層，都由兩層 AES 層來(lái)堆疊建模。

圖 5：AESM 主結(jié)構(gòu)圖

AESM 將多場(chǎng)景和多任務(wù)問(wèn)題視為同一問(wèn)題，并采用分層架構(gòu)將它們?nèi)诤系揭粋€(gè)統(tǒng)一的框架中。與 PLE 區(qū)別，AESM 利用通用且靈活的架構(gòu)，分別進(jìn)行區(qū)別場(chǎng)景和任務(wù)下，設(shè)置共享和獨(dú)享的專家。

如下圖 c 所示，上面區(qū)別顏色的 E 表率專家被區(qū)別的任務(wù)所運(yùn)用: E1, E2 被 A 任務(wù)運(yùn)用， E2 和 En 被 B 任務(wù)運(yùn)用。E2 為 share 專家，其他為 specific 專家。

為了簡(jiǎn)化，咱們首要介紹單獨(dú)的多場(chǎng)景 / 多任務(wù)層，并討論怎樣做自動(dòng)專家選取；后續(xù)再討論擁有多層任務(wù)設(shè)置的狀況。

共享嵌入層

與其他模型類似，咱們設(shè)計(jì)了共享嵌入層，將底部的類別和數(shù)值特征轉(zhuǎn)換為連續(xù)的特征向量。假設(shè)有組特征，例如，用戶特征（如年齡、性別）、物品特征（如價(jià)格、品牌）和行徑特征（如 q2i,u2i 等）。針對(duì)給定的樣本，首要將數(shù)值特征轉(zhuǎn)換為類別類型，而后對(duì)類別特征進(jìn)行 one-hot 處理，如下所示：

其中，

暗示用戶特征的個(gè)數(shù)，

暗示特征向量的拼接；其他類型的特征處理方式同用戶的特征處理方式；將處理后的各樣類型特征進(jìn)行拼接，得到輸入

多場(chǎng)景層和專家選取

在共享嵌入層之后，

做為后續(xù)層的輸入，經(jīng)太多層專家選取層得到最后的輸出。這兒的核心問(wèn)題是，怎樣進(jìn)行專家選取？

全部過(guò)程用下圖暗示如下：

圖 7：AESM 的探索和稀疏化約束機(jī)制

為簡(jiǎn)單起見(jiàn)，咱們只展示一層的選取過(guò)程。假設(shè)有 n 個(gè)專家和 m 個(gè)輸出（即 m 個(gè) gate）的場(chǎng)景層，咱們首要利用線性變換來(lái)計(jì)算每一個(gè)場(chǎng)景的門(mén)控向量如下：

其中，

是第 j 場(chǎng)景和第 k 個(gè)專家關(guān)于輸入實(shí)例的關(guān)聯(lián)性分?jǐn)?shù)；

是可學(xué)習(xí)參數(shù)，

是場(chǎng)景 embedding 表征，

是高斯噪聲（

）。

行向量

是選取專家模塊的關(guān)鍵過(guò)程。咱們做出如下假設(shè)

倘若相對(duì)大于其他向量，則暗示，第 k 位的專家更加多可能被歸類為第 j 場(chǎng)景的 specific 組。倘若中的值都相對(duì)接近，則第 k 個(gè)專家可能包括所有場(chǎng)景之間的共享信息。

因此呢，咱們首要對(duì)矩陣執(zhí)行逐行 softmax 操作 G 如下：

而后，針對(duì)第 j 場(chǎng)景，咱們形成一個(gè) one-hot 場(chǎng)景向量

，其中僅有第 j 個(gè)元素為 1。如上所述，能夠按照

和

之間的類似性來(lái)衡量第 k 個(gè)專家是第 j 個(gè)場(chǎng)景特有專家的概率。

類似地，咱們還為第 j 個(gè)場(chǎng)景引入了一個(gè)均勻分布的向量

，

能夠按照

和

之間的類似性來(lái)衡量第 k 個(gè)專家是第 j 場(chǎng)景共享專家的概率。

因此呢，選取場(chǎng)景特定和場(chǎng)景共享專家的過(guò)程形式化地描述如下：

其中

和

分別為第 j 個(gè)場(chǎng)景的特定和場(chǎng)景共享設(shè)置的專家 index，算子 TopK 是返回 top- 索引的參數(shù)操作值，( ) 計(jì)算 Kullback-Leibler 散度。

運(yùn)用

和

來(lái)更新門(mén)控向量

，實(shí)現(xiàn)稀疏專家網(wǎng)絡(luò)：

然后，將門(mén)控標(biāo)量矩陣

和專家輸出

輸入標(biāo)準(zhǔn)的 MMoE 模塊得到這個(gè)場(chǎng)景層的輸出：

綜上，本辦法最重要的是三點(diǎn)：

噪音探索：在 gate 上增多高斯噪聲，使得模型去學(xué)習(xí)區(qū)別專家的組合帶來(lái)的效果，從而選取最佳的專家組合，噪音大幅擴(kuò)大了專家組合的探索效率。噪聲強(qiáng)度是超參，無(wú)限大的噪聲等價(jià)于在專家維度進(jìn)行隨機(jī) dropout，會(huì)必定程度影響下面的 loss 約束收斂，而較小的噪聲起不到探索效果。因此呢噪聲的施加策略是后續(xù)進(jìn)一步優(yōu)化的方向。如，隨著訓(xùn)練步數(shù)增大，專家選取逐步穩(wěn)定，那樣噪聲強(qiáng)度應(yīng)逐步變小。稀疏化專家選取：經(jīng)過(guò)計(jì)算門(mén)控列向量與 onehot 向量與均勻向量的 KL 散度，使得 gate 選取最適合的共享和獨(dú)享專家，并實(shí)現(xiàn)專家網(wǎng)絡(luò)的稀疏化，并實(shí)現(xiàn)了稀疏激活。這明顯提高了泛化性，同期模型規(guī)模變大，亦不會(huì)增多推理時(shí)延。集中性約束：在以上機(jī)制的基本上，進(jìn)一步增多基于 KL 散度的約束。本質(zhì)上便是讓相同場(chǎng)景 / 任務(wù)的樣本，盡可能選取同一組最優(yōu)專家。這種基于距離度量的約束，類似樣本聚類的功效，但其實(shí)現(xiàn)是更簡(jiǎn)潔的，能夠與深度學(xué)習(xí)模型一塊集成。

在多任務(wù)部分，咱們給定以上場(chǎng)景層的輸出

，咱們亦利用相同的選取過(guò)程來(lái)實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。此處再也不贅述。

多層堆疊和擴(kuò)展

此處可參考 AESM 主模型圖。

在實(shí)質(zhì)應(yīng)用中，一個(gè)場(chǎng)景可能很繁雜，并且在本質(zhì)上表現(xiàn)出層次結(jié)構(gòu) [11，15]。例如咱們的基金搜索場(chǎng)景，經(jīng)過(guò)堆疊多個(gè)場(chǎng)景層和任務(wù)層，咱們的模型 AESM 能夠非常方便地處理這種繁雜的場(chǎng)景。這與深度網(wǎng)絡(luò)（DNN）的優(yōu)良同樣，經(jīng)過(guò)更深的深度，而不是寬度，能夠以更少的參數(shù)表達(dá)更繁雜的問(wèn)題。

例如在有層的場(chǎng)景，每層有 N_i 個(gè)場(chǎng)景繁雜系統(tǒng)中，只需要調(diào)節(jié)每一層的輸入S_i ，最后咱們能夠對(duì)n_1n_2…n_L_s個(gè)細(xì)分場(chǎng)景進(jìn)行建模。當(dāng)咱們運(yùn)用標(biāo)準(zhǔn)的 MMoE 架構(gòu)時(shí)，每一層咱們需要相同的專家數(shù)量。因?yàn)?/span>

，能夠節(jié)約海量的計(jì)算成本。

另外，咱們仍然能夠將多任務(wù)層堆疊在一塊，自適應(yīng)地為更高級(jí)別的任務(wù)進(jìn)行特征提取。與多場(chǎng)景區(qū)別，由于在第1個(gè)多任務(wù)之后，每一個(gè)任務(wù)都有區(qū)別的輸入層。在后續(xù)的多任務(wù)層中運(yùn)用相同的專家結(jié)構(gòu)，運(yùn)用區(qū)別的輸入進(jìn)行專家選取。當(dāng)層數(shù)大于 1 時(shí)，咱們運(yùn)用前一層的輸出做為后一層的輸入。

模型優(yōu)化

針對(duì)數(shù)金搜索的精排模型，選取 sigmoid 做為激活函數(shù)。因此呢，第

個(gè)實(shí)例的交叉熵?fù)p失如下：

如上一節(jié)介紹，咱們增多輔助損失來(lái)加強(qiáng)場(chǎng)景 / 任務(wù)特定的專家選取。詳細(xì)來(lái)講，針對(duì)第

的多場(chǎng)景層，可增多下面的 loss 約束：

其中

是第

個(gè)多場(chǎng)景中的輸出層。一樣，針對(duì)第

的多場(chǎng)景層，可經(jīng)過(guò)

加強(qiáng)訓(xùn)練過(guò)程中專家的選取決策；一樣多任務(wù)層中共享專家的損失函數(shù)暗示為

；綜合得到，輔助損失函數(shù)

定義如下：

整體的損失函數(shù)可定義為：

四. 線仿真和消融實(shí)驗(yàn)

為了驗(yàn)證 AESM 的有效性，咱們在多個(gè)數(shù)據(jù)集上，將 AESM 于其他多場(chǎng)景 / 多任務(wù)模型進(jìn)行對(duì)比。并做了海量消融實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)計(jì)

離線實(shí)驗(yàn)中共收集了兩個(gè)真實(shí)場(chǎng)景中的數(shù)據(jù)集，分別是支付寶和速賣(mài)通數(shù)據(jù)。

支付寶數(shù)據(jù)集：收集了從 2021 年 11 月 15 日到 11 月 30 日，兩周用戶支付寶搜索的行徑日志。分為主搜 (HP) 和垂搜 (VP) 兩個(gè)場(chǎng)景（channel），同期每一個(gè) channel 中還能夠進(jìn)一步劃分為熱門(mén)基金（BS）和基金制品（RI) 兩個(gè)卡片（這兒被抽象為)。因此呢，全部數(shù)據(jù)集經(jīng)過(guò) channel 和 domain 正交分為四個(gè)詳細(xì)的場(chǎng)景。按照行徑數(shù)據(jù)的日期將數(shù)據(jù)集切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集：11 月 15 日 - 11 月 28 日為訓(xùn)練數(shù)據(jù)，2021 年 11 月 29 日為驗(yàn)證數(shù)據(jù)，2021 年 11 月 30 日為測(cè)試數(shù)據(jù)。進(jìn)行點(diǎn)擊率和轉(zhuǎn)化率的預(yù)估。觀察到兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)分布不平衡。例如，僅 VP&BS 場(chǎng)景中的展示次數(shù)在所有場(chǎng)景中占比 6.44%，大部分點(diǎn)擊出現(xiàn)在場(chǎng)景 VP&RI，反而占 82.33%。

速賣(mài)通數(shù)據(jù)集：一樣此數(shù)據(jù)集存在多場(chǎng)景（按用戶國(guó)籍劃分）和多任務(wù)的設(shè)置。在這次實(shí)驗(yàn)中，選擇了、、和四個(gè)場(chǎng)景的數(shù)據(jù)集。由于原始數(shù)據(jù)集只包括訓(xùn)練集和測(cè)試集，咱們隨機(jī)抽取 50% 的原始測(cè)試數(shù)據(jù)做為驗(yàn)證集。

表 2：速賣(mài)通數(shù)據(jù)集統(tǒng)計(jì)狀況

咱們將 AESM 與兩類基線模型進(jìn)行對(duì)比：

門(mén)感知 (gate-base) 模型，它運(yùn)用門(mén)控機(jī)制來(lái)處理多場(chǎng)景或多任務(wù)問(wèn)題，包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多門(mén)混合專家隱式建模專家之間的關(guān)系，來(lái)自多個(gè)門(mén)的合并暗示能夠分別轉(zhuǎn)換為多個(gè)場(chǎng)景 / 任務(wù)預(yù)測(cè)層；HMoE [8] 運(yùn)用梯度切割技巧顯式編碼場(chǎng)景之間的相關(guān)關(guān)系，HMoE 采用兩個(gè)擁有單獨(dú)參數(shù)的模型來(lái)優(yōu)化 CTR 和 CVR 任務(wù)；PLE [20] 是另一種先進(jìn)的 MMoE 變體，它將專家分為任務(wù)特定組和任務(wù)共享組，避免了區(qū)別任務(wù)之間的負(fù)遷移和蹺蹺板現(xiàn)象；無(wú)門(mén)模型，如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一個(gè)簡(jiǎn)單但廣泛運(yùn)用的模型，經(jīng)過(guò)共享的底層對(duì)共享的信息進(jìn)行編碼；Parallel DNN 是在基本 DNN 上增多適應(yīng)多場(chǎng)景或任務(wù)的轉(zhuǎn)換而來(lái)；Cross-Stitch [13] 經(jīng)過(guò)線性交叉網(wǎng)絡(luò)將多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行組合，用于學(xué)習(xí)任務(wù)暗示；STAR 采用星型拓?fù)浣Y(jié)構(gòu)，由共享中心網(wǎng)絡(luò)和場(chǎng)景特定網(wǎng)絡(luò)組合而成；

借鑒 ESMM [12] 的思想，咱們優(yōu)化全部空間中的 CTR 和 CVR，即 = × 。運(yùn)用 auc 評(píng)定模型的性能。為了保準(zhǔn)公平，咱們做了以下工作：

因?yàn)?/span>以上的基線模型中并不可同期處理 MSL&MTL。咱們在基線模型上進(jìn)行結(jié)構(gòu)擴(kuò)展，來(lái)適應(yīng)咱們多場(chǎng)景多任務(wù)的需求。例如，針對(duì)多場(chǎng)景模型 STAR，我們?cè)谌蝿?wù)級(jí)實(shí)現(xiàn)另一個(gè)星型拓?fù)浣Y(jié)構(gòu)。針對(duì)多任務(wù)模型 PLE，在原有的公司上再疊加一層 PLE 結(jié)構(gòu)來(lái)處理多場(chǎng)景問(wèn)題。所有的基線模型同 AESM 同樣運(yùn)用合并場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練，網(wǎng)絡(luò)的結(jié)構(gòu)的深度及選取專家的個(gè)數(shù)等超參均保持一致。

基線效果對(duì)比

表 3 和表 4 是支付寶和速賣(mài)通數(shù)據(jù)集上區(qū)別模型的性能對(duì)比。兩個(gè)表中的結(jié)果都顯示咱們提出的模型 AESM 在所有狀況下始終優(yōu)于所有基線任務(wù)。尤其數(shù)據(jù)稀疏度最高的主搜熱門(mén)基金，提高更為明顯。這顯示模型能夠適應(yīng)區(qū)別的配置的場(chǎng)景和任務(wù)。但其他模型則不必定，例如在 CTR 任務(wù)中，PLE 在 VP&BS 場(chǎng)景中的表現(xiàn)優(yōu)于 MMoE，但在 HP&BS 場(chǎng)景中的表現(xiàn)不如 MMoE。

與多場(chǎng)景和多任務(wù)設(shè)置中訓(xùn)練的模型相比，所有基線都受到來(lái)自區(qū)別場(chǎng)景的負(fù)遷移的影響。例如，它們?cè)?HP&BS 上的性能不如在單一場(chǎng)景中訓(xùn)練的模型。然而，AESM 在所有場(chǎng)景中都優(yōu)于所有單一場(chǎng)景模型，顯示 AESM 能夠更好地利用場(chǎng)景關(guān)系，避免負(fù)遷移。

表 3：區(qū)別模型在支付寶數(shù)據(jù)集上性能對(duì)比

表 4：區(qū)別模型在速賣(mài)通數(shù)據(jù)集上性能對(duì)比

消融分析

為分析每種優(yōu)化的影響，采用兩種區(qū)別的 AESM 變體進(jìn)行消融分析：（1）無(wú)高斯噪聲和輔助損失（2）無(wú)輔助損失。從下表的結(jié)果能夠看到，去除高斯噪聲和輔助損失后，所有任務(wù)上性能均有下降。

對(duì)比（1）（2）兩種變體 AESM，能夠看到高斯噪聲在所有的場(chǎng)景中均有著良好的表現(xiàn)。這寓意著恰當(dāng)的波動(dòng)給模型帶來(lái)了更為廣泛的探索空間，得到更為精確的模型參數(shù)。

輔助損失能夠引導(dǎo)專家網(wǎng)絡(luò)選取更接近假定的分布。下圖的結(jié)果暗示，當(dāng)刪除輔助 loss 時(shí)，場(chǎng)景和任務(wù)的性能均會(huì)下降。咱們進(jìn)一步地繪制了門(mén)控矩陣下，選定的場(chǎng)景 / 任務(wù)分布與假設(shè)分布（獨(dú)熱和均勻分布）之間的 KL 散度的差異。能夠看到增多輔助損失后，兩種分布之間的 KL 散度損失是逐步下降的。顯然，加入輔助損失后模型能夠稀疏地進(jìn)行專家選取。

圖 8：稀疏化輔助 loss 的訓(xùn)練收斂對(duì)比

專家選取的可視化

咱們可視化了支付寶數(shù)據(jù)集中，場(chǎng)景 / 任務(wù)的 specific/share 組的專家利用率，即 gate 激活程度。為了簡(jiǎn)單起見(jiàn)，每一個(gè)層（即通道、域和任務(wù)）都包括兩層專家選取層。

特定專家集和共享專家集都配置為僅選取一位專家 (topk=1)。下圖表示，在 channel 級(jí)別，共享同一類型通道的場(chǎng)景擁有更類似的分布。這顯示咱們的模型能夠動(dòng)態(tài)地模擬繁雜的共享信息和場(chǎng)景之間的差異。相比之下，PLE 以靜態(tài)方式定義特定 / 共享專家。在任務(wù)層面，咱們觀察每項(xiàng)任務(wù)，幾乎在特定 / 共享組中選取一位專家，這寓意著咱們的模型亦能夠收斂到 PLE 設(shè)置。

這些觀察結(jié)果顯示，AESM^2 是一種更通用的模型，能夠適應(yīng)區(qū)別場(chǎng)景 / 任務(wù)的區(qū)別結(jié)構(gòu)。

圖 9：區(qū)別層級(jí)專家的被選取概率可視化對(duì)比

AESM 自動(dòng)專家選取的討論

為了定性的討論這個(gè)問(wèn)題，就需要先思考多場(chǎng)景和多任務(wù)問(wèn)題的本質(zhì)區(qū)別是什么？

多場(chǎng)景和多任務(wù)，都屬于多目的問(wèn)題的一個(gè)子集。筆者認(rèn)為，多場(chǎng)景問(wèn)題本質(zhì)上需求泛化性，帕累托最優(yōu)中的資源是模型參數(shù)的歸屬，任何一個(gè)事件（如點(diǎn)擊和轉(zhuǎn)化），不可能在兩個(gè)場(chǎng)景同期出現(xiàn)；而多任務(wù)問(wèn)題恰恰相反，帕累托最優(yōu)的資源約束，重點(diǎn)是參數(shù)權(quán)重本身，是梯度沖突引起的參數(shù)更新方向的沖突，但并不尤其強(qiáng)調(diào)泛化性：一般模型參數(shù)量越大，帕累托前沿越向前，但卻會(huì)損害泛化性，這一點(diǎn)可經(jīng)過(guò)下圖的實(shí)驗(yàn)證明，來(lái)自文獻(xiàn) [13]。

參數(shù)量會(huì)明顯地影響多任務(wù)模型的泛化性和效率。因此呢想要同期處理多場(chǎng)景多任務(wù)，就必須平衡效率（帕累托前沿）和泛化性，它們是天然沖突的。處理這一問(wèn)題最直觀的思路，是經(jīng)過(guò) bottleneck 網(wǎng)絡(luò)結(jié)構(gòu)，在靠近輸出層增多模型參數(shù)，提高帕累托前沿；而在底層施加稀疏性約束，使得底層提高泛化性。

值得指出，倘若只是處理多任務(wù)優(yōu)化問(wèn)題，會(huì)有非常多辦法能夠做到。但 AESM 辦法卻經(jīng)過(guò)相當(dāng)簡(jiǎn)單的方式，經(jīng)過(guò)施加噪聲和稀疏化，在類似 MMOE 的框架下，實(shí)現(xiàn)了類似 bottleneck 和 dropout 的思路來(lái)實(shí)現(xiàn)專家選取，讓參數(shù)盡可能在底層而不是上層實(shí)現(xiàn)共享，從而必定程度上平衡了多場(chǎng)景和多任務(wù)分別需求的泛化性和帕累托前沿的問(wèn)題。

5、業(yè)務(wù)效果和在線實(shí)驗(yàn)

線上推全實(shí)驗(yàn)

咱們在 2022 年 1 月底起始，與四個(gè)場(chǎng)景的線上基線（基于行徑序列的 DIN+ESMM) 進(jìn)行了兩周的在線 A/B。效果明顯優(yōu)于其他所有場(chǎng)景，并進(jìn)行了推全。

以下是在各個(gè)場(chǎng)景各自的提高（其中在主搜熱門(mén)基金和主搜基金制品觀察到 darwin 實(shí)驗(yàn)的置信提高）：

以下是所有場(chǎng)景匯總后，實(shí)驗(yàn)桶相比基準(zhǔn)桶整體的提高：

線上消融實(shí)驗(yàn)

盡管咱們做了扎實(shí)的離線消融實(shí)驗(yàn)。但與強(qiáng) baseline，如雙層 PLE 等辦法進(jìn)行線上 AB 對(duì)比，則更能反映算法和系統(tǒng)的真實(shí)性能。

為驗(yàn)證 AESM 模型有效性，咱們在主搜、垂搜的熱門(mén)基金和基金制品四個(gè)場(chǎng)景分別設(shè)計(jì)如下四組實(shí)驗(yàn)：

經(jīng)過(guò)實(shí)驗(yàn)咱們發(fā)掘，對(duì)基金搜索所有的揭發(fā)點(diǎn)擊行徑數(shù)據(jù)來(lái)看，AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三個(gè)指標(biāo)上相比其他基線有明顯提高。其中關(guān)鍵指標(biāo) CTCVR，相比統(tǒng)一訓(xùn)練 + 單層 PLE 提高 4.7%。

以 CTCVR 為 KPI，拆解到區(qū)別場(chǎng)景的的效果對(duì)比。垂搜基金制品做為主力場(chǎng)景，其他場(chǎng)景為其帶來(lái)的優(yōu)良微乎其微，然則它能夠較強(qiáng)地為其他稀疏場(chǎng)景供給遷移效果，詳細(xì)見(jiàn)下圖：

咱們將以上數(shù)據(jù)繪制到下圖中，可更知道地表現(xiàn) AESM 的優(yōu)良:

圖 10：經(jīng)過(guò)線上消融實(shí)驗(yàn)，與其他辦法的效果對(duì)比

6、總結(jié)和后續(xù)改進(jìn)

日前 AESM 已然在數(shù)金搜索的基金主場(chǎng)景進(jìn)行了全流量安排。這可能是第1個(gè)在統(tǒng)一框架內(nèi)，同期處理 MSL 和 MTL 問(wèn)題的辦法，并擁有以下優(yōu)點(diǎn)：

大大降低繁雜場(chǎng)景間的負(fù)遷移現(xiàn)象，以實(shí)現(xiàn)最優(yōu)的信息共享。實(shí)質(zhì)業(yè)務(wù)中，非常多場(chǎng)景能夠組織為層次結(jié)構(gòu)，對(duì)其進(jìn)行層疊式的建模，可進(jìn)一步加強(qiáng)性能，并明顯降低計(jì)算成本。經(jīng)過(guò)噪音探索，稀疏化專家選取和集中性約束的機(jī)制，實(shí)現(xiàn)了自動(dòng)提取場(chǎng)景 / 任務(wù) specific 和 share 樣本級(jí)專家選取算法。詳細(xì)的，基于 multi-gate 混合專家的稀疏化結(jié)構(gòu)，實(shí)現(xiàn)自適應(yīng)結(jié)構(gòu)學(xué)習(xí)，并設(shè)計(jì)了輔助損失函數(shù)來(lái)指點(diǎn)訓(xùn)練過(guò)程。

值得指出，AESM 后續(xù)有有些值得繼續(xù)探索的方向。

AESM 經(jīng)過(guò)噪音提高探索空間，但噪音強(qiáng)度做為超參難以選取，應(yīng)探索和實(shí)驗(yàn)更穩(wěn)健和魯棒的專家探索方式。當(dāng)需要增多場(chǎng)景 / 任務(wù)時(shí)，之前模型需要重新設(shè)計(jì)和訓(xùn)練。怎樣優(yōu)化 AESM，使得其能夠進(jìn)一步適應(yīng)動(dòng)態(tài)和異構(gòu)的場(chǎng)景任務(wù)結(jié)構(gòu)，并更好的處理冷起步問(wèn)題，將會(huì)是一個(gè)有挑戰(zhàn)的問(wèn)題。咱們在橫向?qū)＜覍用孀隽俗詣?dòng)專家選取，但在縱向（深度）上亦存在自動(dòng)專家選取的可能性必要性：自動(dòng)殘差網(wǎng)絡(luò)，將會(huì)是一個(gè)令人興奮的方向。

AESM 和谷歌最新的 MOE 架構(gòu) Pathways 有有些類似性，能幫忙咱們實(shí)現(xiàn)更加多異構(gòu)任務(wù)的統(tǒng)一訓(xùn)練和優(yōu)化。后續(xù)咱們會(huì)積極地探索新的改進(jìn)計(jì)劃。歡迎業(yè)界同仁一起討論。

7、參考文獻(xiàn)

[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.

[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.

[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.

[4] Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.

[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.

[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).

[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).

[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.

[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.

[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.

[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.

[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.

[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences

免責(zé)聲明：部分文章信息來(lái)源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真

實(shí)性，如本站文章和轉(zhuǎn)稿涉及版權(quán)等問(wèn)題，請(qǐng)作者在及時(shí)聯(lián)系本站，我們會(huì)盡快刪除處理問(wèn)答，若不聯(lián)系則默認(rèn)允許本站轉(zhuǎn)載。

上一篇：iPad Air 2不到100元的保護(hù)套舉薦

下一篇：涂布紙印刷 | 前沿技術(shù)驅(qū)動(dòng)，金谷田KGT-2500A打造品質(zhì)生產(chǎn)力！

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费人成在线视频观看,久久丫精品国产亚洲av,乱码午夜-极国产极内射,熟女俱乐部五十路二区av,无码少妇一区二区三区芒果,国产95在线 | 欧美,抽插丰满内射高潮视频,久久免费看少妇高潮v片特黄,日韩精品一区二区三区在线观看,色老汉免费网站免费视频

SIGIR 2022 | 多場(chǎng)景多任務(wù)優(yōu)化在支付寶數(shù)字金融搜索的應(yīng)用

友情鏈接 / LINKS