![undefined](https://cbu01.alicdn.com/img/ibank/O1CN0164lLAe1R6RhPRNNr4_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN014zJU5D1R6RhQ9dlLL_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01yIySTF1R6RhPzapqV_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN013bLjZy1R6RhSjPt7I_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01fiCwIg1R6RhPzZpTX_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01AjwF4O1R6RhNMjOhW_!!3191592062-0-cib.jpg?__r__=1732084261409)
設(shè)備之心專欄
設(shè)備之心編輯部
本文是螞蟻集團(tuán)和武漢大學(xué)一起提出的, 一種面向多場(chǎng)景多任務(wù)優(yōu)化的自動(dòng)稀疏專家選取辦法。論文題目為《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》,它經(jīng)過(guò)簡(jiǎn)潔有效的架構(gòu),實(shí)現(xiàn)了樣本級(jí)細(xì)顆粒度的自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),對(duì)各樣場(chǎng)景結(jié)構(gòu)有較強(qiáng)的普適性。論文已被 SIGIR2022 錄用,同期已然在支付寶數(shù)金搜索場(chǎng)景上進(jìn)行了全流量推全,得到了明顯的業(yè)務(wù)效果。
1、業(yè)務(wù)背景和問(wèn)題
支付寶數(shù)金搜索是財(cái)富、保險(xiǎn)等多個(gè)業(yè)務(wù)的重要流量入口。其搜索場(chǎng)景入口如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/745db1f0dc68450e907d060607852ca8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=edUCRbEYhTq7c%2FdPCim9hOnNhhs%3D)
圖 1:數(shù)金搜索場(chǎng)景各個(gè)入口和詳情頁(yè)實(shí)例。
因?yàn)?/span>業(yè)務(wù)種類與目的的豐富性,數(shù)金搜索較通常的垂類搜索面臨更加多的挑戰(zhàn)。以基金搜索為例,它包括:
多入口場(chǎng)景:主搜(即支付寶首頁(yè)頂端的搜索框,包括小程序, 生活號(hào),理財(cái)?shù)葍?nèi)容)理財(cái) TAB(指支付寶下方第二個(gè) tab 理財(cái)?shù)乃阉骺?,又叫垂搜,專注于?shù)金服務(wù),如理財(cái)和保險(xiǎn))多種卡片:區(qū)別的搜索詞類型會(huì)觸發(fā)區(qū)別的搜索卡片,例如:熱門(mén)基金:指用戶搜索 “基金”,“股票基金” 等品類詞時(shí),會(huì)展示類似舉薦規(guī)律的 “熱門(mén)基金” 卡。基金制品:指搜索精細(xì)制品名,或板塊詞(如新能源,白酒基金等),會(huì)展示 “基金制品” 卡。多維度目的:點(diǎn)擊 (PVCTR)、購(gòu)買(mǎi)轉(zhuǎn)化 (CTCVR),且用戶交互行徑相對(duì)電商更加繁雜,決策周期更長(zhǎng)。在單場(chǎng)景上進(jìn)行分別迭代,帶來(lái)了巨大的守護(hù)成本;同期,各個(gè)場(chǎng)景都比較重要但又有很強(qiáng)差異。主搜流量大,用戶新,但成交相對(duì)稀疏。理財(cái) TAB (指垂搜),流量較小,但成交金額是主搜的 3.96 倍,且用戶多為資深用戶。有部分用戶會(huì)同期運(yùn)用主搜和垂搜,倘若用戶行徑信號(hào)不可實(shí)現(xiàn)遷移,亦較難得到滿意的線上效果。因此呢,在多個(gè)場(chǎng)景運(yùn)用統(tǒng)一模型是非常必要且急迫的。
然則,將所有線上樣本進(jìn)行混合,直接運(yùn)用 hard embedding sharing 的網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)了比較嚴(yán)重的負(fù)遷移問(wèn)題。經(jīng)過(guò)近一年來(lái)從 MMOE, PLE 等辦法的應(yīng)用和科研,并調(diào)研了 STAR 等多場(chǎng)景辦法, 咱們提出了一種新穎的,基于自動(dòng)專家選取的多場(chǎng)景多任務(wù)搜索框架(AESM^2,Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文簡(jiǎn)叫作 AESM)。
AESM 用一個(gè)框架,并以相同的視角同期處理多場(chǎng)景和多任務(wù)問(wèn)題,它經(jīng)過(guò)簡(jiǎn)潔有效的架構(gòu),實(shí)現(xiàn)樣本級(jí)細(xì)顆粒度的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),如下圖所示。值得重視,該辦法不僅可應(yīng)用于搜索,還能應(yīng)用到其他多場(chǎng)景多任務(wù)的算法場(chǎng)景。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/282d7a9bdcdc4adfae4a9b82c6bb7308~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=WIGf3DqcnLenbD9bT6Y2%2F7ATyCY%3D)
將 AESM 模型安排在數(shù)金搜索的四個(gè)子場(chǎng)景中,相針對(duì)各個(gè)各場(chǎng)景中單獨(dú)安排的模型取得了明顯提高。相針對(duì)基線模型,CTR 整體提高 0.10%、 CTCVR 提高 2.51%,成交 GMV 提高 7.21%。仔細(xì)的數(shù)據(jù)分析可見(jiàn)后續(xù)章節(jié)。
2、多場(chǎng)景和多任務(wù)學(xué)習(xí)狀況
多任務(wù)算法(MTL)和多場(chǎng)景學(xué)習(xí)(MSL)在學(xué)術(shù)界和工業(yè)界被廣泛的科研和應(yīng)用,經(jīng)過(guò)多任務(wù)聯(lián)合訓(xùn)練提高應(yīng)用效果,如 ESMM、MMoE、PLE 等。但它們無(wú)直接思慮多場(chǎng)景 + 多任務(wù)的狀況。且 PLE 的場(chǎng)景 / 任務(wù)間的繁雜相關(guān),需要經(jīng)過(guò)人工指定網(wǎng)絡(luò)結(jié)構(gòu)來(lái)適配。
多場(chǎng)景學(xué)習(xí)旨在處理多個(gè)相同的任務(wù)標(biāo)簽,且空間結(jié)構(gòu)類似的場(chǎng)景。例如 STAR [19] 嘗試經(jīng)過(guò)星型拓?fù)?span style="color: green;">捕捉場(chǎng)景關(guān)聯(lián)性,其中包含共享中心參數(shù)和場(chǎng)景特定參數(shù),預(yù)設(shè)了各個(gè)場(chǎng)景是扁平的,并無(wú)無(wú)層級(jí)關(guān)系。其他科研 [8, 15] 闡述了將多場(chǎng)景問(wèn)題做為一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題,但這些工作都需要足夠的行業(yè)知識(shí)來(lái)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
與 MSL 區(qū)別,多任務(wù)學(xué)習(xí)側(cè)重于建模任務(wù)間關(guān)聯(lián)性和區(qū)別 。例如,CTR 預(yù)測(cè)和 CVR 預(yù)測(cè) [8, 12] 和信用危害預(yù)測(cè) & 信用額度設(shè)置 [9]。下面是幾種平常的處理多任務(wù)的辦法:
硬參數(shù)共享 (hard emb sharing)[1] 是最簡(jiǎn)單的模型,它經(jīng)過(guò)共享底層學(xué)習(xí)內(nèi)在關(guān)聯(lián)性。然而,它們飽受 “蹺蹺板現(xiàn)象”[20]—— 一項(xiàng)任務(wù)的改進(jìn)常常引起其他有些任務(wù)的性能退化。MMOE 經(jīng)過(guò) gate 門(mén)控機(jī)制對(duì)各個(gè)專家 (experts) 進(jìn)行組合,但各個(gè)專家之間是無(wú)交互的,且不具備稀疏性,所有的任務(wù)都會(huì)運(yùn)用所有的專家,這使得模型規(guī)模變大后,推理性能下降顯著。PLE [20] 采用漸進(jìn)式路由機(jī)制并將 experts 分配給共享和特定的任務(wù),這緩解了舉薦系統(tǒng)中的蹺蹺板現(xiàn)象,然則它需要人工指定所有的網(wǎng)絡(luò)結(jié)構(gòu),如哪個(gè)專家是獨(dú)享或共享的,就地景和任務(wù)關(guān)系繁雜時(shí),這是比較繁雜的。綜上,現(xiàn)有辦法的問(wèn)題是:
只關(guān)注單場(chǎng)景下的多任務(wù)學(xué)習(xí) (SSL&MTL), 或純粹的多場(chǎng)景模型 (MSL&STL)。無(wú)直接思慮多場(chǎng)景 + 多任務(wù)的狀況。這就引起了這類場(chǎng)景豐富的上下文信息,會(huì)受到蹺蹺板和負(fù)遷移影響。為每一個(gè)場(chǎng)景 / 任務(wù)研發(fā)模型,研發(fā)和守護(hù)成本都會(huì)大大增多。場(chǎng)景 / 任務(wù)間存在相關(guān)和區(qū)別,而以往的模型都經(jīng)過(guò)人工指定網(wǎng)絡(luò)結(jié)構(gòu)來(lái)適配。但這需要海量的實(shí)驗(yàn)和人工調(diào)參,是不是存在簡(jiǎn)單有效的自動(dòng)專家網(wǎng)絡(luò)選取?咱們將從這幾種網(wǎng)絡(luò)的優(yōu)點(diǎn)和劣勢(shì)總結(jié)如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/af9736f6b7ba48deb87bbb59e642aba5~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=kxeRurv0Yi1ftyBfeZ0hrcSMpXg%3D)
3、算法方法設(shè)計(jì)
挑戰(zhàn):各場(chǎng)景存在很強(qiáng)的差異
咱們能夠將基金場(chǎng)景抽象成如下樹(shù)狀結(jié)構(gòu),分別是場(chǎng)景層,卡片層和任務(wù)層。
場(chǎng)景層重點(diǎn)是人群間差異。垂搜流量和成交顯著比主搜更大,專業(yè)用戶更加多,但交集用戶較少。卡片層重點(diǎn)存在 Query 差異性,其原由是搜索 query 觸發(fā)規(guī)律的區(qū)別,搜 "基金","股票型基金" 等泛品類詞會(huì)觸發(fā)熱門(mén)基金卡片,而其他基金詞則會(huì)觸發(fā)基金制品卡。任務(wù)層重點(diǎn)存在任務(wù)間差異。基金購(gòu)買(mǎi)是重決策過(guò)程,用戶會(huì)反復(fù)對(duì)比多只制品,且購(gòu)后都會(huì)反復(fù)搜索和點(diǎn)擊,關(guān)注價(jià)格走勢(shì)和其他信息。點(diǎn)擊和轉(zhuǎn)化率皮爾遜關(guān)聯(lián)性較低。![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0f376669d6c04166b16c5d7b504fd25f~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=S%2FuHKqFQU9hb%2F15L5%2FEN32m%2F2Ik%3D)
圖 3:真實(shí)業(yè)務(wù)中繁雜的場(chǎng)景和層級(jí)帶來(lái)的遷移困難
而運(yùn)用 PLE 訓(xùn)練統(tǒng)一數(shù)據(jù) + 模型,其效果不如在各個(gè)場(chǎng)景上獨(dú)立訓(xùn)練的 PLE 模型,存在必定的蹺蹺板效應(yīng)。因此呢,怎樣設(shè)計(jì)一個(gè)統(tǒng)一模型來(lái)處理多場(chǎng)景和多任務(wù)?怎樣自動(dòng)學(xué)習(xí)場(chǎng)景任務(wù)間的相關(guān),并使得各個(gè)場(chǎng)景都有正向收益?
整體模型結(jié)構(gòu)
咱們針對(duì)如上的場(chǎng)景樹(shù)結(jié)構(gòu),構(gòu)建多層堆疊的,結(jié)構(gòu)類似的 AESM 網(wǎng)絡(luò)。在下圖中實(shí)例中,真實(shí)場(chǎng)景中的場(chǎng)景層 / 卡片層 / 任務(wù)層,都由兩層 AES 層來(lái)堆疊建模。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3fd6ac10fc7f4f79aedb3b275b40e133~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=L3eBR%2B1xBaAbaTYcyWOS1dRdoPM%3D)
圖 5:AESM 主結(jié)構(gòu)圖
AESM 將多場(chǎng)景和多任務(wù)問(wèn)題視為同一問(wèn)題,并采用分層架構(gòu)將它們?nèi)诤系揭粋€(gè)統(tǒng)一的框架中。與 PLE 區(qū)別,AESM 利用通用且靈活的架構(gòu), 分別進(jìn)行區(qū)別場(chǎng)景和任務(wù)下,設(shè)置共享和獨(dú)享的專家。
如下圖 c 所示,上面區(qū)別顏色的 E 表率專家被區(qū)別的任務(wù)所運(yùn)用: E1, E2 被 A 任務(wù)運(yùn)用, E2 和 En 被 B 任務(wù)運(yùn)用。E2 為 share 專家,其他為 specific 專家。
為了簡(jiǎn)化,咱們首要介紹單獨(dú)的多場(chǎng)景 / 多任務(wù)層,并討論怎樣做自動(dòng)專家選取;后續(xù)再討論擁有多層任務(wù)設(shè)置的狀況。
共享嵌入層
與其他模型類似,咱們設(shè)計(jì)了共享嵌入層,將底部的類別和數(shù)值特征轉(zhuǎn)換為連續(xù)的特征向量。假設(shè)有 組特征,例如,用戶特征(如年齡、性別)、物品特征(如價(jià)格、品牌)和行徑特征(如 q2i,u2i 等)。針對(duì)給定的樣本,首要將數(shù)值特征轉(zhuǎn)換為類別類型,而后對(duì)類別特征進(jìn)行 one-hot 處理,如下所示:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/28a91778412f47fab8e4485db34ac219~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=etxB82584to2K3jcymi9EPp%2FGZE%3D)
其中,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1d08a1695412429a9f3b11e99faa57b7~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=r0pwghtlmZMh%2BLIcprR5s3UDsVA%3D)
暗示用戶特征的個(gè)數(shù),
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/d2163fc6e1644adda5346261a514db1c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Fxj3VLCIdYxuei0IhRefudrb9yQ%3D)
暗示特征向量的拼接;其他類型的特征處理方式同用戶的特征處理方式;將處理后的各樣類型特征進(jìn)行拼接,得到輸入
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/81473c35c1f44fd49d0ffd85bfa4a46d~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=s3xD27T62WVB6OKK5Eq8ICPD8HU%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/f4e5ffe4341e4a259ab7227678316e50~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ab5ZlacbYE8pzk0jY0XoLop0pWQ%3D)
多場(chǎng)景層和專家選取
在共享嵌入層之后,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/bd4c9907fb754a8fa48c79605d16bc14~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=b8IRZC4p0vddcZ0rXScNJtNRg%2FA%3D)
做為后續(xù)層的輸入,經(jīng)太多層專家選取層得到最后的輸出。這兒的核心問(wèn)題是,怎樣進(jìn)行專家選取?
全部過(guò)程用下圖暗示如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0e1b27f4c968425396ba7e036fcba66b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=38UK8Kb6jJ0aUIExwvUxiFSFdms%3D)
圖 7:AESM 的探索和稀疏化約束機(jī)制
為簡(jiǎn)單起見(jiàn),咱們只展示一層的選取過(guò)程。假設(shè)有 n 個(gè)專家和 m 個(gè)輸出(即 m 個(gè) gate)的場(chǎng)景層,咱們首要利用線性變換來(lái)計(jì)算每一個(gè)場(chǎng)景的門(mén)控向量如下:
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/662a06439eee4220a21898c33f7370e3~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=eKSn4E2BVj0W5VIxR71b9U8SKiE%3D)
其中,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e3eb2f25c7354b8aaf8a09423b34f438~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=w3p7WNzbXU%2BPr093ctqJ81mfp5k%3D)
是第 j 場(chǎng)景和第 k 個(gè)專家關(guān)于輸入實(shí)例的關(guān)聯(lián)性分?jǐn)?shù);
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5c8f1bc9128e40e9abeb35f7de2a6f51~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=b8BW1LCWRr03ynX64yz3fa%2BxWZs%3D)
是可學(xué)習(xí)參數(shù),
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1a25e10275ab4cac8fe5242aa527cd0c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=S4Pw4Eg%2B%2Bakmi9CtusDvhkFn2Xk%3D)
是場(chǎng)景 embedding 表征,
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a4645f12229e4cdc900ac4b0abe00fe1~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=zWfmtaf%2BFmZACcavLK45H5cimIE%3D)
是高斯噪聲(
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/7b6a3724428e46e0ab7aea68a8189b81~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=1fOOTi5VRJCBYjBYJlRUBihL8DQ%3D)
)。
行向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5c640485c4df4fdda78ce94ce4b5b24c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=qFGly0YGgndgSi49P695y0S1nrI%3D)
是選取專家模塊的關(guān)鍵過(guò)程。咱們做出如下假設(shè)
倘若相對(duì)大于其他向量,則暗示,第 k 位的專家更加多可能被歸類為第 j 場(chǎng)景的 specific 組。倘若中的值都相對(duì)接近,則第 k 個(gè)專家可能包括所有場(chǎng)景之間的共享信息。因此呢,咱們首要對(duì)矩陣執(zhí)行逐行 softmax 操作 G 如下:
![](https://p6-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/4d05437d6bc649f1873836e0e7ae0562~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Kl1Y8A5HUu0aKb5K1uiMQ8ah8mM%3D)
而后,針對(duì)第 j 場(chǎng)景,咱們形成一個(gè) one-hot 場(chǎng)景向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/30759a6b14444e82b99127fb8dee2e66~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=z9InuaK6d88lRQZBpNg4r0lccv0%3D)
,其中僅有第 j 個(gè)元素為 1。如上所述,能夠按照
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1c758674f234496ab31d8fb243b449c4~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=iNzmQXw798Eax9tGK7iexC%2BQ2Mc%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/aa5bacc6896f4033b9f1a6ad585a9aae~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=lKtfFFm5TsuYJKgshmgOkqDMzxs%3D)
之間的類似性來(lái)衡量第 k 個(gè)專家是第 j 個(gè)場(chǎng)景特有專家的概率。
類似地,咱們還為第 j 個(gè)場(chǎng)景引入了一個(gè)均勻分布的向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3e7e1cf9bf55412089acb983ae1b350a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=l6zoY882Pi4pgyybKfc4utjcXt0%3D)
,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/049db529337041029acc886f3d4da457~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=UKhbSSt9wLltZ7wivCXhE758aYI%3D)
能夠按照
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5d4c765aec6b43459d93b26536bdb98a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=joW5ifMpE3N9P%2FiVIdzWYOSLZAY%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/7ccaed43218645ffbba9ad5c6e7c6fff~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=TCTdTIXfQuc6ZRWe2u8ce%2FziOI8%3D)
之間的類似性來(lái)衡量第 k 個(gè)專家是第 j 場(chǎng)景共享專家的概率。
因此呢,選取場(chǎng)景特定和場(chǎng)景共享專家的過(guò)程形式化地描述如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6d5f748e00ac4d96826ce978de1b2146~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=gIJw8eUvt%2BZ3%2Fplps0Jgrmvs4vA%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/54905bf8c02a4665a65dbc3a254ec8e2~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=dtXZmEAApUehVsuTNEvtSSRyibw%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3609dc15a49942c8b7d4df146666e325~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=aIe%2BNMMYGS6HcNkFGkKCt8BYKMo%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2db5cbd3badf43cfb0362ea899dc0e93~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=WxfU%2B2HCS%2BUKSxeoi0FOm0pQTwk%3D)
其中
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/576565cb1d8b45ad8cfea73bc7cfae88~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=XchUAMW4YvqTAwM3gE%2F0qp%2F0JqI%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/16ca100dbb154d6c92302fc23e6eb1bb~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=i%2FTshdeK0gAo%2BjjABTlWNB6V7R8%3D)
分別為第 j 個(gè)場(chǎng)景的特定和場(chǎng)景共享設(shè)置的專家 index,算子 TopK 是返回 top- 索引的參數(shù)操作值,( ) 計(jì)算 Kullback-Leibler 散度。
運(yùn)用
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8edd01ab660b41669c863448d500c02c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=oDAJ2DRUTmZoc5I%2BKcEYdOB%2Ftcc%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/77c873d27e9745198eaf06c9a6689433~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=iXVLWwqEK0qc76hufQO2FFLyVqQ%3D)
來(lái)更新門(mén)控向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/82aa52937831449291fb20909e8cdb8b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=RCHDiVlKqCWUmdfajVT9w6b5HqQ%3D)
,實(shí)現(xiàn)稀疏專家網(wǎng)絡(luò):
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8e39c7970ee94e2a9d2a0427d5136e24~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=9HkEdXaNcOqpyub1TPV75BwOtCI%3D)
然后,將門(mén)控標(biāo)量矩陣
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8178205db98248468d8b7f20cfd749a8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=KP8G2D8F0KnQwwUtE3ahrMtH1K0%3D)
和專家輸出
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2409d7ff70164d53ab2c063a0166ee42~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=7FDES5Ye0aQFryZveIv%2BG%2By50BM%3D)
輸入標(biāo)準(zhǔn)的 MMoE 模塊得到這個(gè)場(chǎng)景層的輸出:
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/fe782bce70e7451d843e2193e43d6f53~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=imv0bcC0ogjtKzKbt7V4B8GFcb8%3D)
綜上,本辦法最重要的是三點(diǎn):
噪音探索:在 gate 上增多高斯噪聲,使得模型去學(xué)習(xí)區(qū)別專家的組合帶來(lái)的效果,從而選取最佳的專家組合,噪音大幅擴(kuò)大了專家組合的探索效率。噪聲強(qiáng)度是超參,無(wú)限大的噪聲等價(jià)于在專家維度進(jìn)行隨機(jī) dropout,會(huì)必定程度影響下面的 loss 約束收斂,而較小的噪聲起不到探索效果。因此呢噪聲的施加策略是后續(xù)進(jìn)一步優(yōu)化的方向。如,隨著訓(xùn)練步數(shù)增大,專家選取逐步穩(wěn)定,那樣噪聲強(qiáng)度應(yīng)逐步變小。稀疏化專家選取:經(jīng)過(guò)計(jì)算門(mén)控列向量與 onehot 向量與均勻向量的 KL 散度,使得 gate 選取最適合的共享和獨(dú)享專家,并實(shí)現(xiàn)專家網(wǎng)絡(luò)的稀疏化,并實(shí)現(xiàn)了稀疏激活。這明顯提高了泛化性,同期模型規(guī)模變大,亦不會(huì)增多推理時(shí)延。集中性約束:在以上機(jī)制的基本上,進(jìn)一步增多基于 KL 散度的約束。本質(zhì)上便是讓相同場(chǎng)景 / 任務(wù)的樣本,盡可能選取同一組最優(yōu)專家。這種基于距離度量的約束,類似樣本聚類的功效,但其實(shí)現(xiàn)是更簡(jiǎn)潔的,能夠與深度學(xué)習(xí)模型一塊集成。在多任務(wù)部分,咱們給定以上場(chǎng)景層的輸出
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/617ee703e8f6451abfcea2399766303e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=T%2Bf%2BgckxaHD%2BIAIWz6pR%2FflDQ90%3D)
,咱們亦利用相同的選取過(guò)程來(lái)實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。此處再也不贅述。
多層堆疊和擴(kuò)展
此處可參考 AESM 主模型圖。
在實(shí)質(zhì)應(yīng)用中,一個(gè)場(chǎng)景可能很繁雜,并且在本質(zhì)上表現(xiàn)出層次結(jié)構(gòu) [11,15]。例如咱們的基金搜索場(chǎng)景,經(jīng)過(guò)堆疊多個(gè)場(chǎng)景層和任務(wù)層,咱們的模型 AESM 能夠非常方便地處理這種繁雜的場(chǎng)景。這與深度網(wǎng)絡(luò)(DNN)的優(yōu)良同樣,經(jīng)過(guò)更深的深度,而不是寬度,能夠以更少的參數(shù)表達(dá)更繁雜的問(wèn)題。
例如在有 層的場(chǎng)景,每層有 N_i 個(gè)場(chǎng)景繁雜系統(tǒng)中,只需要調(diào)節(jié)每一層的輸入S_i ,最后咱們能夠對(duì)n_1n_2…n_L_s個(gè)細(xì)分場(chǎng)景進(jìn)行建模。當(dāng)咱們運(yùn)用標(biāo)準(zhǔn)的 MMoE 架構(gòu)時(shí),每一層咱們需要相同的專家數(shù)量。因?yàn)?/span>
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/90f1268ec19f4f849aca39cbddcb21ad~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ZlrV2wOQ%2FrexnfhhkzptiO211OE%3D)
,能夠節(jié)約海量的計(jì)算成本。
另外,咱們仍然能夠將 多任務(wù)層堆疊在一塊,自適應(yīng)地為更高級(jí)別的任務(wù)進(jìn)行特征提取。與多場(chǎng)景區(qū)別,由于在第1個(gè)多任務(wù)之后,每一個(gè)任務(wù)都有區(qū)別的輸入層。在后續(xù)的多任務(wù)層中運(yùn)用相同的專家結(jié)構(gòu),運(yùn)用區(qū)別的輸入進(jìn)行專家選取。當(dāng)層數(shù)大于 1 時(shí),咱們運(yùn)用前一層的輸出做為后一層的輸入。
模型優(yōu)化
針對(duì)數(shù)金搜索的精排模型,選取 sigmoid 做為激活函數(shù)。因此呢,第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/61af043ce20f41b8a1f268c4dda80c6e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=p4fwrpbAgDe3d%2FWz5xGICWQiavg%3D)
個(gè)實(shí)例的交叉熵?fù)p失如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0f605cefed52413780209a3b477ca672~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=QQx9E%2F%2F%2ByUd4SLYnvzCkYWiJf1c%3D)
如上一節(jié)介紹,咱們增多輔助損失來(lái)加強(qiáng)場(chǎng)景 / 任務(wù)特定的專家選取。詳細(xì)來(lái)講,針對(duì)第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5afec20ff2fd47c6a223f72ab7c4404b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=fjWaZJVSyxGV5KEC1m7ZPcgdPEQ%3D)
的多場(chǎng)景層,可增多下面的 loss 約束:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/95c53807912242958d46a432b7ba0f8b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=4IrcXbY6lQL8%2FYKYi4RXJ%2FTlWLI%3D)
其中
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/35d60e56d42e4af783efb30f2154b505~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=cb0AqCQj65ATJSK9lIoLB0b%2BEP0%3D)
是第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6ea8e9e951f542b2a7a85952d047fe47~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=KKKvuqaAM3jmeevxDDRGRSwZHbI%3D)
個(gè)多場(chǎng)景中的輸出層。一樣,針對(duì)第
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/456f1893ffd04942a14901e3f7422082~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=MXLInU8yucnssnfeBqjMqAqEh%2BQ%3D)
的多場(chǎng)景層,可經(jīng)過(guò)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/53088b5e992d4eb0867de39ad02ab49e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=upMj5pQFeqUX7ipbb4pf8m2LjJQ%3D)
加強(qiáng)訓(xùn)練過(guò)程中專家的選取決策;一樣多任務(wù)層中共享專家的損失函數(shù)暗示為
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/741fc421fd184163a3e628afaff2fb24~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=RUycKn4xogSvN91xfpNvi13CTqk%3D)
;綜合得到,輔助損失函數(shù)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/26acd5ff09794010a560bdbf47018289~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=0RjwJ%2BS5cGrNoXb2%2BQoz4zic3fE%3D)
定義如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5f9bdc185bd04808a0377b4b9efe7a34~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Gg6LGQ30pwyL4aV9Q%2FH36nGjIKQ%3D)
整體的損失函數(shù)可定義為:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0a8f146d595a4a13af3f096371cb913b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=bJIGnq1nEshIVm43KUYAilqll%2Bo%3D)
四. 線仿真和消融實(shí)驗(yàn)
為了驗(yàn)證 AESM 的有效性, 咱們在多個(gè)數(shù)據(jù)集上,將 AESM 于其他多場(chǎng)景 / 多任務(wù)模型進(jìn)行對(duì)比。并做了海量消融實(shí)驗(yàn)。
實(shí)驗(yàn)設(shè)計(jì)
離線實(shí)驗(yàn)中共收集了兩個(gè)真實(shí)場(chǎng)景中的數(shù)據(jù)集,分別是支付寶和速賣(mài)通數(shù)據(jù)。
支付寶數(shù)據(jù)集:收集了從 2021 年 11 月 15 日到 11 月 30 日, 兩周用戶支付寶搜索的行徑日志。分為主搜 (HP) 和垂搜 (VP) 兩個(gè)場(chǎng)景(channel),同期每一個(gè) channel 中還能夠進(jìn)一步劃分為 熱門(mén)基金(BS)和基金制品(RI) 兩個(gè)卡片(這兒被抽象為)。因此呢,全部數(shù)據(jù)集經(jīng)過(guò) channel 和 domain 正交分為四個(gè)詳細(xì)的場(chǎng)景。按照行徑數(shù)據(jù)的日期將數(shù)據(jù)集切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集:11 月 15 日 - 11 月 28 日為訓(xùn)練數(shù)據(jù),2021 年 11 月 29 日為驗(yàn)證數(shù)據(jù),2021 年 11 月 30 日為測(cè)試數(shù)據(jù)。進(jìn)行點(diǎn)擊率和轉(zhuǎn)化率的預(yù)估。觀察到兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)分布不平衡。例如,僅 VP&BS 場(chǎng)景中的展示次數(shù)在所有場(chǎng)景中占比 6.44%,大部分點(diǎn)擊出現(xiàn)在場(chǎng)景 VP&RI,反而占 82.33%。
速賣(mài)通數(shù)據(jù)集:一樣此數(shù)據(jù)集存在多場(chǎng)景(按用戶國(guó)籍劃分)和多任務(wù)的設(shè)置。在這次實(shí)驗(yàn)中,選擇了、、和四個(gè)場(chǎng)景的數(shù)據(jù)集。由于原始數(shù)據(jù)集只包括訓(xùn)練集和測(cè)試集,咱們隨機(jī)抽取 50% 的原始測(cè)試數(shù)據(jù)做為驗(yàn)證集。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/d3bc03a1927143bdb9ebe08ae1760d15~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=oRYG%2BpeNPi5E8MGARjN5Wc23Jfc%3D)
表 2:速賣(mài)通數(shù)據(jù)集統(tǒng)計(jì)狀況
咱們將 AESM 與兩類基線模型進(jìn)行對(duì)比:
門(mén)感知 (gate-base) 模型,它運(yùn)用門(mén)控機(jī)制來(lái)處理多場(chǎng)景或多任務(wù)問(wèn)題,包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多門(mén)混合專家隱式建模專家之間的關(guān)系,來(lái)自多個(gè)門(mén)的合并暗示能夠分別轉(zhuǎn)換為多個(gè)場(chǎng)景 / 任務(wù)預(yù)測(cè)層;HMoE [8] 運(yùn)用梯度切割技巧顯式編碼場(chǎng)景之間的相關(guān)關(guān)系,HMoE 采用兩個(gè)擁有單獨(dú)參數(shù)的模型來(lái)優(yōu)化 CTR 和 CVR 任務(wù);PLE [20] 是另一種先進(jìn)的 MMoE 變體,它將專家分為任務(wù)特定組和任務(wù)共享組,避免了區(qū)別任務(wù)之間的負(fù)遷移和蹺蹺板現(xiàn)象;無(wú)門(mén)模型,如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一個(gè)簡(jiǎn)單但廣泛運(yùn)用的模型,經(jīng)過(guò)共享的底層對(duì)共享的信息進(jìn)行編碼;Parallel DNN 是在基本 DNN 上增多適應(yīng)多場(chǎng)景或任務(wù)的轉(zhuǎn)換而來(lái);Cross-Stitch [13] 經(jīng)過(guò)線性交叉網(wǎng)絡(luò)將多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行組合,用于學(xué)習(xí)任務(wù)暗示;STAR 采用星型拓?fù)浣Y(jié)構(gòu),由共享中心網(wǎng)絡(luò)和場(chǎng)景特定網(wǎng)絡(luò)組合而成;借鑒 ESMM [12] 的思想,咱們優(yōu)化全部空間中的 CTR 和 CVR,即 = × 。運(yùn)用 auc 評(píng)定模型的性能。為了保準(zhǔn)公平,咱們做了以下工作:
因?yàn)?/span>以上的基線模型中并不可同期處理 MSL&MTL。咱們在基線模型上進(jìn)行結(jié)構(gòu)擴(kuò)展,來(lái)適應(yīng)咱們多場(chǎng)景多任務(wù)的需求。例如,針對(duì)多場(chǎng)景模型 STAR,我們?cè)谌蝿?wù)級(jí)實(shí)現(xiàn)另一個(gè)星型拓?fù)浣Y(jié)構(gòu)。針對(duì)多任務(wù)模型 PLE,在原有的公司上再疊加一層 PLE 結(jié)構(gòu)來(lái)處理多場(chǎng)景問(wèn)題。所有的基線模型同 AESM 同樣運(yùn)用合并場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)的結(jié)構(gòu)的深度及選取專家的個(gè)數(shù)等超參均保持一致。基線效果對(duì)比
表 3 和表 4 是支付寶和速賣(mài)通數(shù)據(jù)集上區(qū)別模型的性能對(duì)比。兩個(gè)表中的結(jié)果都顯示咱們提出的模型 AESM 在所有狀況下始終優(yōu)于所有基線任務(wù)。尤其數(shù)據(jù)稀疏度最高的主搜熱門(mén)基金,提高更為明顯。這顯示模型能夠適應(yīng)區(qū)別的配置的場(chǎng)景和任務(wù)。但其他模型則不必定,例如在 CTR 任務(wù)中,PLE 在 VP&BS 場(chǎng)景中的表現(xiàn)優(yōu)于 MMoE,但在 HP&BS 場(chǎng)景中的表現(xiàn)不如 MMoE。
與多場(chǎng)景和多任務(wù)設(shè)置中訓(xùn)練的模型相比,所有基線都受到來(lái)自區(qū)別場(chǎng)景的負(fù)遷移的影響。例如,它們?cè)?HP&BS 上的性能不如在單一場(chǎng)景中訓(xùn)練的模型。然而,AESM 在所有場(chǎng)景中都優(yōu)于所有單一場(chǎng)景模型,顯示 AESM 能夠更好地利用場(chǎng)景關(guān)系,避免負(fù)遷移。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5fc87162fe324fce94e465e93436d25d~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=nrZvEeuZSTyYQpTgmUPUsTDvUH4%3D)
表 3:區(qū)別模型在支付寶數(shù)據(jù)集上性能對(duì)比
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2c82a8c1a9b74672976ff38befc45fc8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=GU760W90iVgcP90cGIH3%2B5tKJCE%3D)
表 4:區(qū)別模型在速賣(mài)通數(shù)據(jù)集上性能對(duì)比
消融分析
為分析每種優(yōu)化的影響,采用兩種區(qū)別的 AESM 變體進(jìn)行消融分析:(1)無(wú)高斯噪聲和輔助損失 (2)無(wú)輔助損失。從下表的結(jié)果能夠看到,去除高斯噪聲和輔助損失后,所有任務(wù)上性能均有下降。
對(duì)比(1)(2)兩種變體 AESM,能夠看到高斯噪聲在所有的場(chǎng)景中均有著良好的表現(xiàn)。這寓意著恰當(dāng)的波動(dòng)給模型帶來(lái)了更為廣泛的探索空間, 得到更為精確的模型參數(shù)。
輔助損失能夠引導(dǎo)專家網(wǎng)絡(luò)選取更接近假定的分布。下圖的結(jié)果暗示,當(dāng)刪除輔助 loss 時(shí),場(chǎng)景和任務(wù)的性能均會(huì)下降。咱們進(jìn)一步地繪制了門(mén)控矩陣下,選定的場(chǎng)景 / 任務(wù)分布與假設(shè)分布(獨(dú)熱和均勻分布)之間的 KL 散度的差異。能夠看到增多輔助損失后,兩種分布之間的 KL 散度損失是逐步下降的。顯然,加入輔助損失后模型能夠稀疏地進(jìn)行專家選取。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5fe476e37d254f578f9c46bb7b023de1~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=irE5ZLz8CNSGRhaRS0jyP3U%2FRhA%3D)
圖 8:稀疏化輔助 loss 的訓(xùn)練收斂對(duì)比
專家選取的可視化
咱們可視化了支付寶數(shù)據(jù)集中,場(chǎng)景 / 任務(wù)的 specific/share 組的專家利用率,即 gate 激活程度。為了簡(jiǎn)單起見(jiàn),每一個(gè)層(即通道、域和任務(wù))都包括兩層專家選取層。
特定專家集和共享專家集都配置為僅選取一位專家 (topk=1)。下圖表示,在 channel 級(jí)別,共享同一類型通道的場(chǎng)景擁有更類似的分布。這顯示咱們的模型能夠動(dòng)態(tài)地模擬繁雜的共享信息和場(chǎng)景之間的差異。相比之下,PLE 以靜態(tài)方式定義特定 / 共享專家。在任務(wù)層面,咱們觀察每項(xiàng)任務(wù),幾乎在特定 / 共享組中選取一位專家,這寓意著咱們的模型亦能夠收斂到 PLE 設(shè)置。
這些觀察結(jié)果顯示,AESM^2 是一種更通用的模型,能夠適應(yīng)區(qū)別場(chǎng)景 / 任務(wù)的區(qū)別結(jié)構(gòu)。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8b7caf9a759e4c71b8880bf8441ed6bf~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Ok%2B5zKv11RBRiq2wwI%2BQMEXCrbY%3D)
圖 9:區(qū)別層級(jí)專家的被選取概率可視化對(duì)比
AESM 自動(dòng)專家選取的討論
為了定性的討論這個(gè)問(wèn)題,就需要先思考多場(chǎng)景和多任務(wù)問(wèn)題的本質(zhì)區(qū)別是什么?
多場(chǎng)景和多任務(wù),都屬于多目的問(wèn)題的一個(gè)子集。筆者認(rèn)為,多場(chǎng)景問(wèn)題本質(zhì)上需求泛化性,帕累托最優(yōu)中的資源是模型參數(shù)的歸屬,任何一個(gè)事件(如點(diǎn)擊和轉(zhuǎn)化),不可能在兩個(gè)場(chǎng)景同期出現(xiàn);而多任務(wù)問(wèn)題恰恰相反,帕累托最優(yōu)的資源約束,重點(diǎn)是參數(shù)權(quán)重本身,是梯度沖突引起的參數(shù)更新方向的沖突,但并不尤其強(qiáng)調(diào)泛化性:一般模型參數(shù)量越大,帕累托前沿越向前,但卻會(huì)損害泛化性,這一點(diǎn)可經(jīng)過(guò)下圖的實(shí)驗(yàn)證明,來(lái)自文獻(xiàn) [13]。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/340c862a389043198f3f05f75f221104~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=3bg5TJoyoAwi0FEy%2FqQqikGAIXQ%3D)
參數(shù)量會(huì)明顯地影響多任務(wù)模型的泛化性和效率。因此呢想要同期處理多場(chǎng)景多任務(wù),就必須平衡效率(帕累托前沿)和泛化性,它們是天然沖突的。處理這一問(wèn)題最直觀的思路,是經(jīng)過(guò) bottleneck 網(wǎng)絡(luò)結(jié)構(gòu),在靠近輸出層增多模型參數(shù),提高帕累托前沿;而在底層施加稀疏性約束,使得底層提高泛化性。
值得指出,倘若只是處理多任務(wù)優(yōu)化問(wèn)題,會(huì)有非常多辦法能夠做到。但 AESM 辦法卻經(jīng)過(guò)相當(dāng)簡(jiǎn)單的方式,經(jīng)過(guò)施加噪聲和稀疏化,在類似 MMOE 的框架下,實(shí)現(xiàn)了類似 bottleneck 和 dropout 的思路來(lái)實(shí)現(xiàn)專家選取,讓參數(shù)盡可能在底層而不是上層實(shí)現(xiàn)共享,從而必定程度上平衡了多場(chǎng)景和多任務(wù)分別需求的泛化性和帕累托前沿的問(wèn)題。
5、業(yè)務(wù)效果和在線實(shí)驗(yàn)
線上推全實(shí)驗(yàn)
咱們在 2022 年 1 月底起始,與四個(gè)場(chǎng)景的線上基線(基于行徑序列的 DIN+ESMM) 進(jìn)行了兩周的在線 A/B。效果明顯優(yōu)于其他所有場(chǎng)景,并進(jìn)行了推全。
以下是在各個(gè)場(chǎng)景各自的提高(其中在主搜熱門(mén)基金和主搜基金制品觀察到 darwin 實(shí)驗(yàn)的置信提高):
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/70390959a5a44907bb052709bdf9ee0a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=5V0VM4XmvubZ9gsl7TEBb5TOcHY%3D)
以下是所有場(chǎng)景匯總后,實(shí)驗(yàn)桶相比基準(zhǔn)桶整體的提高:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6e92fc3825dc45618d8edf28369d110f~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=V%2BCjFCDiXmfOOleClQ2naWJLqgY%3D)
線上消融實(shí)驗(yàn)
盡管咱們做了扎實(shí)的離線消融實(shí)驗(yàn)。但與強(qiáng) baseline,如雙層 PLE 等辦法進(jìn)行線上 AB 對(duì)比,則更能反映算法和系統(tǒng)的真實(shí)性能。
為驗(yàn)證 AESM 模型有效性, 咱們在主搜、垂搜的熱門(mén)基金和基金制品四個(gè)場(chǎng)景分別設(shè)計(jì)如下四組實(shí)驗(yàn):
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/69026f554434456d9e4276c4fc5a9b1c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=kAtex9bc7LDnxCCE6TR49gTtNbU%3D)
經(jīng)過(guò)實(shí)驗(yàn)咱們發(fā)掘,對(duì)基金搜索所有的揭發(fā)點(diǎn)擊行徑數(shù)據(jù)來(lái)看,AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三個(gè)指標(biāo)上相比其他基線有明顯提高。其中關(guān)鍵指標(biāo) CTCVR,相比統(tǒng)一訓(xùn)練 + 單層 PLE 提高 4.7%。
以 CTCVR 為 KPI,拆解到區(qū)別場(chǎng)景的的效果對(duì)比。垂搜基金制品做為主力場(chǎng)景,其他場(chǎng)景為其帶來(lái)的優(yōu)良微乎其微,然則它能夠較強(qiáng)地為其他稀疏場(chǎng)景供給遷移效果,詳細(xì)見(jiàn)下圖:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a6947088187e4dcfa64eb1ae835762c0~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=UVYawGhuw4Vcn2gYj0ys6UCFh5A%3D)
咱們將以上數(shù)據(jù)繪制到下圖中,可更知道地表現(xiàn) AESM 的優(yōu)良:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/09a0c94051c8442db730fc3a6290bf47~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ODn3FrVavsVdcXU%2Bwl%2F6cA%2FaHHM%3D)
圖 10:經(jīng)過(guò)線上消融實(shí)驗(yàn),與其他辦法的效果對(duì)比
6、總結(jié)和后續(xù)改進(jìn)
日前 AESM 已然在數(shù)金搜索的基金主場(chǎng)景進(jìn)行了全流量安排。這可能是第1個(gè)在統(tǒng)一框架內(nèi),同期處理 MSL 和 MTL 問(wèn)題的辦法,并擁有以下優(yōu)點(diǎn):
大大降低繁雜場(chǎng)景間的負(fù)遷移現(xiàn)象,以實(shí)現(xiàn)最優(yōu)的信息共享。實(shí)質(zhì)業(yè)務(wù)中,非常多場(chǎng)景能夠組織為層次結(jié)構(gòu),對(duì)其進(jìn)行層疊式的建模,可進(jìn)一步加強(qiáng)性能,并明顯降低計(jì)算成本。經(jīng)過(guò)噪音探索,稀疏化專家選取和集中性約束的機(jī)制,實(shí)現(xiàn)了自動(dòng)提取場(chǎng)景 / 任務(wù) specific 和 share 樣本級(jí)專家選取算 法。詳細(xì)的,基于 multi-gate 混合專家的稀疏化結(jié)構(gòu),實(shí)現(xiàn)自適應(yīng)結(jié)構(gòu)學(xué)習(xí),并設(shè)計(jì)了輔助損失函數(shù)來(lái)指點(diǎn)訓(xùn)練過(guò)程。值得指出,AESM 后續(xù)有有些值得繼續(xù)探索的方向。
AESM 經(jīng)過(guò)噪音提高探索空間,但噪音強(qiáng)度做為超參難以選取,應(yīng)探索和實(shí)驗(yàn)更穩(wěn)健和魯棒的專家探索方式。當(dāng)需要增多場(chǎng)景 / 任務(wù)時(shí),之前模型需要重新設(shè)計(jì)和訓(xùn)練。怎樣優(yōu)化 AESM,使得其能夠進(jìn)一步適應(yīng)動(dòng)態(tài)和異構(gòu)的場(chǎng)景任務(wù)結(jié)構(gòu),并更好的處理冷起步問(wèn)題,將會(huì)是一個(gè)有挑戰(zhàn)的問(wèn)題。咱們在橫向?qū)<覍用孀隽俗詣?dòng)專家選取,但在縱向(深度)上亦存在自動(dòng)專家選取的可能性必要性:自動(dòng)殘差網(wǎng)絡(luò),將會(huì)是一個(gè)令人興奮的方向。AESM 和谷歌最新的 MOE 架構(gòu) Pathways 有有些類似性,能幫忙咱們實(shí)現(xiàn)更加多異構(gòu)任務(wù)的統(tǒng)一訓(xùn)練和優(yōu)化。后續(xù)咱們會(huì)積極地探索新的改進(jìn)計(jì)劃。歡迎業(yè)界同仁一起討論。
7、參考文獻(xiàn)
[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.
[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.
[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.
[4] Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.
[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.
[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).
[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).
[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.
[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.
[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.
[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.
[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.
[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences