与1500多支国内外队伍同台竞技,快手在NeurIPS 2
作者:[db:作者]日期:2024/12/24 浏览:
这多少天,学术圈的小搭档确定都很存眷正在加拿年夜温哥华举行的呆板进修顶会——NeurIPS 2024。本届集会于本日落下帷幕,共接受 15671 篇无效论文投稿,比客岁增加了 27%,终极接受率为 25.8%。本届集会上同样值得存眷的,另有一项主要的赛事,它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」(年夜范围拍卖中的主动出价),旨在摸索以后炽热的强化进修、天生模子、Agent 等前沿 AI 技巧在告白投放以及决议智能场景的利用。该赛事不只是业内初次告白出价竞赛,也是 NeurIPS 2024 独一的搜广推竞赛,能够说规格跟含金量都很高,也因而播种了超高的热度,吸引超越 1500 支步队参赛,此中不乏海内外著名高校跟公司、专业研讨机构以及决议智能范畴著名团队的身影。赛事主页:https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/简略来说,在竞赛中,参赛者表演主动出价 Agent(即告白主),在年夜范围拍卖情况下与其余 47 个竞争敌手抗衡,作出无效的出价决议,并在满意投放需要的情形下辅助告白主最年夜化投放后果。此次竞赛分为了两个赛道,分辨是通用赛道跟 AIGB(AI-Generated Bidding)赛道。两个赛道着重点各有差别,对参赛步队提出了差别的技巧请求,此中:通用赛道存眷不断定情况中的主动出价,须要处理数据稀少性、转化方差、多坑等不断定成绩;AIGB 赛道应用天生模子来进修主动出价 Agent,须要采取天生模子来端到端输出决议。算起来,自往年 6 月尾注册阶段开端,经由了近半年的剧烈比赛,竞赛终于决出了输赢!快手贸易化算法团队(简称快手团队)从千余支步队中怀才不遇,包办了两个赛道的第一名,成为本次赛事最年夜赢家。夺冠计划主动出价效劳是海内外各告白平台的基本构成模块,有浩繁的业界实际跟研讨任务。此次竞赛义务基于一个简化版本的 Target CPA,并将 CPA 界说为均匀转化本钱。参赛者须要计划跟实现一个主动出价 Agent。给定告白主 j 的估算 B 跟目的 CPA C,该主动出价 Agent 在一个告白投放周期内对 N 个展示机遇停止竞价,目的是在保障终极实现的 CPA 不年夜于 C 的条件下,最年夜化总转化量。详细来说,全部展示机遇按次序达到,出价 Agent 顺次对每个机遇停止竞价。对每个机遇 i:出价:主动出价 Agent 出价,同时其余竞争告白主应用他们的独自的出价 Agent 出价,来竞争 3 个告白坑位。此中,出价会依附转化概率值,]article_adlist-->定位为预估的尺度差。界说为告白主 j 的告白曝光给用户时的转化举措概率,拍卖:告白平台运转 GSP(Generalized Second Price)拍卖机制,依照出价从高到低顺次调配 3 个到坑位上,得胜者依照下一位出价停止扣费。拍卖成果会前往给出价 Agent,此中]article_adlist-->不只取决于还取决于。表现须要付出的用度。表现博得的告白坑位,表现能否得胜,展示:告白坑位能否曝光给用户由随机变量]article_adlist-->]article_adlist-->为预估尺度差。假如告白坑位未曝光,告白主无需付出用度,转化也不会产生。因而,这个义务能够情势化如下:,]article_adlist-->,此中是告白坑位的曝光概率。现实能否产生转化也是一个随机变量,界说为决议,此中终极实现的 CPA 界说为:主动出价 Agent 的目的是在满意告白主设定的 CPA 束缚情形下最年夜化转化量。详细的评价指标界说如下:此中,]article_adlist-->,在超本钱即现实 CPA > C 时,P (CPA; C) < 1,会对转化停止降权。对应优化目的最年夜化转化总体来说,这项竞赛不只能够增进决议技巧的冲破,并且还将给行业利用场景带来启示。咱们来看下快手是怎样在通用跟 AIGB 两个赛道拔得头筹的。通用赛道事实天下中,庞杂的告白拍卖情况每每会带来额定的挑衅,特殊是不断定性。因而,通用赛道请求参赛者在年夜范围拍卖中做出无效竞价决议,须要无效感知竞争敌手战略的变更。参赛者必需斟酌客户达到的随机性、转化猜测的方差、数据稀少性跟其余要素。这就须要在离线计划最优解的基本上,自顺应在线竞价进程,以取得更优出价序列。快手团队翻新地提出了一种基于强化进修的在线摸索技巧计划,奇妙地处理了该成绩。起首,斟酌多坑特色,快手团队基于竞胜率以及多坑的曝光率将成绩建模成束缚优化成绩,并基于该成绩的对偶成绩求解出离线最优出价系数,失掉最优出价情势。而后,快手团队建模出价系数跟将来预期耗费以及预期转化的关联,而且为懂得决不断定性成绩,在建模时综合斟酌了浓密的先验转化以及稀少的后验转化。最后,为了顺应在线情况的不断定性,快手团队提出基于强化进修的在线搜寻计划:起首搭建一个竞价模仿器情况,可能进修差别出价对应的序列临时代价;而后基于离线最优出价系数规定一个区间停止采样,最后筛选出代价最优的举措(action)作为终极的出价系数。联合最优化实践跟强化进修在线搜寻。AIGB 赛道比拟于通用赛道,AIGB 赛道面向一种全新的迭代范式。因为天生模子,包含分散模子(Diffusion Model)、决议 Transformer(Decision Transformer)、年夜型言语模子(LLM),在言语、视觉等范畴表现出算力跟数据的 scaling law,而且在决议义务中表示出了宏大的潜力,因而 AIGB 赛道请求采取天生模子,将主动出价建模为天生式序列决议成绩,摸索天生模子用于出价成绩的机遇。在 AIGB 赛道,一个起首要处理的成绩是抉择模子架构。序列决议范畴有分散模子跟决议 Transformer 两年夜类。参赛者面对在竞争性游戏中做出临时策略决议的要害挑衅,浩繁竞争敌手的战略会疾速产生变更,以 DiffBid 为代表的分散模子计划存在两个缺乏:优化目的对齐才能弱:一次性天生一条序列,序列之间束缚较弱,乃至学不出残余估算枯燥递加这一性子;练习效力低:是两阶段范式,起首猜测状况序列 {s_{t+1},s_{t+2},...,s_{T}},而后依据 {s_t,s_{t+1}} 猜测终极出价,练习较为庞杂。而决议 Transformer 建模临时代价 return to go(RTG),直接猜测出价,比拟于 DiffBid 存在跟目的对齐才能更强、练习更简略的上风。但是,快手团队发明:决议 Transformer 模子的进修机制是模拟进修,难以进修到超越数据集的出价战略。因而,他们斟酌在战略进修时摸索更优的出价系数,加强模子进修,但简略的摸索很轻易招致离线强化进修的散布外(Out Of Distribution,OOD)成绩。为懂得决这个成绩,快手团队从决议 Transformer 的实质动身,即决议 Transformer 依据 RTG 天生对应的出价系数,下一时辰的高 RTG 出价系数(临时代价)须要有更年夜的天生概率。有了这个要害认知,快手团队提出一种 RTG 领导的出价系数摸索计划——Decision Transformer with RTG-driven Explorations,保障摸索性的同时统筹保险性,从而加强模子进修。Decision Transformer with RTG-driven Explorations简略来说,Decision Transformer with RTG-driven Explorations 计划重要包含如下步调:起首练习模子预估下一时辰的 RTG,具有评价摸索的出价系数优劣的才能。每个 timestep 额定猜测一个基于原始出价系数]article_adlist-->,激励模子摸索下一时辰 RTG 更高的出价系数。摸索新的出价系数模子朝着原始出价系数跟摸索到的出价系数中更优的出价系数更新,防止 OOD 成绩。告白收入晋升 5%+基于 RL 的主动出价在营业侧开端发力提及来,告白投放的目标实在很简略,以企业或商家为主的告白主抉择适合的告白平台,将告白通报给受众(即花费者)。但实现起来须要斟酌的要素就多了,比方针对统一告白位开展竞争出价、投放估算与现实投放本钱、投放收益等。这就请求告白主停止全方位衡量,此中静态调剂出价是把持告白本钱跟晋升告白收入的要害一环。而作为告白投放平台,快手也在告白推举、估算调配战略、后果预估以及尤为主要的主动出价调剂等层面停止算法上的优化进级,更好地效劳于客户的同时增添本身告白收入。从纵素来看,快手的出价算法阅历了从 PID、MPC 到强化进修(RL)的「三代」演变门路,技巧上的连续迭代更新带来了告白投放后果的节节晋升。第一代出价算法 PID(主动反应式把持)包括了三个要害的把持参数:比例(Proportional)、积分(Integral)跟微分(Derivative)。该算法能够经由过程静态调剂出价来很好地将告白均匀成交价稳固在目的成交价,但缺乏的点在于对将来耗费跟预期耗费不预估跟计划。第二代出价算法 MPC,它的全称为 Model Predictive Control,引入了对将来的猜测,在对出价与将来耗费、本钱的关联停止建模的基本上能够做出更精准的出价计划。不外,该算法建模才能较弱,也无奈做出多步临时决议。到了强化进修阶段,包含出价、本钱、用户行动在内各个变量的建模才能年夜年夜增强,并对序列团体临时代价停止优化。经由过程一直与情况互动,强化进修算法能够依据及时市场情况变更调剂出价,并可能预估临时告白后果以做出更准确的出价决议。相较于 PID、MPC,强化进修算法在静态决议、处置庞杂情况与竞争行动、多目的优化、应答不断定性与数据稀缺、临时收益优化等多个方面都占优。别的,面临 OOD 成绩,快手在算法选型上采取了离线强化进修算法,缓解了练习数据集缺乏带来的成绩,能够更持重地停止决议,下降战略生效的危险;快手又搭建离线模仿情况,优化出价战略并验证后果,确保在线战略的保险性、无效性跟持重性,下降高危险决议可能形成的丧失。现在,基于强化进修的主动出价模子曾经在快手告白体系全量推全,在本钱达标不降束缚下获得了 5% 以上的告白收入晋升。融化试验也证实了:收益来自于模子泛化以及强化进修最年夜化序列代价建模。经由过程此次年夜赛,快手看到天生模子(如 Decision Transformer)在告白出价场景中的利用潜力。固然相较于强化进修在最年夜化序列团体代价方面存在短板,但对序列数据的拟合才能更强,因而二者的无效联合可能是下一代更强出价模子的演变偏向。同时,快手也畅想鉴戒 o1 思维,经由过程 Monte-Carlo Tree Search(MCTS)技巧搜寻差别出价序列,筛选出最优门路,在多轮决议跟推理进程中优化出价战略。夺冠背地是 AI 技巧的厚积薄发此次 NeurIPS 2024 年夜赛,真正解释了快手贸易化算法团队的 AI 技巧积聚以及在现实营业中禁受磨练的信念。从断定参赛、后期筹备, 到训练轮(Practice Round)、再到正式竞赛(Official Round),参赛成员在多少个月的时光里,霸占了不少的难关,这才有了终极的双赛道夺冠。参赛成员来自清华年夜学、喷鼻港中文年夜学、喷鼻港都会年夜学、南洋理工年夜学等海内外名校。在谈到此次最年夜的播种时,他们表现对多少类出价算法(包含最优化实践、强化进修跟天生模子)的好坏有了定性跟定量的剖析,并对将来出价技巧的演进做出清楚的断定。并且,此次竞赛提出的翻新点在快手的告白营业中也失掉了开端验证。据懂得,作为快手中心算法部分,贸易化算法团队担任快手海内及海内多场景的变现算法研发,出力构建当先的告白变现算法,经由过程算法驱动贸易营销增加,优化用户跟客户休会。团队依靠快手现实营业成绩,产召盘会论文笼罩 KDD、ICLR、NeurIPS、CVPR 等多个范畴的国际集会,还先后斩获 CIKM Best Paper、SIGIR Best Paper 提名奖、钱伟长中文信息处置迷信技巧奖一等奖。在 AI 技巧层面的硬气力,是他们此次夺冠的最年夜底气。作为一家以人工智能为中心驱动跟技巧依靠的科技公司,快手曾经看到了以技巧为引擎、辅以算法在推进事迹增加方面的宏大代价。将来,快手将持续摸索强化进修、天生模子等 AI 技巧在告白出价以及更普遍营业场景的落地。届时又会带来哪些惊喜,咱们刮目相待。© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->
相关文章