• 歧义词的多意图：多意图query下，基于样本生成逻辑，会偏向主意图，弱化甚至丢失次意图，导致召回问题，例如：小米（粮食or手机？），苹果（水果or手机？）；

• 长尾类目冷启：由于用户点击数据的马太效应，使得大量的长尾类目没有曝光机会，类目下商品无法获得点击，加深了模型无法得到长尾类目训练数据的问题，例如：服务类，健康类，工业品类；

• 长尾query的多意图：由于用户背景和表达习惯不同，对同类商品需求，会有多种表达方式，产生很多长尾query。模型给出的类目不准，因此产生的点击数据也不够准确。

生成-判别模型增强长尾类目训练数据

模型的训练依赖query点击商品的类目来作为监督信号。像这些偏冷启动类目的商品，我们希望通过增加商品曝光来让它们获得更多点击。有了点击数据，就能正向影响下次模型迭代，让模型下一次可以预测的更准。从而让整个模型迭代的流程形成良性循环，而不是马太效应的恶性循环。

解决方案：针对训练样本的类目高度不平衡问题，我们设计了生成-匹配模型，预训练一个query生成模型+query-SKU匹配模型，生成模型用来根据SKU的标题/属性信息生成query，匹配模型用于计算生成query和原SKU title的相关性分数，卡掉低质量的query，保证生成query的质量。Sku的类目作为生成query的类目，补充到类目预测的训练样本中，平衡和缓解训练集类目失衡问题，让模型能够学习到用户query中的长尾类目需求，从而让长尾类目商品有一定的曝光机会。

生成数据样例：

基于搜索日志数据预训练的生成-匹配模型不仅可以在类目预测中使用，也可以用在其他相关业务线。例如query suggestion 和 query改写业务，根据sku title生成的query可以作为两者的query召回源。

先验知识注入模型解决中长尾类目召回不足导致的商家获量困难问题

算法训练以用户点击sku的类目为标签。但由于马太效应，高点击商品的类目才能获得展现。模型的更新，反而会加剧马太效应，形成恶性循环。

• 用户反馈信号被高频类目主导，需打破仅依赖用户反馈的马太效应闭环。例如：用户搜“耳机”，相关类目包含 862-手机耳机，842-蓝牙耳机... 等9个三级类目。由于马太效应，系统只能展现出1~2个高点击类目的商品，中长尾类目下商品无展现。

• 业界最新算法，也高度依赖后验反馈信号，无法召回中长尾类目。

解决方案：通过引入先验知识和模型的优化，增强模型对电商知识的感知，弱化模型对后验反馈的依赖：引入先验知识：类目语义知识、类目共现/语义关系图。通过提取类目名、类目的产品词等，代表类目侧的语义表征。通过类目关系图，反映类目共点击和语义相似关系，实现头部类目带长尾（相关）类目来提升召回率。学习先验知识：设计新模型，以BERT为文本编码器，学习Query和类目表征。以多通道GCN为图结构编码器，学习类目之间的关系。设计半监督Loss，通过query-类目语义匹配分数，作为监督信号增强类目标签。

算法方案发表于WWW 2024《A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce》

2、广告多模态内容理解

随着富媒体时代的到来，商业广告已告别了纯文本广告时代，图文广告、视频广告已成为广告主进行创意表达的新型方式。目前京东APP中的推荐和搜索页面均包含大量图像、视频形式的商品展示。在此场景下，传统单模态or少模态的建模方式，有以下问题：

• 无法建模视觉信息对用户行为的影响，用户对商品展示效果的偏好无法建模。

• 只局限在文本/ID特征上，无法对商品细节进行精准建模。

• 大量使用物料 ID 特征会带来模型记忆性的问题，使得整个广告系统对广告物料的换血能力会比较差，新物料无法在系统中快速生效。

针对上述问题，我们在广告场景下实现了多方位的多模态表征能力建设，并在召回及创意等环节进行了应用，取得了显著的线上效果提升。

图1.电商场景下的多模态商品展示

多模态表征在召回环节的应用

当前线上的向量化召回模型，过于依赖于sku的切词特征、品牌、类目特征等客观特征，对于刻画sku的全局属性、主观信息等方面的能力是缺失的。引入sku的图像信息，相当于从另一个维度增加了图片的信息，对于query-item本身的match任务是有正向增益效果的。在未来的发展趋势中，单纯基于文本匹配的方式已经缺乏了优势，图像、视频、虚拟现实&人机交互等途径的冲击对传统的搜索、推荐任务提出了新的挑战。

基于图像&文本多模态的商品表征本工作中，我们基于双流模型pipeline，分别利用预训练的文本表征提取网络和图像表征提取网络，提取京东站内商品的视觉与文本表征，并通过不同的对齐流程得到用于下游推荐任务的多模态商品表征。整体流程包括：内容模态表征提取->内容模态对齐->推荐空间对齐三个主要部分。内容模态表征提取对于文本模态信息，基于商品标题+品牌词+三级类目，使用预训练的BGE-large-zh1.5模型提取隐层表征，对于视觉模态信息，基于商品主图，使用预训练ViT-CLIP-base提取视觉表征。内容模态对齐：对基于预训练backbone提取到的隐层表征，使用基于CLIP的对比学习方式训练一个projection head，对文本和视觉模态进行对齐和降维处理。推荐空间对齐：在对齐到推荐任务的语义空间时，首先构造不同模态的商品关系图，之后利用Gate-GNN的特征聚合能力，在item-item关系图上进行基于商品活跃度的聚合，得到混合模态的商品表表征。

多模态表征在创意优选环节的应用

创意优选环节的多模态理解与排序等环节存在较大区别，排序任务的目标是建模同一用户在多个候选sku之间的排序关系，用多模态理解作sku信息精细化建模的信息增益来源，更好地建模商品信息，以实现不同商品之间的对比。创意可以表征很多高阶的结构化信息。基于这一点，在创意优化的特征工程上，方向大致是：强化User/Context，弱化Item/POI，通过引入多模态的创意表征，来个性化地学习到创意中的卖点信息，从而实现创意层面的最优排序。

基于图像模态的商品表征目前商详主图中存在一定的噪声，因此对于全图的表征往往会受到噪声的干扰，之前的做法往往先对主商品进行抠图，之后再进行特征提取，但是这种两阶段的特征提取依赖主图区域的准确标注，并会带来误差累积的问题，不适合缺乏标签的电商图像预训练任务。我们考虑直接进行图像自监督方法（DINO）进行预训练，在模型训练的同时端到端提取可靠的图像主体表征，具体流程如下图所示：

无监督模型方案

注意力图可视化

二、流量售卖机制——更优的机制能力

1、ListVCG：基于强化学习的序列拍卖机制

推荐信息流广告是典型的多品拍卖场景，业界通用方案GSP在理论、效率上均不是最优解，VCG多品拍卖机制是我们的理想方案。但是VCG仅仅是一个理论上的解决方案，他的前提是需要高效的找到最佳组合拍卖结果。与此同时，推荐业务复杂，是典型的多目标优化场景，但是标准VCG是追求社会福利最大化的机制，因此在由GSP切换到VCG时，平台收益在短期内会显著下降，这也是业界公认的VCG机制切换难题。因此如何将VCG与多目标优化进行结合也是我们面临的主要挑战。结合京东的实际应用场景，我们提出了ListVCG拍卖机制，来解决上述问题。

首先面临要解决的是700选4的排列组合问题，序列的搜索空间上千亿，我们将此定义成一个强化学习的问题，借鉴了经典的Actor-Critic架构，Actor输出概率矩阵，通过采样的手段去求解排列组合问题，同时我们利用用户的真实反馈去提升Critic的评估水平，挑选出的最优组合会利用策略梯度的方式指引Actor学习。通过这种互相迭代自提升的方式去高效逼近最优组合。

VCG下的多品拍卖同时是一个经济学问题，需要满足激励相容的拍卖理论约束来保证长期的生态健康发展，然而常见的多目标问题的优化思路会使得无法使用vcg计费。因此我们在Listvcg中对于ECPM价值进行了参数化的变形，在保证可计费的同时通过可学习的参数来满足平台收益、社会福利、用户体验以及物料整体价值多目标优化的诉求。

为了更好地对流量长期价值进行建模，我们自然地引入了强化学习的方式，起初我们尝试了传统off-policy的Q-Learning算法如DDQN等，然而，由于后验反馈的奖励稀疏，模型训练效果不稳定，因此，我们尝试引入reward shaping以及curriculum RL的思想，通过加入稠密先验奖励缓解数据侧的奖励稀疏，并让模型在相对简单的单步决策任务（如序列曝光、点击、单步价值预估等）收敛后，再学习长期决策任务，使得模型效果有了显著提升，在优化长期竞价环境的同时，实现了短期收入和广告主roi的上升。

2、基于强化学习的多智能体博弈

多智体在拍卖机制的博弈环境

目标层面：机制和出价智能体联合优化是行业发展趋势，出价与机制智能体具有一致的整体目标。

算法层面：我们从算法视角分析出价与机制的策略如何影响广告收入和tcharge。

• 平台一段时间的收入由以下三个因素决定：

1. 流量价值分布：一段时间请求数量，广告主数量，以及每个请求pctr、pcvr、tcpa

2. 广告主调价策略：bid ratio （假设这段时间不变）

3. 平台机制策略：分配以及计费规则

• 具体的，我们有（假设100个请求，10个广告主）

机制、出价与用户（环境）的交互关系如下图所示，事实上，在单智能体强化学习下，机制和出价互为环境

基于强化学习的多智能体博弈的研究和落地工作

基于MPC和强化学习的出价算法优化点主要在于对未来一段时间请求环境奖励（tcharge、达成率）的预测，以及根据当前的状态（展现、点击、消耗、达成情况）来决定下一步动作（bid ratio）；同样的，基于强化学习的机制策略也需要对未来一段时间请求环境奖励（广告收入）进行预测，并且根据当前的状态（历史收入、预算情况等）来决定下一步动作（分配&计费）。

机制和出价对未来一段时间奖励预测越准确，动作选择越准确，会带来越多的收入和达成提升。为此，我们根据不同阶段对多智能体技术就行研发：

（1）第一阶段：基于离线请求数据的模拟

• 出价和机制智能体一侧固定，通过离线模拟尽可能还原线上策略，进行模型训练

• 难点：

◦ 缺少精确的离线模拟环境，目前只有部分精排队列还原，复杂逻辑难以还原

◦ 计算量级大；新的机制还在不断迭代中

（2）第二阶段：基于离线仿真环境的模拟

• 出价和机制智能体通过感知自身不同动作下对方的反馈，对未来奖励预估更准确

• 风险：

◦ 模拟误差累计增大（无法模拟部分/用户行为模拟偏差）

◦ 实验评估难以进行

以机制为例，收益本质上来自于对广告主未来行为的预测，比如在某个流量上bidder由于bid ratio高（但是cvr低）获得了流量，虽然平台当次请求收入最大，但是会影响后续bid ratio调节，整体收入非最优。通过在仿真环境下寻找更优均衡（需考虑离在线不一致的问题），可以避免广告主（比如某个类目）的出价收敛到对平台整体收入不利的均衡。

三、广告生成式推荐——更颠覆的推荐范式

在京东广告场景，我们面临了如下的挑战：用户行为复杂、平台数据边界、数据稀疏性高、冷启动问题、场景理解困难、多样性和新颖性。由于现实系统中的商品数量巨大，传统RS通常采用多级过滤范式，包括召回、粗排、精排、重排等流程，

相较于传统RS，生成式推荐系统具备如下的优势：1）简化推荐流程。实现从多级过滤范式（discriminative-based，判别式）到单级过滤范式（generative-based，生成式）的变迁。2）具备更好的泛化性和稳定性。利用LLM中的世界知识和推理能力，在具有新用户和商品的冷启动和新领域场景下具备更好的推荐效果和迁移效果。

1、方案

生成式推荐涉及两个接地（grounding）过程，“将语言空间接地到推荐空间”和“将推荐空间接地到实际商品空间”。为了实现这两个过程，我们的方案如下：

步骤一：商品量化表示阶段

选取高点击商品的标题、类目等语义信息，经由编码器模型获得向量表示，再利用RQ-VAE对向量进行残差量化，从而获得商品的语义ID。例如，商品“ThinkPad 联想ThinkBook 14+ 2024 14.5英寸轻薄本英特尔酷睿ultra AI全能本高性能独显商务办公笔记本电脑”可表示为：<a_99><b_225><c_67><d_242>

步骤二：继续预训练阶段

（1）量化token扩展大模型词表并完成初始化

将商品量化表示的底层token集合，加入到大模型中，进行微调对齐训练，使得模型“理解"这些底层token

（2）语义ID和商品文本信息互译任务

提示词:
请告诉我,商品的四元组表示为{input_turple}的标题是什么？
输入:
<a_1><b_2><c_3><d_4>
输出:
华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白

提示词:
请告诉我,商品的标题是{input_title}, 它的四元组表示是什么?
输入:
华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白
输出:
<a_1><b_2><c_3><d_4>

步骤三：微调阶段

非对称商品预测任务1:
提示词:
用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},
请帮我预测用户下一个要浏览的商品是什么？
输入:
<a_1><b_2><c_3><d_4>,
<a_1><b_2><c_3><d_7>,
<a_1><b_2><c_3><d_9>, 
<a_1><b_2><c_4><d_2>
输出:
华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白

提示词:
用户历史浏览的商品序列的文本语义信息为{input_text1, input_text2, ..., input_text_N},
请帮我预测用户下一个要浏览的商品是什么？
输入:
华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白,
华为（HUAWEI）旗舰手机mate60 pro+ 16G+1TB 宣白,
华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 砚黑，
华为（HUAWEI）旗舰手机mate60 pro+ 16G+1TB 砚黑,
华为
输出:
<a_1><b_2><c_3><d_4>

提示词:
用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},
请帮我预测用户下一个要浏览的商品是什么？
输入:
<a_1><b_2><c_3><d_4>，<a_1><b_2><c_3><d_7>, <a_1><b_2><c_3><d_9>, <a_1><b_2><c_4><d_2>
输出:
<a_1><b_2><c_3><d_2>

步骤四：DPO阶段

提示词:
用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},
请帮我预测用户下一个要浏览的商品是什么？
输入:
<a_35><b_87><c_282><d_347>, <a_35><b_89><c_17><d_363>, <a_112><b_140><c_435><d_946>, <a_112><b_103><c_449><d_942>
正例: 
<a_21><b_37><c_138><d_524>
负例:
<a_21><b_188><c_357><d_377>

2、效果

我们将上述方案应用于京东站内和站外广告的推荐流程，取得了显著的效果提升。

四、广告智能创意——更生动的视觉冲击

广告创意不仅能够抓住消费者的眼球，还可以传递品牌核心价值和故事，建立起与消费者之间的情感联系。在电商场景下，创意内容是影响用户点击的重要因素，对广告收入有着重要的影响。为了满足千人千面的用户偏好，我们在大模型时代借助其强大的生成能力，产出以下一系列的创意内容：

尽管最近AIGC技术蓬勃发展，使得创意制作摆脱了成本和效率的限制。然而，大模型在广告创意的应用上还存在诸多问题。如下方图片所示，现有的图片生成模型会产出空间失调/大小失调/商品不显著和形状幻觉等bad case：

为了解决上述问题，我们提出一种多模态可靠反馈网络（RFNet），用于自动审核生成的图片，并将其应用于递归生成过程中，从而提高可用广告图片的数量。此外，我们通过一致性条件正则化（Consistent Condition regularization）微调扩散模型，利用RFNet的反馈，显著提升了生成图片的可用率，减少了递归生成的尝试次数，同时保持了高效的生产过程和视觉吸引力。我们还构建了一个包含超过一百万张人工标注生成广告图片的RF1M数据集，帮助训练RFNet准确评估图片的可用性。这项工作发表在计算机视觉顶级会议ECCV2024。

五、广告大模型算法工程体系——更极致的算法基建

大模型尤其以LLM、AIGC类的典型模型为例，其模型参数通常在0.5B ~ 72B之间，在广告场景上带来最直观的挑战是：超大规模模型的训练推理挑战、复杂业务链路的融合。

推理上，广告链路跟传统的对话系统不同，其延迟要求极高，通常请求到计算完毕返回之间的耗时仅有100ms，因此，耗时约束下的推理能力是一个极大的挑战。此外，单请求的推理成本也是业界大模型服务公司挥之不去的追求点。京东广告已经可以做到1.5B体积模型，百万Token成本较行业成本更低。

训练上，不论是开源模型再微调和在训练，还是以Transformer为核心的自行搭建的模型结构，对片上网络、存内计算、空间时间编排的脉动计算模式等技术要求都有成倍的要求提升。

业务链路上，最典型的模型服务以模型内逻辑+外部链路逻辑整合而成，而一个DAG（RAG）服务是一种不错的融合方式。

京东广告算法工程团队在人工智能领域持续深耕，不仅致力于LLM（Large Language Model）训练推理技术的前沿探索，力求突破自然语言处理的瓶颈，提升模型的语义理解和生成能力。同时，我们也充分认识到硬件基础设施对于大规模模型运行的重要性，因此积极与业界领先的芯片制造商和网络服务提供商展开深度合作。

我们从底层的物理拓扑结构开始优化，确保数据传输的高效性和稳定性，为模型的高速运行奠定坚实基础。接着，针对不同的芯片特性进行定制化的适配工作，让模型能够在各种硬件环境下发挥出最优性能。我们深知，只有软硬件完美结合，才能真正释放AI的潜能。

此外，京东广告算法工程团队还对训练框架进行了全方位的优化。我们引入了最新的并行计算技术和分布式存储方案，使得大规模数据的处理和模型的训练变得更加迅捷。同时，我们也在推理服务上狠下功夫，通过缓存策略、负载均衡等手段，显著提升了模型的响应速度和并发处理能力。

这一切的努力，都是为了能够支撑起下一代的超大规模模型，使其能够应对百万级QPS的严苛挑战，为用户提供更快速、更精准的广告推荐服务。京东广告算法工程团队将持续创新，以技术驱动业务发展，为实现更智能、更个性化的广告体验而不懈奋斗。

六、招聘简章

TO 亲爱的朋友：

京东广告研发部致力于提供全方位的广告技术服务，包括广告排序、出价、创意算法、广告投放平台建设、大数据生产和数据挖掘、广告质量控制和广告产品创新。我们全天候保障京东广告系统的稳定运行，不断优化广告系统全链路基础能力，持续提升研发效率和交付能力。通过AGI算法创新和行业领先的广告技术，赋能京东多个业务线的广告投放和管理需求，帮助商家实现精准营销，同时提升用户购物体验，推动京东的商业增长，创造数以亿计的日均广告收入。在这里，你将与各业务、产品、工程团队紧密合作，深入京东亿量级的数据与丰富的广告业务场景，进行前沿AI算法和工程架构的研究与应用工作。

总结

多模态预训练强化学习智能体广告主大模型提示词生成式工程团队 token 关系图解决方案模型训练冷启动 llm 大规模模型 2024 用户行为 cto 广告系统

大模型时代下的新一代广告系统