算法在 58 画像平台建设中的应用

一、58 画像平台建设背景

首先和大家分享下 58 画像平台的建设背景。

1. 传统的画像平台

传统的思路来看，建设用户画像平台依赖数仓建模能力，整合多业务线数据，构建准确的用户画像；还需要数据挖掘，理解用户行为、兴趣和需求，提供算法侧的能力；最后，还需具备数据平台能力，高效存储、查询和共享用户画像数据，提供画像服务。业务自建画像平台和中台类型画像平台主要区别在于，业务自建画像平台服务单条业务线，按需定制；中台平台服务多条业务线，建模复杂，提供更为通用的能力。

2. 58 中台画像建设的背景

58 的用户画像平台建设主要源于以下几种业务需求：

个性化推荐：业务方需要基于用户画像做千人千面的内容分发。
精细化运营：产品运营需要画像平台提供人群洞察、人群圈选等功能对不同人群做更精细的运营活动。
用户价值增长：粗放式流量增长已经过去，如何利用画像平台做好存量用户价值增长是相当迫切的需求。

3. 万象

在当前业务需求和外部环境挑战下，我们提出了 UA+CDP+MA 这一套用户画像平台解决方案。通过 OneID 服务构建用户画像基础数据，结合流量和人群洞察，利用算法智能生成人群，并匹配物料进行精准营销。同时监测效果并回收数据，优化策略迭代人群。为业务方提供智能化增长解决方案，实现精准运营和业务增长。

二、算法在 58 画像平台建设中的作用

算法侧在 58 用户画像平台的建设主要包括两个方面，一个是标签体系的建设，另一个是平台能力的构建。

1. 标签体系的建设

万象标签体系包含社会属性、地理位置、行为习惯、偏好属性、用户分层等多个分类，一共有 1500 余个标签。我们根据生产方式分为两种类型：

事实类标签：数仓同学利用统计或者规则，通过 SQL 等开发生产。
算法类标签：算法团队通过数据挖掘等手段加工生产。

2. 算法类标签举例

算法类标签可根据数据源和粒度分类。如性别、年龄、业务倾向等标签，数据源一般为结构化数据，常作为分类任务处理，模型可选用 XGBoost、DeepFM 等。还有租房目的标签，需要从用户浏览的帖子文本中识别用户目的，这类标签数据源为非结构化数据，可以用文本分类等方式处理。在我们的内容偏好标签中，如用户在不同业务的帖子偏好 topN，则需要构建离线的推荐流程生产这类标签。

3. 以内容偏好标签为例解释标签的流程

以内容类偏好标签为例，生产该标签需建立离线推荐流程。面对百万甚至更多的帖子，我们首先通过召回阶段进行初步筛选，采用热门、规则、协同过滤等方法，如图卷积神经网络(LightGCN)和双塔(DSSM)模型等。然后，基于召回的帖子，利用 Pointwise 方式通过 CTR 模型进行排序。最终产出用户最感兴趣的 Top N 帖子。在实际应用中，以 push 场景为例，可以从 Top 1 帖子中提取关键属性，生成个性化文案。同时，落地页可以是 Top 1 帖子的详情页或 Top N 帖子的列表页。

在生产内容偏好类标签时，考虑到 58 同城业务的地域和类目特性，用户在推荐中通常只对特定地域或类目的帖子感兴趣。因此，在向量化召回（如使用 EGES 模型）时，可能会出现大量异地或非本类目的帖子。为解决这一问题，我们将城市信息以 16 进制表示，将 0 替换为 -1，然后将此编码直接拼接到之前生成的向量中，这样做可以确保同城市或同类目的帖子在相似度计算中具有最大相似性，从而提高召回和推荐的准确性。

在排序阶段，利用多模态信息，包括文本内容，以提升推荐的准确性。例如帖子标题作为文本特征，可以采用 BERT、M3E 等预训练模型进行 embedding 表示。然而，由于帖子数量庞大，这对计算资源构成了挑战。为解决这一问题，我们采用了 Spark NLP，这是一个基于 Apache Spark Machine Learning 的自然语言处理库。尽管原生库中没有中文的 BERT 模型，但通过一些转换，我们成功地将其应用于大规模离线推理。

在 58 同城用户画像平台的功能建设中，算法同样发挥着核心作用。以智能运营能力为例，我们利用流量地图识别不同业务之间的相关性，为业务方提供运营建议或结论。业务方可以根据这些建议直接通过智能圈人功能生成运营人群包，并对接到相应渠道进行投放。投放效果可以通过平台进行监测，并根据效果数据进行迭代优化，从而不断提升运营效果。

算法是如何发挥作用的呢？接下来分几个环节来介绍。首先是流量地图这一块。我们利用 OLAP 数据挖掘和数据可视化技术，深入分析 58APP 用户在不同业务之间的浏览情况。通过分析和加工这些数据，可以展示出用户在不同业务之间的流转路径，为运营团队提供直观的用户行为视图。在这个过程中，算法不仅可以帮助我们识别出用户的行为模式，还可以通过关联分析等技术，挖掘出不同业务之间的相关性。这些相关性为我们提供了宝贵的运营建议，支持运营团队进行交叉运营。

在得到运营建议后，运营团队可以通过智能圈人功能来圈选目标人群。为了实现这一目标，运营团队需要首先配置个性化运营目标，明确目标是拉新、促活还是促转等。接着，需要设定期望达到的效果，包括人群包的大小和预期的投放效果等。此外，运营团队还需要选择适合的投放渠道，以确保目标人群能够接收到相关的运营活动信息。

生成人群包的过程对于运营团队来说是一个黑盒。为了解决这个问题，我们提供了更多关于算法原理和步骤的解释和说明，以便运营团队更好地理解和应用该技术。同时，我们提供了更多的可视化工具和界面，帮助运营团队直观地查看和分析人群包的特征和效果。

在生成人群包的过程中，我们主要采用了 Look-alike 技术。在该技术的演进上，我们经历了几个阶段，前期借鉴 Yahoo 的方案，将人群包的产出分为召回和排序模块。召回模块，首先构建所有用户的特征向量，然后采用 minHash 和局部敏感哈希技术进行特征向量的压缩，并通过类似聚类分桶的方法实现了近似于 k-NN 的检索，快速计算种子用户与候选人群之间的两两相似度，选取 topN 作为每个种子用户的召回人群。在排序阶段，首先使用 Information Value 进行特征筛选，然后基于筛选后的特征计算分值，最后根据分值进行排序，最终产出人群包。整个过程中，算法起到了关键作用，确保了人群包的准确性和有效性。

除了基于相似度的方案，同样基于机器学习的方式也有不错的效果。在实际应用中，用户可以通过场景圈人或种子人群上传两种方式发起请求。区别在于种子人群由用户上传还是我们自动挖掘。在拿到种子人群，也就是正样本后，我们需要选择负样本，可以暴力的全局随机负采样，也可以用 PU learning 或者 TSA 等算法完成负样本的选取。接下来是特征选择阶段，分为两种方案，一种是提前预制人工挑选的特征，经过固定的特征工程，可以使用 DeepFM 等模型完成训练和 CTR 的预估，根据 CTR 选择 TopN 作为人群包；还有一种方案是我们使用全量的标签作为特征，通过 IV 值和相关性自动化挑选和剔除特征，然后使用 AutoML 框架完成特征工程、模型训练，最后对 58App 的人群池进行推理，并根据 TopN 产出人群包，对接到渠道进行触达，最后回收投放效果数据来完成样本选择迭代。

上述方案有一些值得关注的点，首先是样本的迭代，回收效果数据时，不仅需要对曝光数据进行筛选，同时需要对未曝光数据，也就是 Exposure Bias 做 Debias 处理。同时迭代后的效果需要离线评估验证，保证迭代的效果。此外，特征方面也需要考虑穿越问题，特别是拉新场景，需要考虑特征选择的时间因素。

随着在运营场景中积累的数据越来越多，我们开始尝试利用这些数据进行离线实验，以优化我们的迭代方案。其中之一就是基于腾讯微信的 Look-alike 方式，它采用元学习的方法。具体来说，这种方法通过构建一个泛化模型，在离线阶段完成模型的构建，然后在在线阶段利用少量的数据集进行定制化模型的训练，并进行推理工作。这种方式能够解决样本量相对较少时，模型容易出现过拟合的问题。多场景多目标的人群扩散，也是我们下一步迭代的方向之一。

三、58 画像平台应用案例

1. 个性化资源位投放

个性化资源位的投放，在 58App 资源位包含开屏、banner 位、浮窗、fees 流卡片等等，都有用到 58 用户画像平台相应的功能，比如用价运营通过画像平台的标签圈选能力去产出人群包为其推送特定的内容，完成千人千面的精细化运营。

2. 个性化 push 推送

我们的画像平台与 58 的 push 平台也完全打通，运营同学可以通过万象圈选或者 Look-alike 等形式创建人群，配置个性化文案，通过 push 触达用户，达成运营目的。

3. 搜索推荐

搜索推荐是基于用户画像最常见的应用。58 新车、二手车这两个业务方没有算法人员，但是又想做一些个性化的应用，因此接入了前文中提到的内容偏好类标签。首页的新车推荐，相关推荐等资源位都用到了内容偏好 TopN 标签。在二手车的搜索位置上，搜索框的提示语以及搜索发现页的相关车系也用到了这一标签。相比于之前通过规则的方式，通过接入内容偏好标签作为项目初期的解决方案，也取得了很好的效果。

四、展望与总结

当前 58 的画像平台已经具备了业界通用的画像平台能力，并且通过算法加持，实现了智能运营等能力。不仅提升了业务方运营效果，在为用户提供个性化服务的同时也带来了更好的用户体验。接下来，还将与业务方深度合作，探索更多的应用场景，在合作的过程当中进行总结和提炼、优化与创新，升级技术以应对各种需求和挑战，我们期待为用户和企业创造更大的价值。

用户画像个性化准确性 ctr app 数据挖掘数据源解决方案结构化数据结构化用户行为 bert 精细化运营可视化候选人非结构化数据流量增长 automl nlp cdp