AI测出你几岁死亡？Transformer「算命」登Nature子刊，成功预测意外死亡

【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型，成功预测了意外死亡和性格特点。

AI真的可以用来科学地算命了!?

丹麦技术大学（DTU）的研究人员声称他们已经设计出一种人工智能模型，据说可以预测人们的生活中的重大事件和结果，包括每个人死亡的大致时间。文章在前两天登上了Nature的子刊Computational Science。

作者Sune Lehmann称，「我们使用该模型来解决一个基本问题:我们可以在多大程度上根据过去的条件和事件来预测未来的事件?」

看来作者研究的目的没有别的，确实是想用AI来帮大家算命。

研究人员将人的生活轨迹表征为时间顺序的生活事件序列，这种表征方法与自然语言具有结构相似性。

利用Transformer模型的表征学习能力，可以学习到生活事件的语义空间，并生成个体生活序列的紧凑向量表征。

研究人员利用丹麦约600万人口的健康和劳动力数据，构建了基于Transformer的模型「life2vec」。

模型的输入数据是个人的出生时间，地点、教育、健康状况、职业和工资等，而输出数据包括了「意外死亡」和「性格的细微差异」等和个人生活息息相关的内容。

研究团队基于生活序列对个人的生活事件展开了预测，模型表现明显优于当前其他方法。

相比于其他方法，life2vec模型对于性格的细微差异有更加优秀的预测结果

研究人员在论文中进一步指出，模型的概念空间和个体表征空间都是有意义和可解释的，可以用来生成新假说，为个体化干预提供可能。

人的一生也许是可以预测的

人类目前正在经历的人类预测时代的核心原因是海量数据集和强大的机器学习算法的出现。

在过去的十年里，机器学习通过访问越来越大的数据集，使越来越复杂的模型成为可能，从而使图像和文本处理领域发生了革命性的变化。

语言处理发展得特别快，Transformer体系结构已被证明可以成功地捕获了大量非结构化单词序列中的复杂模式。

虽然这些模型起源于自然语言处理，但它们捕获人类语言中的结构的能力推广到其他序列，这些序列与语言有着相似的属性。

但是由于缺乏大规模数据，Transformer模型尚未应用于行业外的多模态社会经济数据。

研究人员的数据集改变了这一点。他们的数据集的巨大体量使研究团队能够构建个体生命轨迹的序列级别表征，其中详细说明了每个人如何在时间中移动。

研究人员可以在不同类型的事件中观察个人生活是如何演变的（关于心脏病发作的信息与加薪或从城市搬到农村的信息混合在一起）。

每个序列中的时间分辨率和序列的总数都足够大，研究人员可以有意义地应用基于transformer的模型来预测生活事件的结果。

这意味着表征学习可以应用于一个全新的领域，以发展对人类生活的进化和可预测性的新理解。

具体地说，研究人员采用了类似Bert的架构来预测人类生活的两个非常不同的方面:死亡时间和个性细微差别。

研究人员发现，研究人员的模型可以准确地预测这些结果，在早期死亡的情况下，比目前最先进的方法高出∼11%。

为了做出这些准确的预测，研究人员的模型依赖于生活中所有事件的单一公共嵌入空间-轨迹。

正如研究语言模型中的嵌入空间可以提供对人类语言的新理解一样，研究人员可以研究嵌入空间的概念，以揭示生活事件之间的非平凡相互作用。

下面，研究人员提供了对由此产生的生活事件的概念空间的洞察，并展示了该空间和模型本身的健壮性和可解释性。

基于Transformer的模型还产生了对个体的嵌入（语言表征中的类比是总结整个文本的矢量）。使用显著图和概念激活向量(TCAV)等可解释性工具，研究人员表明个人摘要也是有意义的，并具有作为行为表型的潜力，可以改进其他个人水平的预测任务，例如，增强对医学图像的分析。

模型预测结果

研究人员用一种简单的符号语言对丰富的数据进行编码。

复杂的多源时态数据的原始数据流带来了巨大的方法论挑战，例如不规则的采样率、数据的稀疏性、特征之间的复杂交互以及大量的维度。

用于时间序列分析的经典方法（例如，支持向量机，ARIMA）[42，43]变得繁琐，因为它们具有伸缩性，不灵活，并且需要大量的数据预处理来提取有用的特征。

使用转换方法允许研究人员避免手工制作的特征，而是以一种利用与语言的相似性的方式对数据进行编码。具体地说，在研究人员的例子中，每一类离散特征和离散连续特征形成一个词汇表。

这个词汇表——连同时间的编码——允许研究人员将每个生活事件（包括其详细的限定信息）表征为一个由合成词或概念符号组成的句子。

研究人员在每个事件上都附加了两个时间指标。一个是指定个人在事件发生时的年龄，另一个是捕捉绝对时间，见下图。

因此，研究人员的合成语言可以捕捉到这样的信息:「2020年9月，弗朗西斯科在埃尔西诺尔的一座城堡里当警卫时收到了2万丹麦克朗。」

或者「在寄宿中学的第三年，赫敏参加了五门选修课」。在这个意义上，一个人的生命进程被表征为一串这样的句子，它们一起构成了个人的生命序列。

研究人员的方法允许研究人员编码关于个人生活中事件的广泛的详细信息，而不牺牲原始数据的内容和结构。

life2vec模型

研究人员使用transformer模型来形成个人生活的紧凑表征。研究人员称研究人员的深度学习模型为life2vec。

Life2vec模型基于transformer架构。由于其压缩上下文信息的能力以及考虑时间和位置信息，Transformer非常适合表征生命序列。

Life2vec的训练分为两个阶段。首先，研究人员通过同时使用

（1）一个遮蔽语言模型(MLM)任务，迫使模型使用标记表征和上下文信息。

（2）一个序列排序预测(SOP)任务，关注序列的时间连贯性(来训练模型。预训练创建了一个概念空间，并教会模型生命序列结构中的模式。

接下来，为了创建个人生命序列的紧凑表征，模型执行了一个分类任务。模型在这最后一步学习的个人总结取决于分类任务;它识别并压缩了为给定下游任务最大化确定性的模式。

例如，当研究人员要求模型预测一个人的个性细微差别时，人物嵌入空间将围绕着对个性贡献的关键维度构建。

跨领域的准确预测

任何模型的首要测试是预测性能。life2vec不仅超越了现有的SOTA，同时还能在非常不同的领域进行分类预测。研究人员在两个不同的任务上测试了他们的框架。

预测早期死亡率

研究人员估算一个人在2016年1月1日之后四年内存活的可能性。这是统计建模中常用的任务。此外，死亡率预测与其他健康预测任务密切相关，因此需要life2vec建模个人健康序列的发展以及劳动历史，以成功预测正确的结果。

具体来说，给定一个序列表示，life2vec推断出一个人在研究人员序列结束后的四年内（2016年1月1日）存活的可能性。

研究人员专注于对年轻的群体进行预测，包括30至55岁的个人，其中死亡率难以预测。

研究人员展示了使用修正的马修斯相关系数C-MCC61，的模型的性能，该模型由于存在未标记的样本而调整MCC值。

Life2vec比基线高出11%。请注意，增加RNN模型的大小并不能提高它们的性能。

下图2.D还细分了各种子组的性能:基于年龄和性别的交叉组，以及基于序列长度的组。

预测个性的细微差别

死亡作为一个预测目标是明确定义的，也是非常可衡量的。

为了测试life2vec的多功能性，研究人员人员现在预测「个性细微差别」，这是测量光谱的另一端的结果，是个体内部的东西，通常可以通过问卷调查来衡量。

尽管很难测量，但个性是塑造人们思想、情感和行为并预测生活结果的重要特征。具体地说，研究人员关注内向-外向维度领域中的人格细微差别（为了简单起见，下面是外向），因为相应的人格细微差别是上个世纪(在西方世界)出现的基本人格结构的几乎所有综合模型的一部分。

作为研究人员的数据集，研究人员使用了在「丹麦个性和社会行为小组」（POSAP）研究中为一大群有很大代表性的个体收集的数据。

研究人员随机选择一个项目（个性细微差别）每个外向方面，并预测个人水平的答案。

上图显示，将Life2vec应用于生命序列不仅允许研究人员预测早期死亡率，而且具有足够的通用性，足以捕捉个性的细微差别）。

Life2vec在所有项目上的得分都高于RNN，但只有在项目2和3上差异有统计学意义。为这一特定任务而训练的RNN也能够提取个性周围的信号，这一事实突显出，尽管变压器模型很强大，但使Life2vec如此通用的很大一部分原因是数据集本身。

概念空间:理解概念之间的关系

研究人员方法的新奇之处在于，该算法学习包含人类生活中可能发生的所有事件的单个联合多维空间。研究人员从可视化开始研究人员对这个空间的探索。

全局视野

在上图中，使用PaCMAP将原始的280维概念投影到二维图上，该图保留了高维空间的局部和全局结构。

在这里，每个概念都根据其类型进行着色。

这种颜色清楚地表明，总体结构是根据合成语言的关键概念组织的:健康、工作类型等，但有有趣的细节，将出生年份、收入、社会地位和其他关键的人口统计信息分开。这个空间的结构是高度鲁棒的，并在一系列条件下可靠地重复出现。

概念空间的精细结构是有意义的。深入挖掘全局布局，研究人员发现该模型学习了附近概念之间的错综复杂的关联。

研究人员通过邻居分析来研究这些局部结构，该分析利用原始高维表示中概念之间的余弦距离作为相似性度量。

个人摘要

的摘要是一个单一的向量，它概括了一个人的整个生活事件序列的基本方面。

个人摘要跨越了研究人员的人嵌入的空间。为了形成人的摘要，模型确定哪些方面与手头的任务相关。从这个意义上说，人称摘要是以特定的预测任务为条件的。下面，研究人员侧重于死亡可能性的人称摘要。

上图可视化了个人概要的空间。

相对于死亡率预测，该模型将个体组织在从低到高的估计死亡率（D组中的点云）的连续体上。

在图中，研究人员通过红色菱形显示真实的死亡，而预测的可信度通过点的半径来表现（例如，具有小半径的点是低置信度预测）。

此外，使用从黄色到绿色的颜色映射来显示估计的概率。

研究人员看到，虽然区域2大多数都是老年人，但仍然看到很大一部分年轻人（图5E），它包含一小部分真正的目标(图5F)。

B区具有很大程度上相反的结构，大多数是年轻人，但也有相当数量的老年人（图5E），只有一人实际死亡(图5F)。

当研究人员查看低概率区域的实际死亡时，研究人员发现距离区域1最近的5个死亡原因如下--两个意外，脑部恶性肿瘤，宫颈恶性肿瘤，心肌梗死。

参考资料:

https://arxiv.org/abs/2306.03009