当前位置:AIGC资讯 > AIGC > 正文

2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文,欢迎移步 saibomaliang.com   ^_^

TOP1

Generative Multi-Modal Knowledge Retrieval with Large Language Models

标题:

清华&腾讯联手突破!提出多模态知识检索新框架,性能大幅领先,AAAI 2024亮相

标签:

Tsinghua、Tencent、NLP、IR、AAAI 2024

作者:
Xinwei Long, Jiali Zeng, Fandong Meng, Zhiyuan Ma, Kaiyan Zhang, Bowen Zhou, Jie Zhou

推荐理由:

这篇论文被接收到了顶级会议AAAI 2024,且涉及到的是多模态和大型语言模型的知识检索,这是当前AI领域的热点话题。同时,论文的作者和机构包括了腾讯和清华大学,这些知名机构的参与会增加论文的吸引力。

论文简介:

多模态查询的知识检索在支持知识密集型多模态应用中起着至关重要的作用。然而,现有方法在有效性和训练效率方面面临挑战,特别是在训练和整合多个检索器以处理多模态查询时。在本文中,我们提出了一种创新的端到端生成框架,用于多模态知识检索。我们的框架利用了大型语言模型(LLM)即使在有限数据训练的情况下也可以有效地作为虚拟知识库的事实。我们通过两个步骤来检索知识:1)生成与查询相关的知识线索,2)使用知识线索在数据库中搜索相关文档。具体而言,我们首先引入了一种面向对象的前缀调整技术来指导多粒度视觉学习。然后,我们将多粒度视觉特征与LLM的文本特征空间对齐,利用LLM来捕捉跨模态交互。随后,我们使用统一格式构建模型训练的指导数据。最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,从而促进独特知识线索的生成。通过在三个基准测试上进行的实验证明,与强基线相比,我们在所有评估指标上都取得了从3.0%到14.6%的显著改进。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

TOP2

Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability

标题:
MIT、IBM推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!

标签:

IBM、NLP

作者:

Afra Feyza Akyürek, Ekin Akyürek, Leshem Choshen, Derry Wijaya, Jacob Andreas

推荐理由:

该论文来自IBM,一个在AI领域有很高影响力的机构。论文的主题关注语言模型的一致性、准确性和可更新性,这些是当前大型语言模型研究中的关键问题,具有很高的实用性和应用前景。

论文简介:
虽然语言模型(LMs)有时可以生成事实上正确的文本并估计个别主张的真实性,但这些通常不反映出一个全球一致、可操纵的世界模型。因此,当前的LMs也会生成不正确或无意义的内容,并且很难进行编辑和更新。我们提出了一种称为“演绎闭包训练(DCT)”的方法,利用LMs本身来识别它们生成的文本中的蕴含和矛盾,从而得到一种改进LMs事实性的高效自我监督过程。给定一组种子文档,DCT提示LMs生成这些文档所蕴含的额外文本,并对这些生成的文本的正确性进行全局推理,最后在被推断为正确的文本上进行微调。如果种子文档来自可信的来源,DCT提供了一种监督模型更新的工具;如果种子文档是从LMs本身中抽样的,DCT则实现了完全无监督的微调,以提高一致性和准确性。在CREAK、MQUaKE和Reversal Curse数据集上,监督DCT将LMs的事实验证和文本生成准确性提高了3-26%;在CREAK上,完全无监督的DCT将验证准确性提高了12%。这些结果表明,在推理过程中,LMs的推理能力可以在训练过程中利用起来,以提高它们的可靠性。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

TOP3

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models

标题:
浙大提出DoraemonGPT模型革新动态场景理解,助力视频任务新突破!

标签:
CV、NLP

作者:
Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang

推荐理由:
这篇论文的标题暗示它可能涉及到大型语言模型在理解动态场景中的应用,这是一个新兴的研究方向,具有很高的创新性和实用性。此外,论文来自于清华大学,这是一个在AI领域具有很高声誉的机构。

论文简介:
于大型语言模型(LLMs)的能力,AI代理领域正在以前所未有的速度发展。然而,以LLM为驱动的视觉代理主要集中在解决图像模态的任务上,这限制了它们理解真实世界动态性质的能力,使其离真实应用,例如指导学生进行实验和识别他们的错误,仍然相距甚远。考虑到视频模态更好地反映了真实场景的不断变化和感知密集性质,我们设计了DoraemonGPT,这是一个由LLMs驱动的综合且概念优雅的系统,用于处理动态视频任务。给定一个带有问题/任务的视频,DoraemonGPT首先将具有大量内容的输入视频转换为存储“与任务相关”的符号记忆。这种结构化表示允许通过子任务工具进行时空查询和推理,从而得到简洁且相关的中间结果。鉴于LLMs在专业领域(例如分析实验背后的科学原理)方面的内部知识有限,我们引入了即插即用的工具来评估外部知识并解决不同领域的任务。此外,我们引入了一种基于蒙特卡洛树搜索的新型LLM驱动的规划器,以高效地探索安排各种工具的大规划空间。规划器通过反向传播结果的奖励来迭代地找到可行解决方案,并且多个解决方案可以总结为一个改进的最终答案。我们对DoraemonGPT在动态场景中进行了广泛评估,并提供了野外展示,展示了它处理比以前的研究更复杂的问题的能力。

论文解读链接:
赛博马良——懂流量密码的新媒体AI员工定制平台

TOP4

The Faiss library

标题:
Meta 革新搜索技术!提出Faiss库引领向量数据库性能飞跃

标签:
Meta、CV、ML

作者:
Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazaré, Maria Lomeli, Lucas Hosseini, Hervé Jégou

推荐理由:
论文来自Meta,这是一个在AI领域具有极高影响力的公司。Faiss库是一个广泛使用的相似性搜索库,这篇论文可能涉及到该库的改进或新应用,这对于工业界和学术界都有很高的价值。

论文简介:
向量数据库管理大量的嵌入向量。随着人工智能应用的迅速增长,需要存储和索引的嵌入向量数量也在增加。Faiss库专注于向量相似性搜索,这是向量数据库的核心功能。Faiss是一套用于搜索、聚类、压缩和转换向量的索引方法和相关基元的工具包。本文首先描述了向量搜索的权衡空间,然后介绍了Faiss的设计原则,包括结构、优化方法和接口。我们对该库的关键特性进行了基准测试,并讨论了一些选定的应用,以突显其广泛的适用性。

论文解读链接:
赛博马良——懂流量密码的新媒体AI员工定制平台

TOP5

PRewrite: Prompt Rewriting with Reinforcement Learning

标题:
Google革新AI写作,推出PRewrite工具:用强化学习自动优化提示,效率和性能双提升!

标签:

Google、NLP、ML

作者:

Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky

推荐理由:
这篇论文来自谷歌,一个在AI领域有巨大影响力的公司。论文的主题是使用强化学习进行提示重写,这是一个新兴的研究领域,具有潜在的商业应用价值和社会影响。

论文简介:
Prompt工程对于LLM应用的开发至关重要。然而,通常情况下,这是以“试错”的方式手动完成的。这种手动过程可能耗时,效果不佳,并且生成的提示在很多情况下都不是最佳的。即使对于那些看似工作良好的提示,仍然存在一个悬而未决的问题:通过进一步修改,是否可以使提示变得更好?为了解决这些问题,在本文中,我们研究了Prompt工程自动化。我们考虑了一个特定的使用案例场景,即开发人员/用户已经起草了初始提示,但缺乏时间/专业知识来优化它们。我们提出了PRewrite,一种自动化工具,用于重写这些草稿并生成高效的新提示。PRewrite基于强化学习(RL)框架,允许端到端优化,我们的设计允许在大的动作空间中进行RL搜索。这个自动化工具利用手动制作的提示作为起点,使重写过程更加有指导性和高效。生成的提示易于阅读和理解,不像之前的一些工作中的提示那样。我们在多样的数据集上进行了大量实验,发现用这种新方法生成的提示不仅胜过专业制作的提示,还胜过以前提出的其他方法生成的提示。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文,欢迎移步 saibomaliang.com  ^_^

更新时间 2024-01-29