当前位置:AIGC资讯 > AIGC > 正文

2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈

本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。

以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。

如需查看其他热门论文,欢迎移步saibomaliang.com ^_^

TOP1

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

标题:

秒出大作!清华&Hugging Face联手打造PIXART-δ,图像生成速度提升7倍,开源界的Stable Diffusion杀手

标签:

Hugging Face、Tsinghua、CV

作者:
Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li

推荐理由:

这篇技术报告来自Hugging Face和清华大学,研究了快速且可控的图像生成技术,这是一个当前AI领域的热点话题,尤其是在图像生成和处理领域。由于其实用性和创新性,以及来自知名机构的研究,这篇论文有很好的传播潜力。

论文简介:

这份技术报告介绍了PIXART-δ,这是一个将潜在一致性模型(LCM)和ControlNet集成到先进的PIXART-δ模型中的文本到图像合成框架。PIXART-δ以其通过极其高效的训练过程生成1024px分辨率高质量图像的能力而闻名。LCM在PIXART-δ中的集成显著加快了推理速度,使得在仅2-4步内就能生成高质量图像。值得注意的是,PIXART-δ实现了在0.5秒内生成1024x1024像素图像的突破,比PIXART-δ提高了7倍。此外,PIXART-δ旨在能够在32GB V100 GPU上在一天内高效训练。凭借其8位推理能力(von Platen等人,2023年),PIXART-δ可以在8GB GPU内存限制内合成1024px图像,极大地提高了其可用性和可访问性。

此外,集成类似ControlNet的模块使得对文本到图像扩散模型进行细粒度控制成为可能。我们引入了一种新颖的ControlNet-Transformer架构,专门为Transformers量身定制,实现了在生成高质量图像的同时具有明确的可控性。作为一种最先进的开源图像生成模型,PIXART-{\delta}为Stable Diffusion系列模型提供了一个有前途的替代方案,对文本到图像合成做出了重大贡献。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

TOP2

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

标题:
UC Berkeley发布已带字幕425K段动画视频训练集,AI可以直接替你动漫配音了!

标签:

CV、NLP、ICASSP 2024

作者:

Kevin Cai, Chonghua Liu, David M. Chan

推荐理由:
这篇论文即将在顶级会议ICASSP 2024上发表,且涉及的是自动化端到端配音的大规模数据集,这是一个结合了多模态学习和自然语言处理的热点话题。由于其实用性和应用前景广泛,可能会对娱乐产业和辅助技术产生重要影响,因此具有很高的关注潜力。

论文简介:

互联网内容的丰富性与全球人口的语言实际相差甚远,高达60%的内容以英语发布,而全球只有18.8%的人讲英语,仅有5.1%的人将其作为母语,这导致了在线信息获取上的不平等。不幸的是,视频配音的自动化过程——即用翻译后的音轨替换视频原有音轨——仍然是一个复杂且具有挑战性的任务,因为它需要精确的时序、面部动作同步和韵律匹配。尽管端到端配音提供了一种解决方案,但数据稀缺仍然阻碍了端到端和基于流程的方法的进展。在这项工作中,我们介绍了Anim-400K,这是一个包含超过425K个日语和英语对齐的动画视频片段的综合数据集,支持包括自动配音、同步翻译、引导式视频摘要以及类型/主题/风格分类等多种视频相关任务。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

TOP3

Adaptive Hardness Negative Sampling for Collaborative Filtering

标题:

解决推荐系统误区,AAAI 2024亮相新模型大幅提升协同过滤性能

标签:
IR、AAAI 2024

作者:
Riwei Lai, Rui Chen, Qilong Han, Chi Zhang, Li Chen

推荐理由:

这篇论文被接受在AAAI 2024会议上发表,属于顶级会议的论文,且研究的是协同过滤中的负采样问题,这是推荐系统领域的一个重要问题。由于其在顶级会议上的发表和实用性,这篇论文值得关注。

论文简介:

负采样对于隐式协同过滤至关重要,它提供了适当的负训练信号以实现理想的性能。我们的实验揭示了所有现有负采样方法的一个共同限制,即它们只能选择固定难度级别的负样本,导致假正问题(FPP)和假负问题(FNP)。随后,我们提出了一个新范式,称为自适应难度负采样(AHNS),并讨论了其三个关键标准。通过在训练过程中自适应地选择具有适当难度的负样本,AHNS能够有效缓解FPP和FNP的影响。接下来,我们提出了AHNS的一个具体实例,称为AHNS_{p<0},并从理论上证明AHNS_{p<0}能够很好地满足AHNS的三个标准,并实现更大的归一化折扣累积增益的下界。此外,我们注意到现有的负采样方法可以被视为AHNS的更宽松的情况。最后,我们进行了全面的实验,结果表明AHNS_{p<0}在多个数据集上一致且显著地优于几个最先进的竞争对手。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

TOP4

Neural Population Learning beyond Symmetric Zero-sum Games

标题:
深度学习突破零和游戏局限,谷歌DeepMind推出NeuPL-JPSRO算法,开启复杂多人博弈新纪元

标签:
Deepmind、Google、ML

作者:
Siqi Liu, Luke Marris, Marc Lanctot, Georgios Piliouras, Joel Z. Leibo, Nicolas Heess

推荐理由:

来自Deepmind和Google的研究,探讨了神经群体学习超越对称零和游戏的问题。这些机构的影响力以及研究的创新性使得这篇论文具有较高的关注度。

论文简介:

我们研究了在n玩家一般和游戏中寻找均衡的计算效率方法,特别是那些需要复杂视觉运动技能的方法。我们展示了现有方法在这种情况下要么在计算上要么在理论上会遇到困难。然后,我们引入了NeuPL-JPSRO,这是一个神经群体学习算法,它从技能的迁移学习中受益,并收敛到游戏的粗略相关均衡(CCE)。我们在OpenSpiel游戏套件中展示了实证收敛性,通过精确的游戏求解器进行了严格验证。接着,我们将NeuPL-JPSRO部署到复杂领域,在MuJoCo控制领域实现了适应性协调,在夺旗游戏中实现了技能迁移。我们的工作表明,均衡收敛的群体学习可以大规模且普遍地实施,为解决现实世界中具有混合动机的异质玩家之间的游戏铺平了道路。

论文解读链接:
赛博马良——懂流量密码的新媒体AI员工定制平台

TOP5

A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer

标题:

颠覆性Prompt-tuning新方法:引入场景特定概念,零样本文本分类效果大幅领先!

标签:

NLP、ML

作者:

Yong Ma, Senlin Luo, Yu-Ming Shang, Zhengjun Li, Yong Liu

推荐理由:

这篇论文提出了一种新颖的Prompt-tuning方法,从任务特定场景中提取丰富的概念作为标签词候选项,然后开发了一个新颖的级联校准模块来精炼这些候选项,结果实现了SOTA。

论文简介:

在prompt-tuning中,用于将标签词映射到类别标签的verbalizer是一个关键组成部分。在本文中,我们提出了一种构建verbalizer的新方法。现有的verbalizer构建方法主要依赖于基于类别名称扩充和精炼同义词或相关词集,但这种范式受限于狭隘的视角和缺乏抽象性,导致标签词空间的覆盖范围有限且偏见较大。为了解决这个问题,我们提出了一个包含场景特定概念的标签词构建过程。具体来说,我们从任务特定场景中提取丰富的概念作为标签词候选项,然后开发了一个新颖的级联校准模块来精炼这些候选项,形成每个类别的一组标签词。我们通过在五个广泛使用的零样本文本分类数据集上的大量实验来评估我们提出方法的有效性。结果表明,我们的方法优于现有方法,并达到了最先进的结果。

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

以上论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。

如需查看其他最热论文,欢迎移步 saibomaliang.com ^_^

更新时间 2024-01-23