自我奖励 - AIGC资讯

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路:让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。 LLM对数据的大量消耗，不仅体现在预训练语料上，还体现在RLHF、DPO等对齐阶段。后者不仅依赖昂贵的人工标...

人工智能 2024-07-31 人工智能

1099阅读

1.产品发布 1.1韩国Kakao：推出多模态大模型Honeybee 发布日期：2024.1.20 Kakao unveils multimodal large language model Honeybee - The Korea Ti...

大数据 2024-06-27 人工智能

950阅读

? 文献卡题目： Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B 作者: Di Zh...

人工智能 2024-06-27 人工智能

1178阅读

译者 | 李睿审校 | 重楼如今，人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ，也就是让大型语言模型教会自己遵循人类指令。指令微调(IFT ...

人工智能 2024-03-29 人工智能

948阅读

编译｜言征过去两周，新的人工智能更新不断涌现，异常疯狂。我们决定整理最近发布的六大框架和模型。 1、ActAnywhere：主题感知视频背景生成图片 Adobe Research和斯坦福大学推出了Act Anywhere，这是一种生成模型，解决了电...

人工智能 2024-01-29 人工智能

864阅读

Llama 2-70B一夜之间打败GPT-4，让整个AI社区为之震惊！甚至，在AlpacaEval 2.0排行榜中，微调后的模型胜率完全碾压Claude 2、Gemini Pro等模型。 Meta和NYU研究团队究竟提出了什么秘制配方，才能让Llam...

生成式AI 2024-01-22 人工智能

879阅读

大模型领域中，微调是改进模型性能的重要一步。随着开源大模型逐渐变多，人们总结出了很多种微调方式，其中一些取得了很好的效果。最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。在新方法中，作者...

人工智能 2024-01-21 人工智能

853阅读