奖励模型第3页 - AIGC资讯

研究人员发布Starling-7B：基于AI反馈的大语言模型媲美GPT-3.5

UC伯克利的研究人员最近发布了Starling-7B，这是一款基于AI反馈强化学习（RLAIF）的开放式大语言模型(LLM 。该模型基于精调的Openchat3.5，并继承了Mistral-7B的特性。在RLAIF中，研究人员借助其他AI模型的反馈来训练...

AIGC 2023-11-29 人工智能

887阅读

伯克利分校推开放大模型Starling-7B 接受人工智能反馈训练

加州大学伯克利分校的研究人员推出了一款名为Starling-7B的开放式大型语言模型（LLM），采用了一种称为Reinforcement Learning from AI Feedback(RLAIF 的创新训练方法。 RLAIF的独特之处在于利用其他人...

大数据 2023-11-29 人工智能

877阅读

Llama-Factory的baichuan2微调

Llama-Factory：https://github.com/hiyouga/LLaMA-Factory/tree/main 请使用 --quantization_bit 4/8 来启用 QLoRA 训练。默认模块应作...

人工智能 2023-11-28 人工智能

1256阅读

大模型之Bloom&LLAMA----RHLF(强化学习)

0. 简介随着chatgpt的爆火，最近也有很多大模型在不断地出现，比如说Bloom系列以及以LLAMA为基础的ziya和baichuan。这些模型相较于chatglm来说，更加具有发展前景，因为其是完全可商用，并可以不断迭代更新的。最近作者在跟着h...

大数据 2023-11-28 人工智能

951阅读

谷歌：LLM找不到推理错误，但能纠正它

今年，大型语言模型（LLM）成为 AI 领域关注的焦点。LLM 在各种自然语言处理（NLP）任务上取得了显著的进展，在推理方面的突破尤其令人惊艳。但在复杂的推理任务上，LLM 的表现仍然欠佳。那么，LLM 能否判断出自己的推理存在错误？最近，剑桥大学和...

人工智能 2023-11-27 人工智能

780阅读

Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

文章目录 Llama 2: Open Foundation and Fine-Tuned Chat Models 1.简介 2.预训练 2.1 预训练数据 2.2 训练详情 2.3 LLAMA 2 预训练模型评估 3. 微调 3.1 s...

AIGC 2023-11-27 人工智能

1529阅读

OpenAI神秘Q毁灭人类？爆火「Q假说」竟牵出世界模型，全网AI大佬长文热议

Q* 【新智元导读】传闻中OpenAI的Q*，已经引得AI大佬轮番下场。AI2研究科学家Nathan Lambert和英伟达高级科学家Jim Fan都激动的写下长文，猜测Q*和思维树、过程奖励模型、AlphaGo有关。人类离AGI，已是临门一脚了? Ope...

人工智能 2023-11-25 人工智能

832阅读

LLaMA-2论文阅读

1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍，从2K变为了4K 训练的总token数从1.0T/1.4T增加为2.0T(...

生成式AI 2023-11-24 人工智能

1165阅读

LLaMA 2: Open Foundation and Fine-Tuned Chat Models

LLaMA 2: Open Foundation and Fine-Tuned Chat Models Pre-training Fine-tuning Reward model RLHF 参考 Pre-training 数据层面...

大数据 2023-11-23 人工智能

842阅读

基于llama模型进行增量预训练

目录 1、llama模型转换(pytorch格式转换为HuggingFace格式 1.1、拉取Chinese-LLaMA-Alpaca项目 1.2、准备文件夹 1.3、下载llama官方原始模型 1.4、移动文件到指定位置 1.5、执行转换脚...

生成式AI 2023-11-21 人工智能

1293阅读

深入理解LLaMA, Alpaca, ColossalChat 系列模型

知乎：紫气东来https://zhuanlan.zhihu.com/p/618695885 一、从 LLaMA 到 Alpaca：大模型的小训练 1.1 LLaMA 概要与实践 LLaMA(Large Language Mo...

AIGC 2023-11-21 人工智能

988阅读

中科大联合封神榜团队发布中文医疗领域大模型ChiMed-GPT

中科大和 IDEA 研究院封神榜团队合作开发了一款名为 ChiMed-GPT 的中文医疗领域大语言模型（LLM）。该模型基于封神榜团队的 Ziya2-13B 模型构建，拥有130亿个参数，并通过全方位的预训练、监督微调和人类反馈强化学习来满足医疗文本处理的...

生成式AI 2023-11-20 人工智能

882阅读

【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」

ChatGPT开源替代品——LLaMA系列之「羊驼家族」 1. Alpaca 2. Vicuna 3. Koala 4. ChatLLaMA 5. FreedomGPT 6. ColossalChat 完整的 ChatGPT 克隆解决方案中...

AIGC 2023-11-20 人工智能

1854阅读

百度智能云“千帆大模型平台”最新升级：接入Llama 2等33个模型！

今年3月，百度智能云推出“千帆大模型平台”。作为全球首个一站式的企业级大模型平台，千帆不但提供包括文心一言在内的大模型服务及第三方大模型服务，还提供大模型开发和应用的整套工具链，能够帮助企业解决大模型开发和应用过程中的所有问题。本次千帆大模型平台升级的...

人工智能 2023-11-12 人工智能

954阅读

LLMs：LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【预训练+指令监督微

LLMs：LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【预训练+指令监督微调+奖励模型训练+PPO 训练+DPO 训练】的简介、...

人工智能 2023-11-08 人工智能

1154阅读

马斯克xAI公布大模型详细进展，Grok只训练了2个月

近几日，马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ，直接把网友的好奇心拉满。和总是一本正经回答问题的 ChatGPT 不同，Grok 自带幽默和嘲讽技能。就像下图所展示的，Grok 在被...

AIGC 2023-11-06 人工智能

899阅读

最好7B模型再易主！打败700亿LLaMA2，苹果电脑就能跑

花500刀“调教”的70亿参数模型，打败700亿参数的Llama 2！且笔记本就能轻松跑，效果媲美ChatGPT。重点：免费、不要钱。 HuggingFace H4团队打造的开源模型Zephyr-7B，鲨疯了。其底层模型是前段时间爆火、由有着“欧...

AIGC 2023-10-29 人工智能

1159阅读

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶

在一项最新的研究中，来自 UW 和 Meta 的研究者提出了一种新的解码算法，将 AlphaGo 采用的蒙特卡洛树搜索算法（Monte-Carlo Tree Search, MCTS）应用到经过近端策略优化（Proximal Policy Optimiz...

人工智能 2023-10-27 人工智能

1001阅读

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

现在，大模型也学会“吃一堑，长一智”了。来自香港科技大学和华为诺亚方舟实验室的最新研究发现：相比于一味规避“有毒”数据，以毒攻毒，干脆给大模型喂点错误文本，再让模型剖析、反思出错的原因，反而能够让模型真正理解“错在哪儿了”，进而避免胡说八道。具体...

人工智能 2023-10-27 人工智能

795阅读

AI基础软件：如何自主构建大+小模型？

一、公司介绍九章云极DataCanvas以创造智能探索平台为使命，怀揣着助力全球企业智能升级的愿景，是中国人工智能基础软件领域的佼佼者。公司专注于自主研发的人工智能基础软件产品系列和解决方案，为用户提供全面的人工智能基础服务，旨在帮助用户在数智化转...

人工智能 2023-10-27 人工智能

1178阅读

评论能力强于GPT-4，上交开源13B评估大模型Auto-J

随着生成式人工智能技术的快速发展，确保大模型与人类价值（意图）对齐（Alignment）已经成为行业的重要挑战。虽然模型的对齐至关重要，但目前的评估方法往往存在局限性，这也让开发者往往困惑：大模型对齐程度如何？这不仅制约了对齐技术的进一步发展，也引发了...

人工智能 2023-10-23 人工智能

935阅读