预训练第12页 - AIGC资讯

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。最近，AI 大牛 Andrej Karpa...

AIGC 2024-06-04 人工智能

754阅读

什么是LLM大模型训练，详解Transformer结构模型

本文分享自华为云社区《LLM 大模型学习必知必会系列(四：LLM训练理论篇以及Transformer结构模型详解》，作者：汀丶。 1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一...

生成式AI 2024-06-04 人工智能

1084阅读

大规模语言模型--LLaMA 家族

LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出，包括四种尺寸(7B 、13B 、30B 和 65B 。由于 LLaMA 的开放性和有效性，自从 LLaMA 一经发布，就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准...

大数据 2024-06-04 人工智能

1394阅读

LeCun新作：分层世界模型，数据驱动的人型机器人控制

有了大模型作为智能上的加持，人型机器人已然成为新的风口。科幻电影中「安能辨我不是人」的机器人似乎已经越来越近了。不过，要想像人类一样思考和行动，对于机器人，特别是人型机器人来说，仍是个艰巨的工程问题。就拿简单的学走路来说，利用强化学习来训练可能会演...

生成式AI 2024-06-04 人工智能

760阅读

实时局部建图的深入思考 | MapTR继往开来的18篇论文剖析！

本文经自动驾驶之心公众号授权转载，转载请联系出处。实时局部建图领域自从端到端方案MapTR(2023.1 [1]问世后已经又涌现出非常多优秀的工作,基本是在MapTR基本框架的基础上进行一系列改进,包括原班人马的升级作品MapTRv2(2023.8 ...

人工智能 2024-06-04 人工智能

1565阅读

具身智能的视觉-语言-动作模型：综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...

人工智能 2024-06-04 人工智能

1444阅读

港科大最新！Vista：一种具有高保真度和多功能可控的世界模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability 论文链接...

人工智能 2024-06-04 人工智能

987阅读

【AIGC半月报】AIGC大模型启元：2024.05（下）

AIGC大模型启元：2024.05（下） (1 豆包大模型（抖音大模型） (2 Project Astra（谷歌对标GPT-4o） (3 Chameleon（meta对标GPT-4o） (4 MiniCPM-Llama3-V 2.5（面...

人工智能 2024-06-04 人工智能

930阅读

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mix...

生成式AI 2024-06-03 人工智能

732阅读

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

时空预测技术，迎来ChatGPT时刻。时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得...

大数据 2024-06-03 人工智能

779阅读

Llama-Factory 简介二，脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl

examples/ ├── lora_single_gpu/ │ ├── pretrain.sh: 基于 LoRA 进行增量预训练 │ ├── sft.sh: 基于 LoRA 进行指令监督微调 │ ├── reward.sh: 基于 LoRA...

生成式AI 2024-06-03 人工智能

1633阅读

【AIGC】本地部署 ollama(gguf) 与项目整合

首先，先跟各位小伙伴说一句 Sorry 。上一篇文章《【AIGC】本地部署通义千问 1.5 (PyTorch 》并没有考虑企业成本问题，虽然代码可以跑通，但是中小型企业想通过该代码实现项目落地还是比较困难的。为此，本文将采用 GGUF 预量化大模型结合 O...

生成式AI 2024-06-03 人工智能

1135阅读

原来这才是生成式AI！

随着ChatGPT、文心一言等AI产品的火爆，生成式AI已经成为了大家茶余饭后热议的话题。可是，为什么要在AI前面加上“生成式”这三个字呢？难道还有别的AI吗？且听文档君慢慢道来~ 1.生成式AI究竟是个啥？如果将人工智能按照用途进行简单分类的话...

人工智能 2024-06-03 人工智能

864阅读

沙特阿美投资中国AI初创企业智谱AI 估值达30亿美元

据国外媒体报道，沙特阿拉伯国有石油集团沙特阿美的风险投资部门Prosperity7近日参与了中国生成式人工智能初创企业智谱AI的新一轮融资，投资金额约为4亿美元，使得智谱AI的估值达到了约30亿美元。图源备注：图片由AI生成，图片授权服务商Midjou...

生成式AI 2024-06-03 人工智能

836阅读

2024过半，AI卷到哪儿了？

AI创业者陈冉，发现行业里有一些“怪现象”。很多客户向他反馈，自己很困惑。一方面，大模型更新速度太快，搞不清楚到底哪个好用;同时，自己也不知道大模型怎么跟业务结合;另外，自己的数据集究竟能不能精调出一个好用的大模型，心里也没谱。最后的结果就是，愿意投入...

AIGC 2024-06-03 人工智能

784阅读

斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

在 GPT-4o 出世后，Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。这次就要闷声...

AIGC 2024-06-03 人工智能

779阅读

OpenAI把GPT-4原始版给了他们：研究不微调只靠提示词能走多远

除了OpenAI自己，居然还有别人能用上GPT-4-Base版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。 EPFL（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究“上下文学习足以让大模型跟随指令吗？”。也就是不用监督微调、...

人工智能 2024-06-03 人工智能

814阅读

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！ ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。 DCMHA解除...

AIGC 2024-06-03 人工智能

767阅读

时间序列分析的表示学习时代来了？

表示学习作为深度学习中的核心，近期越来越多的被应用到了时间序列领域中，时间序列分析的表示学习时代已经来了。本文为大家带来了2020年以来顶会的5篇时间序列表示学习相关的核心工作梳理。 1.Unsupervised Scalable Representa...

大数据 2024-06-03 人工智能

806阅读

AIGC-音频生产十大主流模型技术原理及优缺点

音频生成(Audio Generation 指的是利用机器学习和人工智能技术，从文本、语音或其他源自动生成音频的过程。音频生成行业是AIGC技术主要渗透的领域之一。AI音频生成行业是指利用人工智能技术和算法来生成音频内容的领域。按照输入...

AIGC 2024-06-03 人工智能

1785阅读

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某...

生成式AI 2024-06-03 人工智能

787阅读

【AIGC调研系列】XTuner、Unsloth方案对比

XTuner和Unsloth都是用于大型语言模型（LLM）训练和微调的工具，但它们在设计理念、技术实现和性能表现上存在一些差异。技术架构与支持的模型规模： XTuner支持千亿级参数的模型，并能够处理超过百万个tokens的序列。它通过序列...

人工智能 2024-06-03 人工智能

1823阅读

探索文心一言指令：AI与自然语言处理的新篇章

引言：自然语言处理与文心一言指令的探索（1）自然语言处理的发展及其重要性自然语言处理（NLP）是人工智能（AI）的一个关键领域，致力于使机器能够理解、解释和响应人类语言的方式。自从20世纪50年代计算机科学诞生以来，NLP已经从简单的模式识...

大数据 2024-06-03 人工智能

1098阅读

使用LLaMA Factory来训练智谱ChatGLM3-6B模型

使用LLaMA Factory来训练智谱ChatGLM3-6B模型时，以下是一个训练过程： 1. 环境搭建 a. 安装Python和Anaconda 下载并安装适合你操作系统的Python版本（推荐Python 3.10或更高版本）。安装Anac...

AIGC 2024-06-03 人工智能

1197阅读

Stable Diffusion 使用技巧与具体操作（详细）

Stable Diffusion 是一种基于扩散模型的图像生成技术，能够生成高质量的图像。以下是一些详细的使用技巧与具体操作，帮助你更好地利用这一技术进行创作。 1. 基本概念 Stable Diffusion 利用扩散过程生成图像，通过逐步添加噪声并...

AIGC 2024-06-03 人工智能

1471阅读

【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3

Datawhale干货作者：张帆，陈安东，Datawhale成员引言在AI领域，大模型的发展正以前所未有的速度推进技术的边界。北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama-1、Llama-...

AIGC 2024-06-02 人工智能

974阅读

时间序列模型：lag-Llama

项目地址：GitHub - time-series-foundation-models/lag-llama: Lag-Llama: Towards Foundation Models for Probabilistic Time Series Foreca...

大数据 2024-06-02 人工智能

1153阅读

llama-factory学习个人记录

框架、模型、数据集准备 1.llama-factory部署 # 克隆仓库 git clone https://github.com/hiyouga/LLaMA-Factory.git # 创建虚拟环境 conda create --name llama...

人工智能 2024-06-02 人工智能

2239阅读

一键 input 苹果 OpenELM，零门槛 Llama 3 教程，40+ 优质模型/数据集/教程，建议收藏！...

现在 AI 行业什么最火？「大模型」一定仍然排在前三甲的位置。自从 2022 年底 ChatGPT 面世以来，大模型在各行各业已经带来了太多的惊喜，应用场景愈发丰富，同时也带动了相关底层技术的普及与普适化。尤其是在开源模型繁荣发展之下，无...

人工智能 2024-06-02 人工智能

964阅读

007-Wsl-Ubuntu上LLaMA-Factory如何下载、部署、运行【AI超车B计划】

一、目标了解什么是LLaMA-Factory；成功在Wsl-Ubuntu环境下安装并运行LLaMA-Factory；二、路径学习笔记中关于LLaMA-Factory的简介，了解什么是LLaMA-Factory；在Ubun...

生成式AI 2024-06-01 人工智能

1693阅读

AIGC 技术及应用初探

ChatGPT 相关话题近一年多来被刷爆，利用 AI 技术生成内容，引起了各行各业的关注。其实，自2022 年 4 月起，OpenAI、Google、Microsoft 相继发布了文生图模型，视觉创作就已经开始持续火热了。国内 AIGC 相关的技术和应用也...

人工智能 2024-06-01 人工智能

812阅读

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

【新智元导读】刚刚，谷歌DeepMind、JHU、牛津等发布研究，证实GPT-4的心智理论已经完全达到成年人类水平，在更复杂的第6阶推理上，更是大幅超越人类!此前已经证实，GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上，人类是彻底被LLM甩在后面...

人工智能 2024-06-01 人工智能

729阅读

Stable Diffusion的微调方法详解

Stable Diffusion作为一种强大的文本到图像生成模型，已经在艺术、设计和科研等多个领域取得了广泛的应用。然而，为了使其更好地适应特定任务或领域，微调（Fine-tuning）技术显得尤为重要。本文将详细介绍Stable Diffusion的微调...

生成式AI 2024-06-01 人工智能

913阅读

LLaMA参数微调方法

1.Adapter Tuning：嵌入在transformer中新增了一个名为adapter的结构，其核心思想是保持模型其他原始参数不变，只改变adapter的参数，其结构如下图所示： 1.在每一个transformer模块最后都加入一层ada...

AIGC 2024-06-01 人工智能

890阅读

Datawhale |【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3

本文来源公众号“Datawhale”，仅用于学术分享，侵权删，干货满满。原文链接：【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3 0. 引言在AI领域，大模型的发展正以前所未有的速度推进技术的边界。北京时间4月1...

人工智能 2024-06-01 人工智能

958阅读

AI助手对决：ChatGPT vs 文心一言

背景介绍在当今人工智能技术飞速发展的时代，AI助手已经成为我们日常生活中不可或缺的一部分。而在众多AI助手中，ChatGPT和文心一言可以说是备受瞩目的两大代表，它们在智能回复、语言准确性、知识库丰富度等方面都有着自己的...

生成式AI 2024-06-01 人工智能

1333阅读

笔记1--Llama 3 超级课堂 | Llama3概述与演进历程

1、Llama 3概述 https://github.com/SmartFlowAI/Llama3-Tutorial.git【Llama 3 五一超级课堂 | Llama3概述与演进历程】 2、Llama 3 改进点【最新【大模型微调】大模...

生成式AI 2024-06-01 人工智能

941阅读

GpuMall智算云：meta-llama/llama3/Llama3-8B-Instruct-WebUI

LLaMA 模型的第三代，是 LLaMA 2 的一个更大和更强的版本。LLaMA 3 拥有 35 亿个参数，训练在更大的文本数据集上GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台 Llama 3 的推...

人工智能 2024-05-31 人工智能

1022阅读

【史上最全之 ChatGPT 和文心一言对比】

ChatGPT 和文心一言哪个更好用？在当今的AI助手领域中，ChatGPT与文心一言无疑是备受瞩目的两位选手。两者分别由美国OpenAI公司和中国百度研发，均致力于提供卓越的人工智能对话体验。接下来，我们将从智能回复、语言准确性以及知识库丰富度等核...

人工智能 2024-05-31 人工智能

1011阅读

Novita AI开源Animate Anyone项目上传一张照片即可合成动画

阿里巴巴的一个项目，利用一张图片和提取视频中的人物姿势合成角色动画，现在被Novita AI开源并提供了API。用户只需提供一张照片和一个参考视频，即可通过API接入合成动画。该项目名为Animate Anyone，灵感来源于MooreThreads/Mo...

AIGC 2024-05-31 人工智能

950阅读

产品经理的AI秘籍：从AIGC到大模型，让你笑傲智能时代

文章目录 @[TOC](文章目录前言一、什么是AIGC？二、什么是大模型 2.1 大模型特点 2.2 大模型里程碑——Transformer的发布 2.2.1 Transformer通俗解释 2.2.2 基于Tran...

生成式AI 2024-05-31 人工智能

1011阅读

麻省理工科技评论称：数据是生成式AI的基础

预训练的大型语言模型（LLM）如 GPT-4和 Gemini 备受组织关注，他们渴望利用 LLM 构建聊天机器人、副驾驶等应用。根据麻省理工科技评论的最新报告，名为 “C 级领导人的 AI 准备情况”，该报告是代表 ETL 供应商 Fivetran 进行的...

生成式AI 2024-05-31 人工智能

790阅读

LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3

LLaMA 3 2024年4月18日，Meta 重磅推出了Meta Llama 3，Llama 3是Meta最先进开源大型语言模型的下一代，包括具有80亿和700亿参数的预训练和指令微调的语言模型，能够支持广泛的应用场景。这一代Llama在一系列行业标...

AIGC 2024-05-31 人工智能

1505阅读

浅浅探讨一下AIGC技术的发展现状和未来趋势

AIGC（Artificial Intelligence Generated Content）即人工智能生成内容，是利用生成式人工智能来自动创作文本、图像、视频等内容的技术。（文末有福利，站长总结了网上比较流行的AI工具，整理分类后分享的~）以...

AIGC 2024-05-31 人工智能

1432阅读

北航发布LlamaFactory，零代码大模型微调平台，一键快速实现大模型训练/微调/评估

“LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models” 在大模型发展如火如荼的今天，训练和微调一个大模型对于绝大部分普通工程师来说仍然是一个难题。为了降低大模型训练、...

生成式AI 2024-05-31 人工智能

1715阅读

大模型App腾讯元宝上线！混元再升级，打造可随身携带的全能AI助理

5 月 30 日，腾讯宣布旗下混元大模型全面升级，基于混元大模型的App“腾讯元宝”正式上线，苹果及安卓应用商店均可下载。相比此前测试阶段的混元小程序版本，面向工作效率场景，腾讯元宝提供了AI搜索、AI总结、AI写作等核心能力；面向日常生活场景，元宝...

AIGC 2024-05-30 人工智能

1946阅读

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

大型语言模型(llm 是在巨大的文本语料库上训练的，在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中，然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时，模型实际上停止学习。对模型进行对齐或进行指令调优，让模型学习...

人工智能 2024-05-30 人工智能

754阅读

LLMs之LLaMA-3：Llama-3-70B-Gradient-1048k-adapter的简介、源代码解读merge_adapters.py(仅需58行代码)合并多个PEFT模型(LoRA技术)

LLMs之LLaMA-3：Llama-3-70B-Gradient-1048k-adapter的简介、源代码解读merge_adapters.py(仅需58行代码合并多个PEFT模型(LoRA技术将LLaMA-3扩展到100万/1048k上下文——解析...

AIGC 2024-05-30 人工智能

1167阅读

32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%

每个token只需要5.28%的算力，精度就能全面对标Llama 3。开源大模型，再添一位重量级选手—— 来自浪潮信息的32专家MoE模型，源2.0-M32。不仅拥有极高的回报投入比，而且全面开放，训练代码和模型权重都可任意下载，商业使用也免费、无需...

生成式AI 2024-05-30 人工智能

829阅读

你的全能AI搭子来了，腾讯混元推出大模型App“腾讯元宝”

5月30日，腾讯宣布旗下混元大模型全面升级，基于混元大模型的App“腾讯元宝”正式上线，苹果及安卓应用商店均可下载。相比此前测试阶段的混元小程序版本，面向工作效率场景，腾讯元宝提供了AI搜索、AI总结、AI写作等核心能力;面向日常生活场景，元宝的玩法也...

人工智能 2024-05-30 人工智能

952阅读