token 第14页 - AIGC资讯

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。最近，AI 大牛 Andrej Karpa...

AIGC 2024-06-04 人工智能

661阅读

什么是LLM大模型训练，详解Transformer结构模型

本文分享自华为云社区《LLM 大模型学习必知必会系列(四：LLM训练理论篇以及Transformer结构模型详解》，作者：汀丶。 1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一...

生成式AI 2024-06-04 人工智能

991阅读

3B模型新SOTA！开源AI让日常调用不同大模型更简单

大模型，大，能力强，好用！但单一大模型在算力、数据和能耗方面面临巨大的限制，且消耗大量资源。而且目前最强大的模型大多为闭源，对AI开发的速度、安全性和公平性有所限制。 AI大模型的未来发展趋势，需要怎么在单一大模型和多个专门化小模型之间做平衡和选择？...

AIGC 2024-06-04 人工智能

695阅读

训练Stable Diffusion(XL) Lora的图片是否需要caption？

intro 目前很多风格lora模型的训练都会对图片进行caption，训练风格lora时使用image caption步骤是否能带来正向的效果? 在sdxl的代码实现中，lora插入的位置为unet中cross attention的QKV的线性投影部...

生成式AI 2024-06-04 人工智能

752阅读

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE 性能强劲成本更低

在大模型技术迅速发展的背景下，昆仑万维公司开源了一个具有里程碑意义的稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色，而且还大幅降低了推理成本，为应对大规模密集型LLM带来的挑战提供了有效的解决方案。 Skywork-MoE模型特点:...

AIGC 2024-06-04 人工智能

797阅读

大规模语言模型--LLaMA 家族

LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出，包括四种尺寸(7B 、13B 、30B 和 65B 。由于 LLaMA 的开放性和有效性，自从 LLaMA 一经发布，就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准...

大数据 2024-06-04 人工智能

1287阅读

GPT Researcher：破解复杂研究的AI利器

作者 | 崔皓审校 | 重楼在现代研究环境中，处理如详尽研究工作或学术论文撰写等复杂任务对当前的大型语言模型(如ChatGPT 来说是一个挑战。这些任务通常需要长时间的手动干预和多步骤操作，现有的AI工具往往无法在没有人类帮助的情况下完成这些复杂任...

AIGC 2024-06-04 人工智能

915阅读

AI绘画【comfyUI】两个自动蒙版操作，轻松实现一键更换背景

大家好！我是向阳在SD-webui里有个segment_anything插件，只需输入想要提取的元素，就能帮我们一键生成图片的前景、背景和蒙版。这期我就分享两个，在ComfyUI里面轻松去背景和生成蒙版的节点。第一个：segment_an...

大数据 2024-06-04 人工智能

3913阅读

【AIGC半月报】AIGC大模型启元：2024.05（下）

AIGC大模型启元：2024.05（下） (1 豆包大模型（抖音大模型） (2 Project Astra（谷歌对标GPT-4o） (3 Chameleon（meta对标GPT-4o） (4 MiniCPM-Llama3-V 2.5（面...

人工智能 2024-06-04 人工智能

801阅读

llama.cpp 转化 huggingface 模型失败解决路径

问题： ./main -m ./models/book_q4_K_M -n 128 报错： terminate called after throwing an instance of 'std::out_of_range' what( :...

AIGC 2024-06-03 人工智能

1721阅读

快速学会一个算法，xLSTM

今天给大家分享一个超强的算法模型，xLSTM。 xLSTM（Extended Long Short-Term Memory）是对传统 LSTM（Long Short-Term Memory）模型的扩展和改进，旨在提升其在处理时间序列数据和序列预测任务中的...

AIGC 2024-06-03 人工智能

775阅读

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mix...

生成式AI 2024-06-03 人工智能

645阅读

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，LMDeploy 对 Llama 3 部署进行了光速支持，同时对 LMDeploy 推理 Llama 3 进行了测试，在公平比较的条件下推理效率是 vLLM 的 1.8 倍。书生...

生成式AI 2024-06-03 人工智能

935阅读

意外！老黄剧透下一代GPU芯片，新演讲又把摩尔定律按在地上摩擦

刚刚，中国台湾大学体育场，欢呼阵阵如同演唱会，但这次“摇滚巨星”，其实是英伟达创始人黄仁勋，再次回到学校，带来Computex重磅演讲，以及英伟达的新一代GPU。是的，英伟达新架构Blackwell宣布不过3个月，老黄就把后三代路线图全公开了： 20...

人工智能 2024-06-03 人工智能

715阅读

活体脑细胞做成16核芯片，用Python就能编程，九个机构开展实验36所大学排队

首个“脑PU”来了！由“16核”类人脑器官（human brain organoids）组成。这项研究来自瑞士生物计算创业公司FinalSpark，并且他们宣称：这种生物处理器（bioprocessor）的功耗比传统数字处理器低100万倍。这些类脑...

AIGC 2024-06-03 人工智能

744阅读

Llama-Factory 简介二，脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl

examples/ ├── lora_single_gpu/ │ ├── pretrain.sh: 基于 LoRA 进行增量预训练 │ ├── sft.sh: 基于 LoRA 进行指令监督微调 │ ├── reward.sh: 基于 LoRA...

生成式AI 2024-06-03 人工智能

1470阅读

一模一样！斯坦福AI团队被曝抄袭中国国产大模型：直接删库跑路

快科技6月3日消息，近日，斯坦福AI团队被曝出了抄袭事件，而且抄袭的还是中国国产的大模型成果，模型结构和代码，几乎一模一样。斯坦福的Llama3-V项目在5月29日发布，宣称仅需500美元就能训练出一个性能超越GPT-4V、Gemini Ultra、Cl...

大数据 2024-06-03 人工智能

668阅读

昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

2024年6月3日，昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型，名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的，是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。...

大数据 2024-06-03 人工智能

680阅读

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。 Scaling law 告诉我们：只要能适当地分配参数和数据，就能在固定计算预算下实...

大数据 2024-06-03 人工智能

725阅读

斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

在 GPT-4o 出世后，Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。这次就要闷声...

AIGC 2024-06-03 人工智能

697阅读

大模型微调之使用 LLaMA-Factory 微调 Llama3

大模型微调之使用 LLaMA-Factory 微调 Llama3 使用 LLaMA Factory 微调 Llama-3 中文对话模型安装 LLaMA Factory 依赖 %cd /content/ %rm -rf LLaMA-Factory...

AIGC 2024-06-03 人工智能

1776阅读

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

想了解更多AIGC的内容，请访问：51CTO AI.x社区 https://www.51cto.com/aigc/ 就在刚刚，老黄手持Blackwell向全世界展示的那一刻，全场的观众沸腾了。它，是迄今为止世界最大的芯片！眼前的这块产品，凝聚着数...

大数据 2024-06-03 人工智能

687阅读

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

无情戳穿“长上下文”大模型的虚标现象—— 英伟达新研究发现，包括GPT-4在内的10个大模型，生成达到128k甚至1M上下文长度的都有。但一番考验下来，在新指标“有效上下文”上缩水严重，能达到32K的都不多。新基准名为RULER，包含检索、多跳追踪、...

大数据 2024-06-03 人工智能

676阅读

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！ ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。 DCMHA解除...

AIGC 2024-06-03 人工智能

681阅读

知识图谱检索增强的GraphRAG(基于Neo4j代码实现）

图检索增强生成（Graph RAG）正逐渐流行起来，成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性，将数据以节点和关系的形式组织起来，从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势，能够轻松捕...

生成式AI 2024-06-03 人工智能

1243阅读

whisper-v3模型部署环境执行

1. 安装whisperV3 github git clone https://github.com/openai/whisper.git pip install -U openai-whisper pip install setuptools-ru...

大数据 2024-06-03 人工智能

1502阅读

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某...

生成式AI 2024-06-03 人工智能

694阅读

基于llama.cpp的GGUF量化与基于llama-cpp-python的部署

前言：笔者在做GGUF量化和后续部署的过程中踩到了一些坑，这里记录一下。 1.量化项目地址：llama.cpp 1.1 环境搭建笔者之前构建了一个用于实施大模型相关任务的docker镜像，这次依然是在这个镜像的基础上完成的，这里给出Dock...

人工智能 2024-06-03 人工智能

1612阅读

LLM的「母语」是什么？

大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的LLM来说。对此，来自EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：图片论文地址：https://arxiv.or...

生成式AI 2024-06-03 人工智能

705阅读

基于Wechaty实现微信接入文心一言

引言与效果上篇文章写了怎么用Wechaty接入ChatGPT，这篇写一下怎么接入文心一言的模型。国内的模型用起来会更方便一些，而且也不用科学上网。最终实现效果如下： Wechaty机器人介绍与部署在上一篇中已详细展开说，这一篇就不再说明...

AIGC 2024-06-03 人工智能

1083阅读

【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3

Datawhale干货作者：张帆，陈安东，Datawhale成员引言在AI领域，大模型的发展正以前所未有的速度推进技术的边界。北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama-1、Llama-...

AIGC 2024-06-02 人工智能

894阅读

时间序列模型：lag-Llama

项目地址：GitHub - time-series-foundation-models/lag-llama: Lag-Llama: Towards Foundation Models for Probabilistic Time Series Foreca...

大数据 2024-06-02 人工智能

1017阅读

基于百度语音识别、文心一言大模型、百度语音合成的一套完整的语音交互（利用Python实现）

本人小白，因为毕设项目需要用的语音交互，便查网上的资料利用百度api实现，比较简单的过程，供大家借鉴批判。项目框架大致分为3步：（1）百度语音识别可以将我们输入的语音转化为文本输入到文心一言大模型；（2）文心一言大模型根据输入以输出响应文...

大数据 2024-06-02 人工智能

1181阅读

欢迎 Llama 3：Meta 的新一代开源大语言模型

介绍 Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本，现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋，我们也非常高兴地全力支持此次发布，并实现了与 Hugging Fac...

生成式AI 2024-06-02 人工智能

910阅读

如何在Linux服务器上安装Stable Diffusion WebUI

如何在Linux服务器上安装Stable Diffusion WebUI 一、前提条件 1、硬件条件 2、软件条件二、安装步骤 1、创建Python虚拟环境 2、安装必要的软件和库 3、克隆Stable Diffusion WebUI仓...

人工智能 2024-06-02 人工智能

773阅读

百度文心一言api Python调用ERNIE-Lite-8K-0922具体教程

ERNIE Lite是百度自研的轻量级大语言模型，兼顾优异的模型效果与推理性能，适合低算力AI加速卡推理使用。ERNIE-Lite-8K-0922（原ERNIE-Bot-turbo-0922）是模型的一个模版，本文介绍了相关API及应用。创建chat...

AIGC 2024-06-02 人工智能

835阅读

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文

ControlNet作者新项目，居然也搞起大模型和Agent了。当然还是和AI绘画相关:解决大伙不会写提示词的痛点。现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”: 这就是ControlNet作者Lvmin Zhang的新玩具...

大数据 2024-06-02 人工智能

706阅读

基于 Llama-Index、Llama 3 和 Qdrant，构建一个 RAG 问答系统！

构建一个使用Llama-Index、Llama 3和Qdrant的高级重排-RAG系统尽管大型语言模型（LLMs）有能力生成有意义且语法正确的文本，但它们面临的一个挑战是幻觉。在LLMs中，幻觉指的是它们倾向于自信地生成错误答案，制造出看似令人信...

生成式AI 2024-06-02 人工智能

1223阅读

“全网最全”LLM推理框架集结营 | 看似微不足道，却决定着AIGC项目的成本、效率与性能!

00-前序随着ChatGPT、GPT-4等大语言模型的出现，彻底点燃了国内外的学者们与企业家们研发LLM的热情。国内外的大语言模型如雨后春笋一般的出现，这些大语言模型有一部分是开源的，有一部分是闭源的。伴随着大语言模型的出现，国...

人工智能 2024-06-02 人工智能

2231阅读

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

【新智元导读】刚刚，谷歌DeepMind、JHU、牛津等发布研究，证实GPT-4的心智理论已经完全达到成年人类水平，在更复杂的第6阶推理上，更是大幅超越人类!此前已经证实，GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上，人类是彻底被LLM甩在后面...

人工智能 2024-06-01 人工智能

636阅读

LLaMA参数微调方法

1.Adapter Tuning：嵌入在transformer中新增了一个名为adapter的结构，其核心思想是保持模型其他原始参数不变，只改变adapter的参数，其结构如下图所示： 1.在每一个transformer模块最后都加入一层ada...

AIGC 2024-06-01 人工智能

808阅读

Datawhale |【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3

本文来源公众号“Datawhale”，仅用于学术分享，侵权删，干货满满。原文链接：【独家】万字长文带你梳理Llama开源家族：从Llama-1到Llama-3 0. 引言在AI领域，大模型的发展正以前所未有的速度推进技术的边界。北京时间4月1...

人工智能 2024-06-01 人工智能

850阅读

GpuMall智算云：meta-llama/llama3/Llama3-8B-Instruct-WebUI

LLaMA 模型的第三代，是 LLaMA 2 的一个更大和更强的版本。LLaMA 3 拥有 35 亿个参数，训练在更大的文本数据集上GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台 Llama 3 的推...

人工智能 2024-05-31 人工智能

916阅读

Llama 3 微调项目实践与教程（XTuner 版）

Llama 3 微调项目实践与教程（XTuner 版） OpenMMLab 2024-04-20 11:37 上海以下文章来源于InternLM ，作者XTuner InternLM. 以原始创新引领AI大模型技术进步。 Lla...

大数据 2024-05-31 人工智能

773阅读

使用llama.cpp量化部署LLM

以llama.cpp工具为例，介绍模型量化并在本地部署的详细步骤。这里使用 Meta最新开源的 Llama3-8B 模型。 1 环境系统应有make（MacOS/Linux自带）或cmake（Windows需自行安装）编译工具 Python 3....

大数据 2024-05-31 人工智能

1581阅读

【LLAMA3超级课堂-第四节】Llama 3 高效部署实践（LMDeploy 版）

开发机地址：https://studio.intern-ai.org.cn/console/instance 本文内容环境，模型准备 LMDeploy chat LMDeploy模型量化(lite LMDeploy服务(serve 环...

大数据 2024-05-31 人工智能

1070阅读

啥，字节扣子Bot通过API调用百度文心一言？

4月1号扣子上新啦！！扣子插件在线IDE 扣子丰富的插件功能和灵活的Workflow深受开发者的好评，这不，扣子又推出了插件IDE，无需使用自己的IDE、无需使用自己的服务器就可以更好的写自己的插件（之前已经支持在Worflow中直接添加代码节点）。...

生成式AI 2024-05-31 人工智能

1047阅读

LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3

LLaMA 3 2024年4月18日，Meta 重磅推出了Meta Llama 3，Llama 3是Meta最先进开源大型语言模型的下一代，包括具有80亿和700亿参数的预训练和指令微调的语言模型，能够支持广泛的应用场景。这一代Llama在一系列行业标...

AIGC 2024-05-31 人工智能

1404阅读

一个API接口对接ChatGPT3.5/4.0,Claude3,文心一言,通义千问,智谱AI等多款AI模型，打造属于自己的AI应用

今天我要给大家介绍团队的最新项目——一个集成了ChatGPT-3.5/4.0、Claude3、文心一言、通义千问、智谱AI等多个AI模型的API模型聚合平台。仅需使用一个接口就可以对接所有AI模型网址：https://api.atalk-ai.com...

生成式AI 2024-05-30 人工智能

1040阅读

RWKV 模型本地部署工具 Ai00 Server 保姆级教程

了解Ai00 简介 Ai00 Server 是基于 web-rwkv 推理引擎的 RWKV 语言模型推理 API 服务器。它本身也是一个基于 MIT 协议的开源软件，由 RWKV 开源社区成员 @cryscan 和@顾真牛牵头成立的 Ai00-x 开发...

人工智能 2024-05-30 人工智能

939阅读