llm 第13页 - AIGC资讯

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。最近，AI 大牛 Andrej Karpa...

AIGC 2024-06-04 人工智能

658阅读

一文读懂如何基于Ollama在本地运行LLM

“Mixtral有46.7B的总参数，但每个令牌只使用12.9B参数。因此，它以与12.9B型号相同的速度和成本处理输入并生成输出。” 为什么要使用 Ollama 开源项目 ? 在当今人工智能技术飞速发展的时代，大型语言模型(LLM 无疑已成为焦点炯炯...

AIGC 2024-06-04 人工智能

1409阅读

什么是LLM大模型训练，详解Transformer结构模型

本文分享自华为云社区《LLM 大模型学习必知必会系列(四：LLM训练理论篇以及Transformer结构模型详解》，作者：汀丶。 1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一...

生成式AI 2024-06-04 人工智能

990阅读

AI日报：AMD向英伟达亮剑推出最强AI芯片；斯坦福AI团队承认抄袭国产大模型；suno将推“哼歌”功能；昆仑万维开源2千亿稀疏大模型天工MoE

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、挑战英伟达！AMD亮出旗下最强...

生成式AI 2024-06-04 人工智能

704阅读

GPT Researcher：破解复杂研究的AI利器

作者 | 崔皓审校 | 重楼在现代研究环境中，处理如详尽研究工作或学术论文撰写等复杂任务对当前的大型语言模型(如ChatGPT 来说是一个挑战。这些任务通常需要长时间的手动干预和多步骤操作，现有的AI工具往往无法在没有人类帮助的情况下完成这些复杂任...

AIGC 2024-06-04 人工智能

911阅读

具身智能的视觉-语言-动作模型：综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...

人工智能 2024-06-04 人工智能

1321阅读

这款AI产品为你提供一个游戏搭子，用Agent的方式在《我的世界》挖钻石

AI will completely reshape how games are played and made. The future is one where game creation is democratized， and makers are...

生成式AI 2024-06-04 人工智能

912阅读

理解老司机，超越老司机！LeapAD：具身智能加持下的双过程自驾系统（上海AI Lab等）

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文信息论文题目：Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Dr...

AIGC 2024-06-04 人工智能

865阅读

AI让网友“吃石头”闹得沸沸扬扬，谷歌副总裁发博回应：不是幻觉

最近一周，网上关于谷歌AI overview（AI概览）的讨论沸沸扬扬，简直快要扛起X平台科技区的流量大旗。这款在2023年5月就推出测试版的AI搜索，在正式上线前已处理了超十亿次查询，却依旧没能逃过翻车的命运，原因是它仍无法判断“人能不能吃石头、喝胶水...

生成式AI 2024-06-04 人工智能

709阅读

大语言模型原理与工程实践：LLaMA 系列

1. 背景介绍 1.1 大型语言模型的兴起近年来，随着深度学习技术的飞速发展，大型语言模型（LLM）逐渐成为人工智能领域的研究热点。LLM 是一种基于深度学习的自然语言处理模型，能够学习大量的文本数据，并根据这些数据生成自然流畅的文本、回答问题、进行...

生成式AI 2024-06-04 人工智能

688阅读

微软ML Copilot框架释放机器学习能力

摘要：大模型席卷而来，通过大量算法模型训练推理，能根据人类输入指令产生图文，其背后是大量深度神经网络模型在做运算，这一过程称之为机器学习，本文从微软语言大模型出发，详解利用大型语言模型（Large Language Models, LLMs）解决实际机器学...

人工智能 2024-06-04 人工智能

667阅读

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

Django框架的创始人之一、著名开发者Simon Willison最近发表了一篇博客文章，核心观点是——虽然很多LLM看起来有记忆，但本质上是无状态函数。文章地址：https://simonwillison.net/2024/May/29/trai...

人工智能 2024-06-04 人工智能

725阅读

快速学会一个算法，xLSTM

今天给大家分享一个超强的算法模型，xLSTM。 xLSTM（Extended Long Short-Term Memory）是对传统 LSTM（Long Short-Term Memory）模型的扩展和改进，旨在提升其在处理时间序列数据和序列预测任务中的...

AIGC 2024-06-03 人工智能

773阅读

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mix...

生成式AI 2024-06-03 人工智能

644阅读

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

时空预测技术，迎来ChatGPT时刻。时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得...

大数据 2024-06-03 人工智能

688阅读

AnythingLLM：零成本的私人ChatGPT，支持几乎所有主流大模型

用过大模型的都知道，我们不怕它不回答，就怕它乱回答，特别是一眼还看不出来的那种。即便是最先进的AI模型也会说谎，防不胜防。对企业来说，幻觉，已经成为阻碍大模型应用的严重缺陷性问题。除了幻觉，通用大模型无法满足企业实际业务需求还涉及到知识局限性、信息安全...

人工智能 2024-06-03 人工智能

783阅读

Llama-Factory 简介二，脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl

examples/ ├── lora_single_gpu/ │ ├── pretrain.sh: 基于 LoRA 进行增量预训练 │ ├── sft.sh: 基于 LoRA 进行指令监督微调 │ ├── reward.sh: 基于 LoRA...

生成式AI 2024-06-03 人工智能

1468阅读

开发arXiv论文引擎机器人程序：基于RAG＋LangChain＋Chainlit＋ChromaDB

译者 | 朱先忠审校 | 重楼简介在本文中，我将演示如何使用检索增强生成(RAG 技术构建语义研究论文引擎。具体地说，我将使用LangChain(https://www.langchain.com/ 作为构建语义引擎的主要框架，以及OpenAI公...

生成式AI 2024-06-03 人工智能

1011阅读

昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

2024年6月3日，昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型，名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的，是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。...

大数据 2024-06-03 人工智能

678阅读

清洁数据，可信模型：确保您的LLM拥有良好的数据卫生

事实上，有些数据输入模型风险太大。有些可能带来重大风险，例如隐私侵犯或偏见。译自Clean Data, Trusted Model: Ensure Good Data Hygiene for Your LLMs，作者 Chase Lee。大语言模型...

人工智能 2024-06-03 人工智能

731阅读

7B？13B？175B？解读大模型的参数

大模型也是有大有小的，它们的大小靠参数数量来度量。GPT-3就有1750亿个参数，而Grok-1更是不得了，有3140亿个参数。当然，也有像Llama这样身材苗条一点的，参数数量在70亿到700亿之间。这里说的70B可不是指训练数据的数量，而是指模型中...

生成式AI 2024-06-03 人工智能

1302阅读

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。 Scaling law 告诉我们：只要能适当地分配参数和数据，就能在固定计算预算下实...

大数据 2024-06-03 人工智能

723阅读

大模型微调之使用 LLaMA-Factory 微调 Llama3

大模型微调之使用 LLaMA-Factory 微调 Llama3 使用 LLaMA Factory 微调 Llama-3 中文对话模型安装 LLaMA Factory 依赖 %cd /content/ %rm -rf LLaMA-Factory...

AIGC 2024-06-03 人工智能

1768阅读

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

想了解更多AIGC的内容，请访问：51CTO AI.x社区 https://www.51cto.com/aigc/ 就在刚刚，老黄手持Blackwell向全世界展示的那一刻，全场的观众沸腾了。它，是迄今为止世界最大的芯片！眼前的这块产品，凝聚着数...

大数据 2024-06-03 人工智能

686阅读

超越Devin！姚班带队，他们创大模型编程新世界纪录

超越Devin!SWEBench排行榜上迎来了新玩家—— StarShip CodeGen Agent，姚班带队初创公司OpenCSG出品，以23.67%的成绩获得全球第二名的成绩。同时创造了非GPT-4o基模的最高纪录（SOTA）。我们都知道，SW...

生成式AI 2024-06-03 人工智能

763阅读

知识图谱检索增强的GraphRAG(基于Neo4j代码实现）

图检索增强生成（Graph RAG）正逐渐流行起来，成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性，将数据以节点和关系的形式组织起来，从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势，能够轻松捕...

生成式AI 2024-06-03 人工智能

1242阅读

大模型“分区”部署在云和边缘更合适？

作者 | David Linthicum 出品 | 51CTO技术栈（微信号：blog51cto）众所周知，大型语言模型（LLMs）需要大量的计算资源。这意味着开发和部署主要集中在强大的集中式系统上，如公共云提供商。然而，尽管许多人认为我们需要大量的...

生成式AI 2024-06-03 人工智能

728阅读

基于llama.cpp的GGUF量化与基于llama-cpp-python的部署

前言：笔者在做GGUF量化和后续部署的过程中踩到了一些坑，这里记录一下。 1.量化项目地址：llama.cpp 1.1 环境搭建笔者之前构建了一个用于实施大模型相关任务的docker镜像，这次依然是在这个镜像的基础上完成的，这里给出Dock...

人工智能 2024-06-03 人工智能

1607阅读

LLM的「母语」是什么？

大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的LLM来说。对此，来自EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：图片论文地址：https://arxiv.or...

生成式AI 2024-06-03 人工智能

705阅读

【AIGC调研系列】XTuner、Unsloth方案对比

XTuner和Unsloth都是用于大型语言模型（LLM）训练和微调的工具，但它们在设计理念、技术实现和性能表现上存在一些差异。技术架构与支持的模型规模： XTuner支持千亿级参数的模型，并能够处理超过百万个tokens的序列。它通过序列...

人工智能 2024-06-03 人工智能

1692阅读

llama_factory微调QWen1.5

GitHub - hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMsUnify Efficient Fine-Tuning of 100+ LLMs. Contribute to...

生成式AI 2024-06-03 人工智能

1195阅读

在autodl平台使用llama-factory微调Qwen1.5-7B

1 部署环境 step 1. 使用24GB显存以上的显卡创建环境 step 2. 创建好环境之后，关闭环境，使用无卡模式开机（有钱可忽略） step 3. 安装LLaMA-Factory git clone https://github.com/...

生成式AI 2024-06-02 人工智能

1155阅读

快速评测已有的中文llama-3开源模型（4月25日更新）

Llama-3刚出来不到一周，就有一些中文微调模型了。我快速的对这些模型进行了基准测试，时间仓促，没有办法面面俱到，仅供参考。中文评测数据集选择的是C-Eval（valid），英文选择的是MMLU（valid），评测指标是准确率，越高越好。中...

生成式AI 2024-06-02 人工智能

849阅读

首次解密Claude 3大脑！25岁Anthropic参谋长预言3年内自己将被AI淘汰

【新智元导读】Anthropic的25岁参谋长自曝因为深感AGI，未来三年自己的工作将被AI取代。她在最近的一篇文章中预言了未来即将要被淘汰的工种。难道说，Claude3模型已经初现AGI了吗? 今天，整个AI社区被这篇文章刷屏了。来自AI明星初创公司A...

AIGC 2024-06-02 人工智能

695阅读

llama-factory学习个人记录

框架、模型、数据集准备 1.llama-factory部署 # 克隆仓库 git clone https://github.com/hiyouga/LLaMA-Factory.git # 创建虚拟环境 conda create --name llama...

人工智能 2024-06-02 人工智能

2057阅读

【AIGC调研系列】Dify平台是什么

Dify平台是一个专为大型语言模型（LLM）开发和运营设计的LLMOps（Large Language Model Operations）平台。它旨在简化AI应用的创建、部署和管理过程，使开发者能够更快速、更轻松地构建和运营基于GPT等模型的AI应用。...

生成式AI 2024-06-02 人工智能

2759阅读

10 分钟，教你如何用 LLama-Factory 训练和微调 LLama3 模型

本文将探讨于2024年3月21日发布的LLama-Factory，并学习如何使用 DigitalOcean 旗下的 Paperspace平台对 LLama 3 进行微调。为了完成我们的任务，我们将使用 NVIDIA A4000 GPU，它被认为是功能最强大...

大数据 2024-06-02 人工智能

1309阅读

AIGC、LLM 加持下的地图特征笔记内容生产系统架构设计

文章目录背景构建自动化内容生产平台系统架构设计架构详细设计流程介绍笔记来源笔记抓取干预笔记 AIGC 赋能笔记 Rule 改写笔记特征库构建附录 Bash Cron 定时任务 Golang 与 Pyhon AIG...

AIGC 2024-06-02 人工智能

733阅读

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文

ControlNet作者新项目，居然也搞起大模型和Agent了。当然还是和AI绘画相关:解决大伙不会写提示词的痛点。现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”: 这就是ControlNet作者Lvmin Zhang的新玩具...

大数据 2024-06-02 人工智能

702阅读

一键 input 苹果 OpenELM，零门槛 Llama 3 教程，40+ 优质模型/数据集/教程，建议收藏！...

现在 AI 行业什么最火？「大模型」一定仍然排在前三甲的位置。自从 2022 年底 ChatGPT 面世以来，大模型在各行各业已经带来了太多的惊喜，应用场景愈发丰富，同时也带动了相关底层技术的普及与普适化。尤其是在开源模型繁荣发展之下，无...

人工智能 2024-06-02 人工智能

845阅读

基于 Llama-Index、Llama 3 和 Qdrant，构建一个 RAG 问答系统！

构建一个使用Llama-Index、Llama 3和Qdrant的高级重排-RAG系统尽管大型语言模型（LLMs）有能力生成有意义且语法正确的文本，但它们面临的一个挑战是幻觉。在LLMs中，幻觉指的是它们倾向于自信地生成错误答案，制造出看似令人信...

生成式AI 2024-06-02 人工智能

1221阅读

彻底火了！《AIGC 面试宝典》圈粉无数！

2022 年下半年以来，文本生成图像快速出圈，多款应用持续火爆。国外文生图代表：Midjourney、Stable Diffusion、OpenAI 的 DALL-E：海外模型SD开源，进一步促进了国内大厂的研究热情和应用落地：随着多模态技术迭...

AIGC 2024-06-02 人工智能

1022阅读

“全网最全”LLM推理框架集结营 | 看似微不足道，却决定着AIGC项目的成本、效率与性能!

00-前序随着ChatGPT、GPT-4等大语言模型的出现，彻底点燃了国内外的学者们与企业家们研发LLM的热情。国内外的大语言模型如雨后春笋一般的出现，这些大语言模型有一部分是开源的，有一部分是闭源的。伴随着大语言模型的出现，国...

人工智能 2024-06-02 人工智能

2227阅读

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

博客导读：《AI—工程篇》 AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效 AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署 AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama...

大数据 2024-06-01 人工智能

1285阅读

LLaMA-Factory 微调训练

LLaMA-Factory 微调训练该框架功能，标注-微调-导出-合并-部署，一整条流程都有，而且训练时消耗的gpu算力也会小一些一，安装（推荐在linux中训练，win可以用wsl+docker） git clone https:...

大数据 2024-06-01 人工智能

1526阅读

六位一线AI工程师总结爆火！大模型应用摸爬滚打一年心得公开，网友：全程高能

六位一线AI工程师和创业者，把在大模型应用开发上摸爬滚打一整年的心得，全!分!享!了! （奇怪的六一儿童节大礼包出现了）这篇干货长文，一时间成为开发者社区热议的话题。有网友评价为，大模型领域少有的“有操作性”的实用见解，非常值得一读。这6位作者来...

大数据 2024-06-01 人工智能

711阅读

Llama 3 模型家族构建安全可信赖企业级AI应用之 CyberSecEval 2：量化 LLM 安全和能力的基准（一）

LlaMA 3 系列博客基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在w...

AIGC 2024-06-01 人工智能

898阅读

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

【新智元导读】刚刚，谷歌DeepMind、JHU、牛津等发布研究，证实GPT-4的心智理论已经完全达到成年人类水平，在更复杂的第6阶推理上，更是大幅超越人类!此前已经证实，GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上，人类是彻底被LLM甩在后面...

人工智能 2024-06-01 人工智能

633阅读

LLMs之FineTuning：Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i

LLMs之FineTuning：常用指令微调格式数据集的简介(Alpaca格式/Vicuna的sharegpt 格式、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_info.json 中通过指定 --...

人工智能 2024-06-01 人工智能

996阅读

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）

基于LlaMA 3 + LangGraph 在windows本地部署大模型（一） RAG 是未来人工智能应用的基石。大家并不是在寻求仅仅产生无意义反应的人工智能。而目标是人工智能能够从特定文档集中检索答案，理解查询的上下文，指导自己搜索其嵌入内容...

大数据 2024-06-01 人工智能

1231阅读