llama 第25页 - AIGC资讯

首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。这一模型采用了大量视频和书籍数据集，通过 RingAttention 技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1M to...

生成式AI 2024-04-04 人工智能

836阅读

【AI】在本地 Docker 环境中搭建使用 Hugging Face 托管的 Llama 模型

目录 Hugging Face 和 LLMs 简介利用 Docker 进行 ML 格式的类型请求 Llama 模型访问创建 Hugging Face 令牌设...

人工智能 2024-04-04 人工智能

1893阅读

【Python】科研代码学习：十五 configuration，tokenization 的代码细节：Llama 为例

【Python】科研代码学习：十五 tokenizer的代码细节：Llama_Tokenization 为例前言 `LlamaConfig`：网络参数配置 `LlamaTokenizer`：分词工具前言对于 HF 的 Tr...

生成式AI 2024-04-04 人工智能

1076阅读

群晖NAS使用Docker部署大语言模型Llama 2结合内网穿透实现公网访问本地GPT聊天服务

文章目录 1. 拉取相关的Docker镜像 2. 运行Ollama 镜像 3. 运行Chatbot Ollama镜像 4. 本地访问 5. 群晖安装Cpolar 6. 配置公网地址 7. 公网访问 8. 固定公网地址随着ChatGPT...

大数据 2024-04-04 人工智能

900阅读

多忽悠几次AI全招了！Anthropic警告：长上下文成越狱突破口，GPT羊驼Claude无一幸免

大模型厂商在上下文长度上卷的不可开交之际，一项最新研究泼来了一盆冷水—— Claude背后厂商Anthropic发现，随着窗口长度的不断增加，大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude2，还是开源的Llama2和Mistral...

人工智能 2024-04-03 人工智能

755阅读

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复...

AIGC 2024-04-03 人工智能

782阅读

Meta LLaMA 2实操：从零到一搭建顶尖开源大语言模型【超详篇】

前言本文章由 [jfj] 编写，所有内容均为原创。涉及的软件环境是在nvidia-docker环境进行的，如对docker未了解如何使用的，可以移步上一篇文章nvidia-docker安装详解。在 nvidia-docker 容器中运行时，Dock...

大数据 2024-04-02 人工智能

1479阅读

每日一看大模型新闻（2024.1.12）首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%；谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途；为大模型恶补数学

1.产品发布 1.1 Luma AI：推出文生3D模型Genie 1.0 发布日期：2024.1.12 https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20 主要内...

AIGC 2024-04-02 人工智能

982阅读

llama笔记：官方示例解析 example_chat_completion.py

1 导入库 from typing import List, Optional ''' 从typing模块中导入List和Optional。 typing模块用于提供类型注解的支持，以帮助明确函数预期接收和返回的数据类型。 List用于指定列表...

AIGC 2024-04-02 人工智能

1064阅读

Android 手机部署whisper 模型

Whisper 是什么？ “Whisper” 是一个由OpenAI开发的开源深度学习模型，专门用于语音识别任务。这个模型能够将语音转换成文本，支持多种语言，并且在处理不同的口音、环境噪音以及跨语言的语音识别方面表现出色。Whisper模型的目标是提供一...

人工智能 2024-04-02 人工智能

1216阅读

LLaMA 模型中的Transformer架构变化

目录 1. 前置层归一化（Pre-normalization） 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入（RoPE） 5. 注意力机制优化 6. Group Query Attention 7. 模型...

AIGC 2024-04-02 人工智能

1158阅读

性能强，成本低，运行快！最强开源大模型出现，超越ChatGPT和Llama！

大数据人工智能公司 Databricks放大招了！ 3月27日，该公司开源了通用大模型 DBRX，并声称该模型是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。 GPT-3.5研究测试： https://huj...

大数据 2024-04-02 人工智能

817阅读

集体出走的Stability AI 发布全新代码大模型，3B以下性能最优，超越Code Llama和DeepSeek-Coder

Stability AI又有新动作！程序员又有危机了？ 3月26日，Stability AI推出了先进的代码语言模型Stable Code Instruct 3B，该模型是在Stable Code 3B的基础上进行指令调优的Code LM。 Stab...

AIGC 2024-04-02 人工智能

865阅读

马斯克开源 Grok：参数量近 Llama 四倍，成全球最大开源模型

本周一，马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok，这也兑现了他上周的开源承诺。截至目前，Grok 已经在 GitHub 上获得了 4.3k 颗 Star。开源地址：https://github.com/xai-org/grok-1...

生成式AI 2024-04-01 人工智能

852阅读

孟子3-13B大模型正式开源

澜舟科技近日宣布，其研发的孟子3-13B大模型正式开源，并向学术研究领域全面开放，同时支持免费商用。这一轻量化大模型在多项基准测试中展现了优异的性能，特别是在参数量20B以内的模型中，其中英文语言能力尤为突出，数学和编程能力也位于行业前列。孟子3-13B...

生成式AI 2024-04-01 人工智能

777阅读

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE 的引入，2022年标志着该领域的...

AIGC 2024-04-01 人工智能

863阅读

0门槛免费商用！孟子3-13B大模型正式开源，万亿token数据训练

澜舟科技官宣：孟子3-13B大模型正式开源！这一主打高性价比的轻量化大模型，面向学术研究完全开放，并支持免费商用。在MMLU、GSM8K、HUMAN-EVAL等各项基准测评估中，孟子3-13B都表现出了不错的性能。尤其在参数量20B以内的轻量化大模...

生成式AI 2024-04-01 人工智能

669阅读

马斯克推出Grok-1.5，接近GPT-4级别的性能

马斯克指出，Grok-1.5将为xAI在X平台上的ChatGPT挑战者聊天机器人提供支持，而Grok-2(新模型的继任者仍在训练阶段。他表示，下一个版本应该能够“在所有指标上超越当前的AI”，但没有分享它可能何时变得可用的具体细节。 Grok-1....

大数据 2024-04-01 人工智能

730阅读

探索LLaMA模型：架构创新与Transformer模型的进化之路

引言在人工智能和自然语言处理领域，预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI（前身为Facebook）在2023年2月推出的LLaMA（Large Language Model Meta AI）模型引起了广泛关注。LLaMA模型以...

AIGC 2024-04-01 人工智能

1303阅读

我的领导马斯克：痛恨开会，不要非技术中层，推崇裁员

马斯克称得上是个“魔鬼老板”这事儿，已经出了名了。现在，他的老部下卡帕西（Andrej Karpathy）又在最新访谈中“锤”了他一把（doge）：我不得不恳求他允许我招人。他（马斯克）总是默认要裁掉员工。喜欢裁人之外，在这场红杉组织的AI A...

生成式AI 2024-04-01 人工智能

686阅读

Mistral 7B 比Llama 2更好的开源大模型（一）

Mistral 7B 简介 Mistral 7B Mistral 7B 是一个 7.3B 参数模型：在所有基准测试中优于 Llama 2 13B 在许多基准测试中优于 Llama 1 34B 接近 CodeLlama 7B 的代码性能，同时...

AIGC 2024-04-01 人工智能

775阅读

【AIGC调研系列】Grok大模型与其他模型相比的优势和劣势

Grok大模型与其他模型相比，具有以下优势和劣势：优势：实时了解世界的能力：Grok能够通过X平台实时了解世界，这是其独特而根本的优势之一[2][6][17]。这意味着Grok能够在回答问题时提供最新的信息和数据。处理尖锐问题的能力：Gro...

大数据 2024-03-31 人工智能

2387阅读

如何修改大模型的位置编码 --以LLama为例

最近在看RoPE相关内容，一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型，已经训练好了，但是怎么修改已经训练好的模型位置编码。查了以下相关代码，记录一下。原理这里就不细讲了，贴几个相关博客。十分钟读懂旋转编码（RoPE）Tran...

AIGC 2024-03-31 人工智能

992阅读

Code Llama 简介，一种最先进的大型编码语言模型

Code Llama 简介，一种最先进的大型编码语言模型 2023 年 8 月 24 日...

生成式AI 2024-03-31 人工智能

1094阅读

llama.cpp部署多模态视觉模型到应用实践

一、安装cmake https://cmake.org/ 因为我使用是win10系统cmake版本是3.26.4，请根据自己系统选择版本。二、下载源码 git clone https://github.com/ggerganov/llam...

人工智能 2024-03-30 人工智能

1991阅读

从零开始的LLaMA-Factory的指令增量微调

大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。大模型应用向开发路径及一点个人思考大模型应用开发实用开源项目汇总大模型问答...

大数据 2024-03-30 人工智能

1043阅读

LLaMA-Factory参数的解答

打开LLaMA-Factory的web页面会有一堆参数，但不知道怎么选，选哪个，这个文章详细解读一下，每个参数到底是什么含义这是个人写的参数解读，我并非该领域的人如果那个大佬看到有参数不对请反馈一下，或者有补充的也可以！谢谢（后续该文章可能会持续更新）...

大数据 2024-03-30 人工智能

1189阅读

Yuan2.0大模型，联合向量数据库和Llama-index，助力检索增强生成技术

1. 背景在大模型爆发的时代，快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成（RAG）技术，结合了传统的信息检索和最新的大语言模型（LLM），不仅能够回答复杂的查询，还能在此基础上生成信息丰富的内容。 RAG技术的核心在于其能够将...

人工智能 2024-03-30 人工智能

950阅读

使用Python访问和操作Llama的方法

使用Python访问和操作Llama的方法 Llama是一个流行的Python库，用于处理和操作数据集。它提供了丰富的功能和工具，使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库，并提供相应的示例代码。...

AIGC 2024-03-30 人工智能

1000阅读

python调用GPT-4-API/gpt3.5-api/chatGML-API/llama2-API/文心一言ERNIE-BOT-API

目录调用GPT-4进行单轮对话调用GPT3.5 调用llama2-70B（百度接口）调用chatGML 调用ERNIE-BOT 4.0 关于如何开通GPT-API服务，请参考这一篇文章目前仅使用到单轮对话，记录一下，之后拓展需...

大数据 2024-03-30 人工智能

901阅读

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B

大佬出走后，第一个模型来了！就在今天，Stability AI官宣了新的代码模型Stable Code Instruct 3B。图片要说Stability也是真的很神奇，首席执行官辞职了，Stable Diffusion其中几位作者也离开了，投资公...

大数据 2024-03-29 人工智能

803阅读

微软Azure AI平台增加新安全功能可捕获客户AI应用中的幻觉

微软的Azure AI平台最近添加了一系列新的安全功能，旨在帮助捕捉客户AI应用中的幻觉、提示攻击和其他安全漏洞。这些功能由微软的首席负责人Sarah Bird介绍，并表示将易于使用，无需雇佣红队来测试他们构建的AI服务。这些由LLM提供支持的工具可以检...

生成式AI 2024-03-29 人工智能

730阅读

开源11天，马斯克再发Grok-1.5！128K代码击败GPT-4

Grok-1官宣开源不过半月，新升级的Grok-1.5出炉了。刚刚，马斯克xAI官宣，128K上下文Grok-1.5，推理能力大幅提升。并且，很快就会上线。 11天前，Grok-1模型的权重和架构开源，展示了Xai在去年11月之前取得的进展。 Gr...

生成式AI 2024-03-29 人工智能

767阅读

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

通义千问团队推出了 Qwen 系列的首个 MoE 模型，命名为 Qwen1.5-MoE-A2.7B。这个模型只有27亿个激活参数，但性能却与当前最先进的70亿参数模型相媲美。与 Qwen1.5-7B 相比，Qwen1.5-MoE-A2.7B 只有20亿个非...

人工智能 2024-03-29 人工智能

827阅读

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以选。高性能和低性能，这里的区别就是是功率，因为精...

AIGC 2024-03-29 人工智能

852阅读

笔记本电脑上部署LLaMA-2中文模型

尝试在macbook上部署LLaMA-2的中文模型的详细过程。（1）环境准备 MacBook Pro(M2 Max/32G ; VMware Fusion Player 版本 13.5.1 (23298085 ; Ubuntu 22.04.2 L...

生成式AI 2024-03-29 人工智能

959阅读

Mamba超强进化体一举颠覆Transformer！单张A100跑140K上下文

之前引爆了AI圈的Mamba架构，今天又推出了一版超强变体！人工智能独角兽AI21 Labs刚刚开源了Jamba，世界上第一个生产级的Mamba大模型！ Jamba在多项基准测试中表现亮眼，与目前最强的几个开源Transformer平起平坐。特别是...

大数据 2024-03-29 人工智能

831阅读

llama-index调用qwen大模型实现RAG

背景 llama-index在实现RAG方案的时候多是用的llama等英文大模型，对于国内的诸多模型案例较少，本次将使用qwen大模型实现llama-index的RAG方案。环境配置（1）pip包 llamaindex需要预装很多包，这里先把我...

人工智能 2024-03-29 人工智能

1424阅读

开源AI到底是什么？业界：超出开源软件范畴，需要重新界定

最近AI圈突然流行起开源概念。Meta承诺将会打造开源AI，马斯克起诉OpenAI，说它缺少开源模型。与此同时，一批科技领袖和科技企业纷纷为开源概念呐喊。不过科技界碰到一个难以解决的根本问题：它们对“开源AI”的概念无法达成共识。照字面意思，开源A...

AIGC 2024-03-29 人工智能

749阅读

大型语言模型如何教会自己遵循人类指令？

译者 | 李睿审校 | 重楼如今，人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ，也就是让大型语言模型教会自己遵循人类指令。指令微调(IFT ...

人工智能 2024-03-29 人工智能

866阅读

今日Arxiv最热NLP大模型论文：Llama-2上下文扩大48倍的方法来了，港大发布，无需训练

引言：大语言模型的长上下文理解能力在当今的人工智能领域，大语言模型（Large Language Models，简称LLMs）的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要，因为它使得LLMs能够有效地应对各种应用场景，例如在...

大数据 2024-03-28 人工智能

875阅读

元象大模型开源30款量化版本可更低成本部署

元象大模型开源了30款量化版本，支持 vLLM 和 llama.cpp 等主流框架的量化推理，无条件免费商用。对量化前后的模型能力、推理性能进行评估，以 XVERSE-13B-GPTQ-Int4量化版本为例，量化后模型权重压缩了72%，总吞吐提高了1.5...

大数据 2024-03-28 人工智能

708阅读

开源大模型DBRX：1320亿参数，比Llama2-70B快1倍

大数据公司Databricks最近发布了一款名为DBRX的MoE大模型，引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型，成为了新的开源之王。这款模型的总参数量达到了1320亿，但每次激活只有360亿参数，并且其生成速...

人工智能 2024-03-28 人工智能

745阅读

铁了心要打败OpenAI！坚信开源打败闭源！这家知名数据厂商4个月打造最强开源大模型！性能超越Claude3，速度是羊驼2倍

撰稿 | 言征出品 | 51CTO技术栈（微信号：blog51cto）大模型领域，迭代的速度简直要以天计算。昨天，大家还在热议Claude3超大杯版Opus在Elo Rating榜单上取代GPT4-Turbo-1106成为了新王。今天大家又发现开源...

生成式AI 2024-03-28 人工智能

863阅读

DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型，还在效率上有所突破。DBRX的基础和微调版本均已发布，为研究和商业应用提供了丰富的资源。 GitHub 链接：https:/...

生成式AI 2024-03-28 人工智能

815阅读

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

Claude 3的诞生又一次震惊了全世界。 Claude 3 Opus，Claude 3中最智能的模型，在大多数常见的人工智能系统评估基准测试中表现优异，包括本科水平专家知识（MMLU）、研究生水平专家推理（GPQA）、基础数学（GSM8K）等。图片...

大数据 2024-03-28 人工智能

979阅读

新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍

“最强”开源大模型之争，又有新王入局：大数据巨头Databricks，刚刚发布MoE大模型DBRX，并宣称：它在基准测试中击败了此前所有开源模型。包括同为混合专家模型的Grok-1和Mixtral。新王搅局，迅速引发了开源社区的热议。毕竟，仅...

AIGC 2024-03-28 人工智能

835阅读

号称全球最强开源 AI 模型，DBRX 登场：1320 亿参数，语言理解、编程能力等均超 GPT-3.5

3 月 28 日消息，初创公司 Databricks 近日发布公告，推出了开源 AI 模型 DBRX，声称是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。 DBRX 采用 transformer 架构，包含 1320...

人工智能 2024-03-28 人工智能

773阅读

llama factory学习笔记

模型模型名模型大小默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - BLOOM...

大数据 2024-03-28 人工智能

1152阅读

【关注】国内外经典大模型（ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、文心一言、千问等

以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮，可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算...

AIGC 2024-03-27 人工智能

883阅读