词汇量 - AIGC资讯

万字长文｜LLM大模型基础入门（非常详细）从入门到精通系列之：（三）Transformer 架构

...

生成式AI 2024-09-24 未命名

944阅读

Llama 3模型：多维度损失函数铸就大语言模型新巅峰

在人工智能领域,大型语言模型(Large Language Models, LLMs 的发展如火如荼。作为这一领域的佼佼者,Llama系列模型一直备受关注。随着Llama 3的横空出世,其在模型架构、训练方法等方面的创新再次引发业界热议。本文将深入探讨Ll...

大数据 2024-08-28 人工智能

1097阅读

【从Qwen2,Apple Intelligence Foundation,Gemma 2,Llama 3.1看大模型的性能提升之路】

从早期的 GPT 模型到如今复杂的开放式 LLM，大型语言模型 (LLM 的发展已经取得了长足的进步。最初，LLM 训练过程仅侧重于预训练，但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和校准，这是由 ChatGPT 推广的。自 Chat...

人工智能 2024-08-26 人工智能

994阅读

【大模型】微调实战—使用 ORPO 微调 Llama 3

ORPO 是一种新颖微调（fine-tuning）技术，它将传统的监督微调（supervised fine-tuning）和偏好对齐（preference alignment）阶段合并为一个过程。这减少了训练所需的计算资源和时间。此外，实证结果表明，ORP...

大数据 2024-07-24 人工智能

1008阅读

估值5亿美元了，抓住日韩，AI语言学习产品跻身赛道Top3

上周，AI 语言学习产品 Speak 又融资了，完成了2000万美金 B-3轮融资，由 Buckley Ventures 领投，之前领投了2700万美金轮次的 OpenAI Startup Fund 这次也跟投了。完成本轮融资之后，Speak 的总融资额达...

大数据 2024-07-11 人工智能

767阅读

估值5亿美元了，抓住日韩，AI语言学习产品跻身赛道Top3（上）

上周，AI 语言学习产品 Speak 又融资了，完成了2000万美金 B-3轮融资，由 Buckley Ventures 领投，之前领投了2700万美金轮次的 OpenAI Startup Fund 这次也跟投了。完成本轮融资之后，Speak 的总融资额达...

人工智能 2024-07-11 人工智能

784阅读

如何快速接入llama 3 ？送上最便捷教程

一、Meta llama 3介绍当地时间4月18日，Meta 发布两款开源Llama 3 8B与Llama 3 70B模型。按照Meta的说法，Llama 3 8B和Llama 3 70B是目前同体量下，性能最好的开源模型。在Llama...

大数据 2024-07-08 人工智能

810阅读

史上最走心midjourney教程&多案例咒语&注意点

一：什么是Midjourney ？（文末附 MidJourney 知识库，从注册到使用教程还有高阶技巧应有尽有。） Midjourney是一个由同名研究实验室开发的人工智能程式，可根据文本生成图像，于2022年7月12日进入公开测试阶段，使用者可透过D...

人工智能 2024-07-04 人工智能

829阅读

Llama源码解析之tokenizer.py

llama/llama/tokenizer.py at main · meta-llama/llama · GitHub # Copyright (c Meta Platforms, Inc. and affiliates. # This soft...

AIGC 2024-07-03 人工智能

906阅读

llama系列模型学习

一、目录 llama1 模型与transformer decoder的区别 llama2 模型架构 llama2 相比llama1 不同之处 llama3 相比llama2 不同之处 llama、llama2、llama3 分词器词表大小以及优缺点...

人工智能 2024-06-25 人工智能

1256阅读

【AI原理解析】— Meta Llama-3模型

目录一、模型架构 Transformer架构解码器（Decoder-only）设计 Group Query Attention (GQA 技术二、参数与训练参数规模训练数据集训练过程三、技术特点四、性能提升推理能力...

生成式AI 2024-06-18 人工智能

1079阅读

Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

原文地址：meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch 了解在 CPU 上部署 Meta* Llama 3 时如何减少模型延迟 2024 年 4 月 19 日万...

AIGC 2024-06-09 人工智能

708阅读

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环调用CLIP，无需额外训练就有效分割无数概念。包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR 2024接收，并开源了代码。团队提出名为CLIP as RNN（简称CaR）的新技...

大数据 2024-06-05 人工智能

742阅读

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。 Scaling law 告诉我们：只要能适当地分配参数和数据，就能在固定计算预算下实...

大数据 2024-06-03 人工智能

723阅读

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某...

生成式AI 2024-06-03 人工智能

693阅读

手撕Llama3第1层: 从零开始实现llama3

一、Llama3的架构在本系列文章中，我们从头开始实现llama3。 Llama3的整体架构：图片 Llama3的模型参数：让我们来看看这些参数在LlaMa 3模型中的实际数值。图片 [1] 上下文窗口（context-window）在实例化Lla...

人工智能 2024-05-27 人工智能

1670阅读

Meta 发布新多token预测技术，使AI模型速度提升3倍

近期，Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人员在一项研究中提出了一种改进 AI 大型语言模型（LLMs）准确性和速度的方法，即通过同时预测多个token。这与自回归语言模型...

人工智能 2024-05-07 人工智能

705阅读

大模型做时序预测也很强！华人团队激活LLM新能力，超越一众传统模型实现SOTA

大语言模型潜力被激发—— 无需训练大语言模型就能实现高精度时序预测，超越一切传统时序模型。来自蒙纳士大学、蚂蚁、IBM研究院提出了一种通用框架，结果成功激活大语言模型跨模态处理时序数据的能力。时序预测有益于城市、能源、交通、遥感等典型复杂系统的决策...

生成式AI 2024-04-11 人工智能

658阅读

Llama架构比不上GPT2？神奇token提升10倍记忆？

一个 7B 规模的语言模型 LLM 能存储多少人类知识？如何量化这一数值？训练时间、模型架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾又将对 LLM 的知识容量...

大数据 2024-04-10 人工智能

622阅读

Fireworks.ai开源API使任何开发者都能使用生成式AI

随着人们对生成式 AI 的热情不断高涨，越来越多的公司试图涉足这一领域。Fireworks.ai 就是其中之一。虽然公司名气不及 OpenAI、Anthropic 和 Cohere 等大牌厂商，但据该公司称，它拥有超过12，000名用户的最大开源模型 AP...

人工智能 2024-04-08 人工智能

755阅读

Hand Talk:利用AI自动将文本和音频翻译成手语

在帮助听障人士获取信息方面，Hand Talk应用的开发无疑是一项重要的创新。这款应用由人工智能驱动，能够自动将文本和音频翻译成美国手语（ASL）和巴西手语(Libras ，为全球约4.66亿聋人和重听人士提供了一个融入社会的新途径。 Hand Talk应...

AIGC 2024-04-08 人工智能

1111阅读

扩散模型攻克算法难题，AGI不远了！谷歌大脑找到迷宫最短路径

「扩散模型」也能攻克算法难题？图片一位博士研究人员做了一个有趣的实验，用「离散扩散」寻找用图像表示的迷宫中的最短路径。图片作者介绍，每个迷宫都是通过反复添加水平和垂直墙生成的。其中，起始点和目标点随机选取。从起点到目标点的最短路径中，随机采样...

AIGC 2024-04-02 人工智能

710阅读

非侵入设备贴在脖子上，就能代替人类发声，研究登《自然通讯》

在你看不到的地方，说话这件小事对于许多人来说「难于登天」：2014 年美国一项针对发声障碍的研究发现，近 1800 万成年人在使用声道说话时存在困难，而该群体中超过一半的人经历过言语衰弱问题的时间超过 10 年。现在，一种新型非侵入式可穿戴设备成为了这...

大数据 2024-04-01 人工智能

618阅读

AI写作查重率怎么降低：全面攻略助你突破困境

大家好，小发猫降重今天来聊聊AI写作查重率怎么降低：全面攻略助你突破困境，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具： AI写作查重率怎么降低：全面攻略助你突破困境在数字化时代，AI写作工...

AIGC 2024-03-12 人工智能

645阅读

破茧而出：从困惑到爆发的AI写作之旅

大家好，小发猫降重今天来聊聊破茧而出：从困惑到爆发的AI写作之旅，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：破茧而出：从困惑到爆发的AI写作之旅在数字时代的浪潮中，AI写作逐渐成...

人工智能 2024-03-08 人工智能

671阅读

知名AI研究者深挖谷歌Gemma：参数不止70亿，设计原则很独特

就在几天前，开源大模型领域迎来了重磅新玩家：谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini，Gemma 更加轻量，同时保持免费可用，模型权重也一并开源了，且允许商用。谷歌发布了包含两种权重规模的模型：Gemma 2B 和 Gemma...

生成式AI 2024-02-28 人工智能

680阅读

比OpenAI官方提示词指南更全，这26条黄金准则让LLM性能飙升50%以上

论文地址: https://arxiv.org/abs/2312.16171 Github地址: https://github.com/VILA-Lab/ATLAS 论文标题：Principled Instructions Are All You...

大数据 2024-02-05 人工智能

820阅读

2024大模型应用元年，科大讯飞率先打响商业化第一枪

浩浩荡荡的AIGC潮流，叠加资本资金如火如荼地注入，过去一年里，AI赛道焕发了新生，再度登上了科技语境的浪潮之巅。然而，与大模型战场的热闹相比，在商业化落地场景，AIGC的步伐却略显踌躇——技术层面，从文字到图像创作再到视频创作，AI屡屡交出了刷新大众视...

生成式AI 2024-02-01 人工智能

848阅读

论文隐藏字符降重智能写作

大家好，今天来聊聊论文隐藏字符降重智能写作，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：论文隐藏字符降重在论文降重的过程中，隐藏字符降重是一种常用的技巧。通过在文本中插入一些特殊符号或...

大数据 2024-01-28 人工智能

845阅读

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

Open AI 推出的 Whisper 是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜，被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据...

人工智能 2024-01-27 人工智能

797阅读

英伟达Jim Fan最新TED演讲上线：AI下一个前沿是「基础智能体」！

「AI的下一个前沿将是『基础智能体』（Foundation Agent）——一个掌握广泛技能，控制许多身体，并能够泛化到多个环境中的单一算法」。等了三个月，英伟达高级科学家Jim Fan在TED AI 2023上的演讲视频终于上线了。视频中，Jim...

人工智能 2024-01-24 人工智能

759阅读

[NLP]LLaMA与LLamMA2解读

摘要 Meta最近提出了LLaMA(开放和高效的基础语言模型模型参数包括从7B到65B等多个版本。最值得注意的是，LLaMA-13B的性能优于GPT-3，而体积却小了10倍以上，LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞...

人工智能 2024-01-20 人工智能

1496阅读

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm 变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。计算机要处理语言，...

AIGC 2024-01-17 人工智能

734阅读

[玩转AIGC]LLaMA2训练中文文章撰写神器（数据准备，数据处理，模型训练，模型推理）

目录一、下载并加载中文数据集二、中文数据集处理 1、数据格式 2、数据集处理之tokenizer训练格式 1）先将一篇篇文本拼凑到一起（只是简单的拼凑一起，用于训练tokenizer） 2）将数据集进行合并 3、数据集处理之模型（ll...

AIGC 2024-01-16 人工智能

741阅读

【LLM】微调LLM：LoRA 还是全参数？Llama 2 的深入分析

?大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流? ?个人主页－Sonhhxg_柒的博客_CSDN博客 ? ?欢迎各位→点赞? + 收藏⭐️ + 留言? ?系列专栏 - 机器学习【ML】自然语言...

人工智能 2024-01-15 人工智能

1718阅读

打破信息差！一款让人惊艳的大模型3D可视化工具！

近日，一位来自新西兰的小哥Brendan Bycroft在技术圈掀起了一股热潮。他创作的一项名为大模型3D可视化的项目，不仅登上了Hacker News的榜首，而且其震撼的效果更是让人瞠目结舌。通过这个项目，你将在短短几秒钟内完全理解LLM（Large...

人工智能 2024-01-14 人工智能

789阅读

TypeGenius功能玩法有哪些 iPhone手机AI写作助手推荐

AI Writing Keyboard TypeGenius是一款由人工智能驱动的写作助手，可帮助用户在各种应用程序中提高写作效率和质量。TypeGenius的体验下载入口在哪呢，这里我们来看下TypeGenius的官方体验入口。 >>>...

大数据 2024-01-13 人工智能

791阅读

LangSplat官网体验入口 AI 3D场景构建软件工具免费下载地址

LangSplat是一款利用CLIP语言嵌入映射到3D高斯分布的工具，用于构建3D语言场景并实现对3D场景的开放词汇量查询。它提高了处理效率，避免了NeRF中的昂贵渲染过程，并且学习到的语言特征能精确捕捉对象边界，提供精确的3D语言场景，无需后处理。Lan...

大数据 2024-01-02 人工智能

755阅读

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

最近几年发布的AI模型，如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构，但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势，这一特性严重限制了Transformer在长序列下的应用，例如无法一次性处理一...

人工智能 2024-01-02 人工智能

923阅读

Speaking AI免费体验入口 AI语音转录工具推荐

Speaking AI是一款基于人工智能的语音学习和练习的在线工具，它可以让您用自然的AI语音阅读文本，或者与一个虚拟的语言导师进行对话，提高您的口语水平和流利度。它支持多种语言和口音，包括英语、中文、日语、韩语等。Speaking AI的体验入口在哪呢，...

人工智能 2023-12-29 人工智能

803阅读

ChatGPT和文心一言的优缺点比较

ChatGPT和文心一言都是自然语言生成技术的代表，下面是它们的优缺点比较： ChatGPT的优点：自由度高：ChatGPT生成的文本与给定的话题没有紧密的关联，可以灵活地生成多种不同的文本。多样性高：ChatGPT可以生成多样性高的文本，因为其...

AIGC 2023-12-15 人工智能

831阅读

[玩转AIGC]sentencepiece训练一个Tokenizer(标记器)

目录一、前言二、安装三、自己训练一个tokenizer 四、模型运行五、拓展六、补充一、前言前面我们介绍了一种字符编码方式【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）这种方式是对一个一个...

生成式AI 2023-12-02 人工智能

800阅读

【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍！

Llama 2 发布！ Meta 刚刚发布了 LLaMa 2，它是 LLaMA 的下一代版本，具有商业友好的许可证。?? LLaMA 2 有 3 种不同的尺寸：7B、13B 和 70B。 7B & 13B 使用与 LLaMA 1 相同的架构，并且是...

大数据 2023-11-29 人工智能

1323阅读

LLaMA系列 | LLaMA和LLaMA-2精简总结

文章目录 1、LLaMA 1.1、模型结构 1.2、训练方式 1.3、结论 2、LLaMA-2 2.1、相比LLaMA1的升级 2.3、模型结构 2.3.1、MHA, MQA, GQA区别与联系 2.4、训练方式 1、L...

人工智能 2023-11-13 人工智能

1192阅读

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

背景随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chim...

生成式AI 2023-11-11 人工智能

1380阅读