-
【大模型与AIGC】VLM基础知识汇总
这里写目录标题 LLM输入时的理解 1. Tokenizer的实现:Word极大似然估计 LLM推理:关于Attention mask的理解 1. CausalModel 与 AttentionMask 2. attention mask乘法...
-
Unsloth 教程 - 如何微调 Llama-3并导出到 Ollama
本文翻译整理自:? How to Finetune Llama-3 and Export to Ollamahttps://docs.unsloth.ai/tutorials/how-to-finetune-llama-3-and-export-to-ol...
-
3天把Llama训成Mamba,性能不降,推理更快!
近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。\ 先来看一张其乐融融的图片(一眼AI): 右边的小羊驼代表Llama,而左边的蛇(...
-
绘唐3高级推理创作-小说推文工具AIGC阿祖
绘唐3高级推理创作https://qvfbz6lhqnd.feishu.cn/wiki/D3YLwmIzmivZ7BkDij6coVcbn7W Title: "The Mysteries of Tang Dynasty - Advanced Deduct...
-
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
论文链接:https://arxiv.org/pdf/2409.02097 Git链接:https://lv-linfusion.github.io/ 亮点直击 本文研究了Mamba的非因果和归一化感知版本,并提出了一种新颖的线性注意力机制...
-
o1研发团队首次集体访谈:教AI数r用了一年半
笑死,原来o1也像人类一样喜欢赶ddl。 这是在o1团队的“大型见面会”上,OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。 包括Zaremba在内的18名团队成员,在首席研究官Bob McGrew的带领之下围坐一团。 o1核心贡...
-
OpenBayes 教程上新 | FLUX ComfyUI 现已上线 ,让 SD 和 Midjourney 颤抖的文生图黑马!
横空出世的黑马 FLUX ,以其强大的图像生成能力,让 Stable Diffusion 和 Midjourney 这 2 个「昔日顶流」倍感压力。 FLUX 与 Stable Diffusion 渊源颇深,其研发公司 Black Forest Labs...
-
1000个Agent圈地模拟人类社会,北大校友创业AI版「我的世界」
北大校友打造的1000个智能体「我的世界」,火爆AI圈! 随便一条推文,都能引来几十万网友围观: 在这里,有着真正意义上的虚拟社会,包括文化、经济、宗教…… 每个智能体在GPT-4加持下,都是社会中独立自主的个体。 比如这位名叫Olivia的农民,受探...
-
【AIGC半月报】AIGC大模型启元:2024.08(下)
【AIGC半月报】AIGC大模型启元:2024.08(下)) (1 Nemotron-4-Minitron(Nvidia LLM) (2 VITA(腾讯优图多模态大模型) (3 mPLUG-Owl3(阿里巴巴多模态大模型) (4 ADA...
-
毕业论文初稿写作经验分享Wanfangai写作技巧
一:关于选题技巧 ?先定基本选题:“知网”搜索专业,选择“学位论文”, 按下载量选择感兴趣的选题。 ?细化选题:若上一步选题没有通过,可采用“前加背景,后加案例”的公式进行细化选题,通过率高。 敲黑板?? 连选题方向都没有的,可以从这几个方面去思考? ?...
-
Llama中的曼巴:通过推测解码加速推理
大型语言模型(LLMs)已经彻底改变了自然语言处理领域,但在处理非常长的序列时面临重大挑战。主要问题来自于Transformer架构的计算复杂度随序列长度呈二次方增长以及其巨大的键值(KV)缓存需求。这些限制严重影响了模型的效率,特别是在推理过程中,使生成...
-
非Transformer时代到来!全新无注意力模式超越Llama传奇
来源 | 机器之心 ID | almosthuman2014 Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。 此后,采用 Mamba 架构的模型...
-
江大白 | 视觉Transformer与Mamba的创新改进,完美融合(附论文及源码)
本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。 原文链接:视觉Transformer与Mamba的创新改进,完美融合(附论文及源码) 以下文章来源于微信公众号:AI视界引擎 作者:AI引擎 链接:https://mp.weixin.q...
-
论文阅读-Transformer Layers as Painters
1. 摘要 尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且...
-
OpenAI面临多个挑战:人才流失、竞争对手的紧追不舍
OpenAI,这家在人工智能领域具有重要影响力的公司,目前正面临一系列挑战,包括人才流失、财务压力和竞争对手的紧追不舍。自首席执行官Sam Altman去年被解雇又重新聘任以来,公司的人事动荡不断加剧。至今,OpenAI的11位联合创始人中只有3位仍然在职...
-
哦吼,新模型?文生图领域的新模型FLUX.1(附模型下载网盘地址和详细使用方法)
?背景 Black Forest Labs 是由 Stable Diffusion 原班人马成立的公司,致力于研发优质的多模态模型并开源。该公司由多位前 Stability AI 研究员组成,包括 Robin Rombach 在内的团队成员,他们在图像和...
-
FLUX.1 最强AI绘画开源模型,最新本地部署教程
Stable Diffusion 作者之一 Robin Rombach 官宣创业,成立了新公司「Black Forest Labs」(黑森林实验室),并推出了最新文生图模型「FLUX.1」。Black Forest Labs 在 AI 开发方面拥有丰富的经...
-
【07】LLaMA-Factory微调大模型——微调模型导出与微调参数分析
上文介绍了如何对微调后的模型进行使用与简单评估。本文将介绍对微调后的模型进行导出的过程。 一、llama-3微调后的模型导出 首先进入虚拟环境,打开LLaMA-Factory的webui页面 conda activate GLM cd LLaMA-F...
-
【三维AIGC】扩散模型LDM辅助3D Gaussian重建三维场景
标题:《Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models》 来源:Glasgow大学;爱丁堡大学 连接:https://arxiv.org/abs/2406.13099...
-
搭建本地whisper语音识别
目录 代码仓库 编辑 选择模型 环境配置 语音识别测试 Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 代码仓库 GitHub - ope...
-
【AIGC半月报】AIGC大模型启元:2024.06(上)
AIGC大模型启元:2024.06(上) (1 ChatTTS(语音合成项目) (2 Mamba-2(大模型新架构Mamba升级) (3 GLM-4 9B(智谱开源LLM) (4 Seed-TTS(字节语音合成) (5 QWen2(阿...
-
推荐收藏!帮你轻松写好Midjourney提示词的10个结构框架
最近经常有同学问我,Midjourney的提示词看上去很复杂,不知道如何下手。以下我总结了10个常用的Midjourney提示词结构,希望能帮助你轻松上手提示词。 基础知识 开始前,有几件关键的提示词知识需要了解: 要有描述性:关于主...
-
自然语言处理(NLP)技术在AIGC中的突破
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践...
-
Llama 3“智商”测试:英文提示表现亮眼,中文不完美但差强人意!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效...
-
【AIGC半月报】AIGC大模型启元:2024.05(上)
AIGC大模型启元:2024.05(上) (1 Video Mamba Suite(Mamba视频领域应用) (2 KAN(全新神经网络架构) (3 Meshy 3(文本生成3D模型) (4 MemGPT(LLM记忆管理框架) (5 ...
-
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
年前,Mamba被顶会ICLR拒稿的消息曾引起轩然大波。 甚至有研究人员表示:如果这种工作都被拒了,那我们这些「小丑」要怎么办? 这次,新一代的Mamba-2卷土重来、再战顶会,顺利拿下了ICML 2024! 仍是前作的两位大佬(换了个顺序),仍是熟...
-
训练Stable Diffusion(XL) Lora的图片是否需要caption?
intro 目前很多风格lora模型的训练都会对图片进行caption,训练风格lora时使用image caption步骤是否能带来正向的效果? 在sdxl的代码实现中,lora插入的位置为unet中cross attention的QKV的线性投影部...
-
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
无情戳穿“长上下文”大模型的虚标现象—— 英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长度的都有。 但一番考验下来,在新指标“有效上下文”上缩水严重,能达到32K的都不多。 新基准名为RULER,包含检索、多跳追踪、...
-
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
改进Transformer核心机制注意力,让小模型能打两倍大的模型! ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。 DCMHA解除...
-
whisper-v3模型部署环境执行
1. 安装whisperV3 github git clone https://github.com/openai/whisper.git pip install -U openai-whisper pip install setuptools-ru...
-
AI领域的新速度之王Samba-1 Turbo:每秒1084 个token
AI芯片厂商SambaNovaAI最新推出的AI芯片Samba-1Turbo表现出色,被称为AI领域的新速度之王。据外部机构Artificial Analysis独立测试结果显示,Samba-1Turbo在Llama3Instruct(8B)上的输出速度...
-
AI大模型日报#0422:深扒「全球TOP 10大模型团队」、扎克伯格 Llama 3访谈
导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 文本生成8K、360度全景世界!Model 3重磅发布 摘要: Blockade Labs发布了新模型Model 3,...
-
LLaMA-Factory微调LLama2
LLaMA-Factory(0.6.2版本 微调LLama2 1.下载安装 git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e...
-
均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop
英伟达用Grace Hopper的实力证明,它可以成为AI超算的首选硬件,未来将不再局限于GPU。 5月12日,英伟达宣布,全球有9台新型超级计算机正在使用Nvidia Grace Hopper超级芯片来加速科学研究和发现,从而推动高性能计算(HPC)产...
-
开源模型穷途末路?Stability AI欠下1亿美元,四处找钱
曾经创造出Stable Diffusion系列模型的Stability AI,目前面临前所未有的财务危机。 这个曾经有10亿美元估值,却只有180名员工的明星初创公司正在考虑出售,并积极与潜在买家接触。 有知情人士表示,Stability AI曾私下联系...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
原作者带队,LSTM真杀回来了!
20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所...
-
网传Ilya Sutskever的推荐清单火了,掌握当前AI 90%
随着生成式 AI 模型掀起新一轮 AI 浪潮,越来越多的行业迎来技术变革。许多行业从业者、基础科学研究者需要快速了解 AI 领域发展现状、掌握必要的基础知识。 如果有一份「机器学习精炼秘笈」,你认为应该涵盖哪些知识? 近日,一份网传 OpenAI 联合创...
-
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果,然而,Transformer 中自注意力带来的二次复...
-
比肩Transformer的Mamba在时间序列上有效吗?
Mamba是最近最火的模型之一,更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章,探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理,再结合这篇文章探索在时间序列预测场景中Mamba是否有效。...
-
大模型创业淘汰潮开始了:这是第一个估值 10 亿美元的祭品
风雨飘摇中的Stability AI还能走多远? 近期,AI 绘画神器 Stable Diffusion 背后的开发公司 Stability AI 发生一系列变动,包括 CEO Emad Mostaque 在内的多名核心高管、技术人员离职,公司面临现金流危...
-
AI21发布世界首个Mamba的生产级模型Jamba 支持256K上下文长度
AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构,具有52B参数,其中12B在生成时处于活动状态。Jamba结合了Joint Attention和Mamba技术,支持256K上下文长度。单个...
-
今日AI:OpenAI要给开发者发钱;马斯克Grok-1.5王炸级更新;李玟姐姐称AI“复活”是二次伤害;世界首个Mamba的生产级模型Jamba发布
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 OpenAI将推...
-
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体! 人工智能独角兽AI21 Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型! Jamba在多项基准测试中表现亮眼,与目前最强的几个开源Transformer平起平坐。 特别是...
-
llama-index调用qwen大模型实现RAG
背景 llama-index在实现RAG方案的时候多是用的llama等英文大模型,对于国内的诸多模型案例较少,本次将使用qwen大模型实现llama-index的RAG方案。 环境配置 (1)pip包 llamaindex需要预装很多包,这里先把我...
-
首个基于SSM-Transformer混合架构,开源商业大模型Jamba
3月29日,知名AI研究实验室AI21在官网开源了,首个基于SSM-Transformer混合架构的商业大模型——Jamba。 目前,ChatGPT、Stable Difusion 、Lyria等产品使用的皆是Transformer架构,虽然在捕捉序列内长...
-
使用Unity 接入 Stable-Diffusion-WebUI 文生图生成图像
参考:stable diffusion 远端跑图—— Api基础知识掌握 - 知乎 (zhihu.com 1、准备工作(下载启动器 这一部分就不多赘诉了,我使用的是B站秋叶大佬的整合包,要启用API。 网上蛮多自己配置的,可能需要设密码之类...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。 然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...
-
突发!Stability AI的CEO,跑路了
生成式 AI 的明星创业公司 Stability AI,现在是风雨飘摇的状态。 周六上午,Stability AI 突然发布一项公告,宣布公司 CEO Emad Mostaque 辞职。 公告全文内容如下: 今天早些时候,Emad Mo...