-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。 对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。...
-
微软发布AI天气预测模型 能精准预报未来30天天气
微软Start团队近日宣布,他们开发出了一种全新的数据驱动AI天气预测模型,该模型能够准确预测未来30天的天气情况。这一研究成果不仅在预报准确率上取得了显著提升,同时在计算效率上也实现了巨大突破。 论文地址:https://arxiv.org/pdf/2...
-
一次性讲明白,如何搞定一个可以支持多芯混合训练的 AI 集群
由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。同时,各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内,数据中心的 AI 算力将保持多...
-
十个大型语言模型(LLM)常见面试问题和答案解析
今天我们来总结以下大型语言模型面试中常问的问题 一、哪种技术有助于减轻基于提示的学习中的偏见? A.微调 Fine-tuning B.数据增强 Data augmentation C.提示校准 Prompt calibration D.梯度裁剪 Gra...
-
低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法
在深度神经网络时代,深度神经网络(DNNs)在视觉分类任务中展现出了卓越的准确性。然而,它们对额外噪声,即对抗性攻击,表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依赖于与纹理和背景等无关紧要且不鲁棒的特征。 最近的AAAI 20...
-
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和...
-
阿里刚开源32B大模型,我们立马测试了“弱智吧”
阿里的通义千问(Qwen),终于拼齐了1.5系列的最后一块拼图—— 正式开源Qwen 1.5-32B。 话不多说,直接来看“成绩单”。 这次官方pick同台竞技的“选手”是Mixtral 8x7B模型和同为Qwen 1.5系列的72B模型。 从结果上...
-
无需AI PC也能跑AI应用?背后的原因你知道吗
最近关注PC市场的朋友想必会注意到,“AI PC”已经成为了诸多厂商最新的宣传口号。 在更进一步的产品介绍里,这些厂商往往会宣称他们的新品使用了全新内置NPU(神经网络单元)的处理器,因此它可以运行老旧设备所不能支持的各种AI应用,提供从语音助手到用户感知...
-
RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天...
-
LLaMA 模型中的Transformer架构变化
目录 1. 前置层归一化(Pre-normalization) 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入(RoPE) 5. 注意力机制优化 6. Group Query Attention 7. 模型...
-
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE 的引入,2022年标志着该领域的...
-
python与机器学习日记——文心一言对话记录节选保存
——个人学习用,不适用于大佬——— 虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。 看了两章西瓜书,先都别管,读取文件试试:一言哥说得先...
-
AI21发布世界首个Mamba的生产级模型Jamba 支持256K上下文长度
AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构,具有52B参数,其中12B在生成时处于活动状态。Jamba结合了Joint Attention和Mamba技术,支持256K上下文长度。单个...
-
DBRX抢占开源大模型王座 编程、数学等领域超越GPT-3.5
最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型,还在效率上有所突破。DBRX的基础和微调版本均已发布,为研究和商业应用提供了丰富的资源。 GitHub 链接:https:/...
-
OpenAI把微软电网搞崩!GPT-6被曝25年发布,训练刷爆10万张H100
GPT-6也被电力卡脖子了——部署十万个H100时,整个电网发生了崩溃! 就在刚刚,微软工程师爆料,10万个H100基建正在紧锣密鼓地建设中,目的就是训练GPT-6。 微软工程师吐槽说,团队在部署跨区域GPU间的infiniband级别链接时遇到了困难。...
-
「量子大军」出动,中国实验室破解世界级算法难题!MRD码微秒级加密防窃听,6G无人机爆炸性飞跃
近期,「新质生产力」成为备受市场关注的热词,不仅被写入2024政府工作报告,更被列为十大任务之首。 从古至今,人类社会的发展离不开生产力的变革,每一次生产力的变革都让人类社会发生天翻地覆的变化。从工业革命、电气革命到信息革命,生产力与生产关系的变化深刻影...
-
CUDA之通用矩阵乘法:从入门到熟练!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 通用矩阵乘法 (General Matrix Multiplication,GEMM 是各种模型和计算中的核心部分,同时也是评估计算硬件性能 (FLOPS 的标准技术。本文将通过对 GEMM 的实...
-
解读AI通用计算芯片:GPU训练CPU推理,用最优的成本降低AI算力支出
当前,人工智能已经成为推动企业业务创新和可持续发展的核心引擎。我们知道,算力、算法和数据是人工智能的三大核心要素,缺一不可。今天,笔者就从通用计算芯片这个维度出发,跟大家详细聊聊关于算力的相关技术与市场竞争态势。 所谓AI计算芯片(也称逻辑芯片),就是指...
-
硬刚“CloseAI”,马斯克如期开源Grok,最大开源大语言模型一夜易主!
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 开源了! 3月11日,马斯克曾发表了一篇“字少事大”的推文,并且设为了置顶。就一句话:xAI要在本周开源自家聊天机器人 Grok了。 消息一出,关注着Musk VS. Ope...
-
CPU、GPU、NPU,究竟谁才是“AI PC”的主角?
众所周知,如今“AI PC”可以说是消费电子行业最为热门的话题之一。对于一些不太了解技术细节,但却对这个概念心向往之的消费者而言,他们相信“AI PC”可以更智能地帮助自己完成一些不熟练的操作,或是减轻日常工作的负担。 但对于像我们这样,对“AI PC”既...
-
奥特曼老黄齐预测:AGI五年内降临,代替95%工作!但马斯克断言AGI将被电力卡脖子
Claude 3、Sora、Gemini 1.5 Pro的纷纷出现,以及或许今年内就会被放出的GPT-5,让所有人都不约而同地隐隐感觉:我们似乎离AGI似乎越来越近了。 OpenAI CEO Sam Altman坚定地认为,AGI将在5年内实现。 不过,...
-
从AI推理性能优化角度看LLaMA的模型结构和源码
本篇文章讲讲LLaMA的结构,已经有很多文章已经对LLaMA在一些结构上任务表现上做了一些解析,本文主要从优化的角度、实现kernel的角度解析一下LLaMA,读者事先对transformer的结构有基本认识最好。本文首发于我的公众号“AI不止算法”,文章...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
基于神经网络的偏微分方程求解器新突破:北大&字节研究成果入选Nature子刊
近年来,基于神经网络的偏微分方程求解器在各领域均得到了广泛关注。其中,量子变分蒙特卡洛方法(NNVMC)在量子化学领域异军突起,对于一系列问题的解决展现出超越传统方法的精确度 [1, 2, 3, 4]。北京大学与字节跳动研究部门 ByteDance Re...
-
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Tr...
-
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了? 根...
-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
机器学习中的十种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。 尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。 线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影 。例子包括...
-
机器学习中七种常用的线性降维技术总结
上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA Principal Component Analysis (PCA 是一种常用的降维技术,用于...
-
AI绘画Stable Diffusion原理之扩散模型DDPM
前言 传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
国内首个!最火的MoE大模型APP来了,免费下载,人人可玩
MoE(混合专家)模型最近有多火,不用过多介绍了吧? 作为当下最顶尖、最前沿的大模型技术方向,MoE能在不增加推理成本的前提下,为大模型带来性能激增。比如,在MoE的加持之下,GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。 但普通用户想要体...
-
挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 今天和大家探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Ad...
-
「天工2.0」MoE大模型发布
2月6日,昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP,这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载「天工AI智能助手」APP,体验昆仑万维「天...
-
昆仑万维发布「天工2.0」MoE大模型 新增多款 AI Agent
昆仑万维发布了新版 MoE 大语言模型「天工2.0」和新版「天工 AI 智能助手」APP。这是国内首个搭载 MoE 架构并免费向 C 端用户开放的大语言模型应用。用户可以在各手机应用市场下载「天工 AI 智能助手」APP,体验「天工2.0」的卓越性能。 「...
-
一文读懂「AIGC,AI Generated Content」AI生成内容
首先,让我们理解一下这两个概念。 AIGC,或者称之为人工智能生成内容,是指使用AI算法和模型来自动生成全新的、原创的内容。这种内容可以包括文本、图像、音频、视频等各种形式,甚至可以包括一些独特的形式,比如新颖的创意和设计。AIGC的应用领域非常广...
-
不分割成token,直接从字节中高效学习,Mamba原来还能这样用
在定义语言模型时,通常会使用一种基本分词方法,把句子分为词(word)、子词(subword)或字符(character)。其中,子词分词法一直是最受欢迎的选择,因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中。然而,一些研究指出了子词分词法...
-
匿名论文提出奇招,增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展? 不行,这些都太费硬件资源了。 来看一个奇妙新解: 和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。 具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流...
-
登Nature子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来
模拟当今量子计算设备的一个关键挑战,是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。 近日,加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《La...
-
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展? 不行,这些都太费硬件资源了。 来看一个奇妙新解: 和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。 具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“...
-
BiTA:创新AI方法加速大型语言模型生成
近年来,基于transformer架构的大型语言模型(LLMs)已经崭露头角。Chat-GPT和LLaMA-2等模型展示了LLMs参数的迅速增加,从几十亿到数万亿。尽管LLMs是非常强大的生成器,但由于所有参数的计算负载,它们在推理延迟方面存在问题。因此,...
-
揭秘NVIDIA大模型推理框架:TensorRT-LLM
一、TensorRT-LLM 的产品定位 TensorRT-LLM 是 NVIDIA 用于做 LLM(Large Language Model)的可扩展推理方案。该方案是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 Fa...
-
极新AIGC行业峰会 | 圆桌对话:探索中国AGI迭代之路
“AGI正处在一个巨大的研发范式革命的起点。” 整理 | 周梦婕 编辑 | 小白 出品|极新 2023年11月28日,极新AIGC行业峰会在北京东升国际科学院拉开帷幕,峰会上午的圆桌环节由凡卓资本合伙人王梦菲主持,深势科技战略副总裁何雯、Zil...
-
比亚迪发布璇玑AI大模型;微软推出Copilot Pro;国内首个MoE模型上线
比亚迪发布璇玑 AI 大模型 1 月 16 日,在 2024 比亚迪梦想日活动上,比亚迪正式发布了整车智能化架构「璇玑」及「璇玑 AI 大模型」。 比亚迪产品规划及汽车新技术研究院院长杨冬生称,「璇玑」是行业首个智电融合的智能化架构,让汽车拥有...
-
Camera or Lidar?如何实现鲁棒的3D目标检测?最新综述!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0. 写在前面&&个人理解 自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆...
-
ChatGPT VS 文心一言:技术与应用的前瞻性比较
总述 在当今的AI领域,自然语言处理技术日新月异,其中ChatGPT和文心一言是备受瞩目的两大模型。它们分别代表了不同的技术路线,并在实际应用中展现了各自的优势。本文将对ChatGPT和文心一言进行深入的比较分析,探讨它们的优缺点、适用...
-
人工智能数学基础 - 线性代数之矩阵篇
本文将从矩阵的本质、矩阵的原理、矩阵的应用三个方面,带您一文搞懂人工智能数学基础-线性代数之矩阵。 一、矩阵的本质 点积(Dot Product):点积作为向量间的一种基本运算,通过对应元素相乘后求和来刻画两向量的相似度和方向关系。 点积(Dot Pr...