-
目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。 这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。 此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。...
-
YOLOv10来啦!真正实时端到端目标检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 过去几年里,YOLOs因在计算成本和检测性能之间实现有效平衡而成为实时目标检测领域的主流范式。研究人员针对YOLOs的结构设计、优化目标、数据增强策略等进行了深入探索,并取得了显著进展。然而,对非极大...
-
人工智能技术应用笔记(七):速度快一倍!低显卡用户福音来了——可本地部署的轻量级SD(Stable Diffusion Forge)
本篇为《人工智能技术应用》专栏的第七篇。希望以学习笔记的形式和大家一起了解和探索人工智能技术的实际应用。 《本地部署轻量级SD实操》 今天介绍一款在原stable diffusion webui基础上经过代码优化,结构重组之后的轻量级产品—...
-
PVTransformer: 可扩展3D检测的点到体素Transformer
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接:https://arxiv.org...
-
腾讯混元大模型降价 混元-lite全面免费
腾讯云宣布大模型升级,旨在通过技术革新和价格调整,进一步推动人工智能(AI)应用的普及与发展。其中,混元系列模型作为腾讯云的主力模型,迎来了全面的性能提升和价格调整。 首先,混元-lite模型将实现API输入输出长度的巨大飞跃。目前,其API输入输出总长度...
-
微软一夜干翻苹果Mac!GPT-4o装进全家桶,微软把全世界PC都AI了
GPT-4o诞生刚过去一周,微软线下发布会再次给全世界亿点点震撼! 一大早,纳德拉向全世界公布了首款Copilot+ PC,采用了全新NPU,并重新设计了Windows 11系统。 最最重要的是,GPT-4o已经装进了新时代的AI PC,以及40+款模...
-
自动驾驶场景中的长尾问题怎么解决?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。 自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原...
-
思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能...
-
人工客服要被取代?用GPT-4o模拟处理客服事务,100%流畅毫无AI味
OpenAI于2024年5月13日推出了GPT-4o模型,其中的“O”代表全能(Omni),在人机互动的自然度上取得了显著进步。GPT-4o支持多模态输入和输出,包括语音、视频、图像和代码,能够实时与用户进行无缝交流,理解情感,并展现出幽默个性。 该模型的...
-
思维链不存在了?纽约大学最新研究:推理步骤可省略
红极一时的思维链技术,可能要被推翻了! 还在惊讶于大模型居然能够利用思维链分步骤思考? 还在苦于不会写思维链提示词? 来自纽约大学的研究人员表示:「没关系的,都一样」, 推理步骤不重要,不想写提示词也可以不写,用省略号代替就行了。 论文地址:https...
-
Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2
Refuel AI 最近宣布推出两个新版本的大型语言模型(LLM),RefuelLLM-2和 RefuelLLM-2-small,这两个模型专为数据标注、清洗和丰富任务而设计,旨在提高处理大规模数据集的效率。 RefuelLLM-2的主要特点包括: 自...
-
苹果深夜扔出M4核弹,iPad Pro碾压所有AI PC!280亿晶体管3nm工艺称霸地表
不出所料,发布会上,苹果又开大了! 此次发布会的一系列重磅更新,都是围绕着主角iPad展开。 库克直言:这将是iPad诞生以来的一个里程碑。 新款iPad Pro,轻薄到不可思议,直接让便携性和性能提升到史诗级水平。用苹果的话说就是——我们在打破iPa...
-
苹果正式发布M4:AI飙升两倍多!其他相当牙膏
快科技5月8日消息,苹果在今天凌晨的发布会上正式推出了新一代iPad Pro、iPad Air,其中前者直接全球首发M4处理器,只可惜它的变化并不是很大,有点像是M3的升级版,只有AI性能提升较多,工艺、CPU、GPU、内存上则是略有提升。 M4的制造工艺...
-
云原生✖️ AI 时代的微服务架构最佳实践—— CloudWeGo 技术沙龙·上海站报名开启
活动介绍 CloudWeGo 开源两年多以来,社区发展迅速,生态日益丰富,落地企业用户已超过 40 家,涵盖 AI、电商、金融、游戏 、互联网等多个行业。同时,随着云原生技术和 AI 技术的持续蓬勃发展,我们发现企业用户也面临着越来越多性能、成本和稳定性...
-
AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了
AI做数学题,真正的思考居然是暗中“心算”的? 纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升! 一作Jacab Pfau表示:只要花费算力生成额外token就能带来优势,具体选择了什么token无...
-
史上最大重建25km²!NeRF-XL:真正有效利用多卡联合训练!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:NeRF-XL: Scaling NeRFs with Multiple GPUs 论文链接:https://research.nvidia.com/labs/toronto-ai/nerfx...
-
单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
FP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。 测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至...
-
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH
大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再次引爆开源社区讨论。 与此同时,在实际应用层面上,另一个热点话题也浮出水面: 资源有限场景下...
-
震撼!GPT-4 Turbo级国产大模型登场,周冠宇F1赛事数据秒分析惊呆国际大佬
中国的大模型,已经震惊了外国科技圈。 这不,这几天商量大模型的更新,直接让外国网友惊呼:太疯狂了,中国的AI界究竟还有多少我们不知道的巨变? 不怪这些网友太大惊小怪——最近全新升级的日日新·商量大模型5.0(SenseChat V5),在基础能力上再次重...
-
革新LLM微调之道:全方位解读PyTorch原生库torchtune的创新力量与应用价值
在人工智能领域,大语言模型(LLMs)正日益成为研究和应用的新热点。然而,如何高效、精准地对这些庞然大物进行调优,一直是业界和学术界面临的重要挑战。近期,PyTorch官方博客发布了一篇关于TorchTune的文章,引起了广泛关注。TorchTune作为...
-
Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200
Nvidia CEO 黄仁勋亲自将首个 Nvidia DGX H200交付至旧金山的 OpenAI 办公室,这一举动彰显了人工智能行业两大巨头之间紧密的联系。OpenAI 总裁兼联合创始人 Greg Brockman 在推特上发布了一张照片,展示了这一事件...
-
均价破万!AI让PC快成了奢侈品
快科技4月24日消息,随着ChatGPT等AI技术的快速发展,大模型的部署正在从云端向设备下沉扩散,用户常用的PC和手机就成了最主要的载体。 联想CEO杨元庆表示,受算力等因素的影响,目前运行AI智能体最好的载体还是PC。 不仅是联想,全球主流PC厂商、涉...
-
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。 上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。 相比于其他多模...
-
英特尔构建全球最大的神经形态系统,以促进更可持续的AI
英特尔宣布,已经建造了世界上最大的神经形态系统,代号为Hala Point,这一大规模神经形态系统最初部署在桑迪亚国家实验室,采用英特尔的Loihi 2处理器,旨在支持未来以大脑启发的AI研究,并解决当前AI在效率和可持续性方面的挑战。Hala Po...
-
如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人理解 自动驾驶的基础任务之一是三维目标检测,而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合,又或者是毫米波雷达和相机融合,其最主要的目的就是...
-
天工SkyMusic音乐大模型开启公测 天工SkyMusic在哪访问?附天工SkyMusic下载地址
昆仑万维在 2024 年 4 月 17 日宣布,其最新研发的「天工3.0」基座大模型和「天工SkyMusic」音乐大模型现已开启公测。这两款产品的发布,标志着昆仑万维在人工智能领域的技术实力和创新能力再次得到显著...
-
ROCm加持出图效率翻倍!AMD RX 7900 XT Linux系统 AI性能体验
一、ROCm加持出图效率翻倍!AMD RX 7900 XT Linux系统 AI性能体验 ROCm:一个可移植、高性能的GPU计算平台 随着AI时代的来临,显卡的作用不再仅仅只局限于游戏,特别是在Stable Diffusion火爆全网之后,越来越多的玩家...
-
多个SOTA !OV-Uni3DETR:提高3D检测在类别、场景和模态之间的普遍性(清华&港大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文聚焦于3D目标检测的领域,特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中,系统旨在预测真实场景中物体的定向3D边界框和语义类别标签,这通常依赖于点云或RGB图像...
-
不牺牲算法,不挑剔芯片,这个来自中科院的团队正在加速国产AI芯片破局
在《沙丘》构建的未来世界里,「得香料者得天下」。但在生成式 AI 席卷的智能世界里,得 GPU 者得天下。 前段时间,外媒 The Information 曝出了一则重磅消息:微软和 OpenAI 正在规划一个雄心勃勃的数据中心项目 —— 建造一台名...
-
1MB的神奇AI,检测百万文件,99%的准确率!
在 Web 开发中,上传文件至服务器前的文件类型检测至关重要。这一步骤不仅能够确保服务器和用户的安全,拦截可能的恶意文件,还能保证上传的文件完整且符合预期,提高数据的合规性。同时,通过及时给予用户反馈和指导,也能提升用户体验,避免不必要的困惑。 之前阿宝...
-
Llama提速500%!谷歌美女程序员手搓矩阵乘法内核
谷歌的美女程序员,将Llama的推理速度提高了500%! 近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码, 图片 她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。 与llama.cp...
-
苹果开发出新款AI:可“看懂”屏幕内容并语音回复
快科技4月2日消息,据媒体报道,苹果公司近日宣布,成功研发出一款前沿的人工智能系统ReALM(Reference Resolution As Language Modeling,即基于语言建模的参考解析)。 据悉,该系统具备卓越能力,能够精准解析屏幕上模糊...
-
让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%
撰稿丨诺亚 出品 | 51CTO技术栈(微信号:blog51cto) 总被用户吐槽“有点智障”的Siri有救了! Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽如人意。然而,苹果的人工智能团队最新...
-
RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天...
-
LLaMA 模型中的Transformer架构变化
目录 1. 前置层归一化(Pre-normalization) 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入(RoPE) 5. 注意力机制优化 6. Group Query Attention 7. 模型...
-
让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些 VPT 的计算量变得越来越大,这些巨大的计算量同时也限制了这个领域的进一步发展,对那些计算资源不足的研究者十分不友好。例如,训练...
-
马斯克推出Grok-1.5,接近GPT-4级别的性能
马斯克指出,Grok-1.5将为xAI在X平台上的ChatGPT挑战者聊天机器人提供支持,而Grok-2(新模型的继任者 仍在训练阶段。他表示,下一个版本应该能够“在所有指标上超越当前的AI”,但没有分享它可能何时变得可用的具体细节。 Grok-1....
-
X AI 发布Grok-1.5更新:性能显著提升 支持128K上下文长度
昨天,X AI 发布了其最新的大型语言模型更新——Grok-1.5。该版本在编码和与数学相关的任务中表现出了显著的性能提升。 据详细介绍,Grok-1.5在 MATH 基准测试中获得了50.6%的分数,在 GSM8K 基准测试中获得了90%的分数,这标志着...
-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
随着ChatGPT的出现,大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面,面临内容不准确、安全等难题。 谷歌Deepmind和南加州大学的研究人员提出了“SELF-DISCOVER”。这是一种用于大语言模型的通用框架...
-
【wails】(8):发现一个用golang重写llama.cpp的llama.go项目,经测试支持f32模型,半年未更新,找到llama.cpp对应的版本,可以转换f32模型
1,项目地址 https://github.com/gotzmann/llama.go 项目最后的发布时间是2023年4月28日 项目是把 llama.cpp 的项目重写使用 golang 重写了下。 https://www.bilibili.co...
-
CLIP-BEVFormer:显式监督BEVFormer结构,提升长尾检测性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做...
-
耳机革命!高通发布第三代S3、S5音频平台:AI性能提升超50倍
快科技3月26日消息,高通今日推出两款全新的先进音频平台第三代高通S3音频平台和第三代高通S5音频平台。 两大平台分别将面向中端和高端层级耳塞、耳机和音箱提升无线音频体验。 高通公司表示,这两款平台是各自系列中最强大的平台,将为S5和S3层级带来前所未有的...
-
新研究:大语言模型“涌现”能力不令人惊讶也不难预测
3月26日消息,一项新的研究认为,大语言模型性能的显著提升并不令人意外,也并非无法预测,实际上这是由我们衡量人工智能性能的方式所决定的。 两年前,450位研究人员在一个名为超越模仿游戏基准(Beyond the Imitation Game Bench...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思
AI漫长的历史中,ChatGPT绝对是浓墨重彩的一笔。正是它引爆了AI大模型概念,也让以往高高在上的AI飞入了寻常百姓家,开始融入每个人的日常工作、生活,AI PC、AI手机、AI边缘也都在大踏步前进,变革千行百业。 有调研数据显示,预计到2026年,AI...
-
【AIGC调研系列】智普GLM-3与GLM-4分别适用于什么使用场景
智普GLM-3与GLM-4分别适用于不同的使用场景。GLM-4是一款性能全面提升的新型大模型,它在总结、信息抽取、复杂推理、代码等应用场景中表现出色[1]。GLM-4支持更长的上下文、更强的多模态支持和更快速的推理[2],能够完成文件处理、数据分析、图表绘...
-
昇思MindSpore 2.3全新发布 | 昇思人工智能框架峰会2024圆满举办
北京时间3月22日消息,人工智能框架作为软件根技术,已成为加速人工智能大模型开发、推动产业智能化发展的核心力量。以“为智而昇,思创之源”为主题的昇思人工智能框架峰会2024今日在北京国家会议中心举办,旨在汇聚AI产业界创新力量,推动根技术持续创新,共建人...
-
为什么说GPU再火,AI平台也少不了强力的CPU
AIGC的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式AI应用。 更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI加速服务器再次被拉到了大众的聚光灯下。 据统计,2023年全球范围内的AI服务器市场规模已经达到...