-
ocr识别原理和场景应用浅析
Labs 导读 日常生活的截图提取、拍照搜题,都用到了文字识别领域占据重要地位的OCR(光学字符识别)技术。 Part 01、 什么是OCR OCR(光学字符识别)是计算机文字识别的一种方法,利用光学技术和计算机技术将印刷或手写在纸张等介质的文...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果: 图片 无论是中英文的大段文字: 图片 还是包含了公式的文档图片...
-
4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
不仅如此,PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比,在单个 RTX 4090 (24G 上运行 Falcon (ReLU -40B-FP16,实现了 11 倍多的加速,还能保持模型的准确性。 具体来说,PowerIn...
-
百度AI原生应用开发工作台“千帆AppBuilder ”全面开放
百度智能云于12月20日举办的2023百度云智大会・智算大会上发布了20多款全栈产品,旨在重构云计算服务以满足大模型落地需求。会议以「大模型重构云计算,Cloud for AI」为主题,探讨大模型引发的云计算变革。百度智能云已完成从底层基础设施到大模型开发...
-
蚂蚁集团CodeFuse开源DevOps-ChatBot端到端AI智能助手
蚂蚁集团CodeFuse(蚂蚁百灵研发助手)宣布开源DevOps-ChatBot端到端AI智能助手。 据介绍,DevOps-ChatBot 是一个专为软件开发的全生命周期而设计的开源端到端智能 AI 助手。它通过结合 DevOps 垂类知识库、知识图谱增强...
-
深度学习之目标检测中的常用算法
随着深度学习的不断发展,深度卷积神经网络在目标检测领域中的应用愈加广泛,现已被应用于农业、交通和医学等众多领域。 与基于特征的传统手工方法相比,基于深度学习的目标检测方法可以学习低级和高级图像特征,有更好的检测精度和泛化能力。 什么是目标检测? 目标检测...
-
word2vec作者爆料:seq2seq是我的想法、GloVe抄袭技巧,反击来了
随着 NeurIPS 2023 获奖论文的公布,十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Com...
-
AI、零信任、边缘现代化与多云,2024这些技术趋势值得关注
事实上,在这场由ChatGPT激起的新一轮AI浪潮中,全球科技巨头、AI厂商、行业翘楚等纷纷下场,唯恐错过此番科技盛宴。同时,GenAI蓬勃发展产业规模也在高速增长,麦肯锡调查数据显示,2022年GenAI市场收入为400亿美元,预计2027年及203...
-
论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事
几天前,NeurIPS 2023 公布了获奖论文,其中时间检验奖颁给了十年前的 NeurIPS 论文「Distributed Representations of Words and Phrases and their Compositionality」...
-
六大赛道十项技术:智能体、3D生成引爆AI,空间计算开启终端变革
两千年前的古人穿越到一千年前后,需要适应的东西可能不多。而一千前的古人穿越到一百年前,变化也不至于大到难以适应。但如果一百年前的古人穿越到现在,甚至只是有人“冬眠”10年、20年,面对的现实世界的变化,恐怕会是天翻地覆。日新月异的技术进步,正不断带来颠覆...
-
一个智能助手搞定软件开发全流程,从设计到运维统统交给AI
从设计、编码到测试、部署,甚至是运维……软件开发的整个流程,可以通通交给AI了! 一款覆盖软件开发全生命周期的端到端AI智能助手,让分散的软件开发操作变得集成化、智能化。 这款AI助手专门针对开发领域设计,避免了通用大模型不可靠、信息不及时、领域任务不完...
-
63%的印度企业计划在2024年投资智能自动化和生成式AI
根据 Automation Anywhere 发布的《自动化现在和未来报告》第四版的印度调查显示,印度企业正在积极投资人工智能(AI)和机器学习(ML 来自动化其业务流程,预计在未来12个月内,将有63% 的印度企业投资这些技术,与去年相比,AI 的投资增...
-
练习时长两年半,特斯拉人形机器人Optimus二代上线
没有经过任何预告,特斯拉人形机器人「Optimus」第二代来了。 12 月 13 日上午,马斯克突然在 X 上放出了一段视频: 马斯克不多解释,直接用视频内容展示了 Optimus 的诸多新能力。 从设想到蹒跚学步,再到引发恐怖谷效应,练习时长两年半...
-
Gemini官网体验入口 谷歌多模态AI软件app免费下载地址
《Gemini》是由 DeepMind 开发的一款先进的人工智能模型,它从根本上构建为多模态,能够在文本、图像、视频、音频和代码之间无缝进行推理。这标志着 AI 如何帮助改善我们日常生活的重大飞跃。想要亲自体验《Gemini》吗?下面为大家提供《Gemin...
-
Hugging News #0814: Llama 2 学习资源大汇总
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣...
-
Together AI发布AI模型StripedHyena-7B 性能超越Llama-27B
Together AI最新发布了StripedHyena-7B,这一人工智能模型领域的创新力量引起了广泛关注。该模型的基础版本为StripedHyena-Hessian-7B(SH7B),同时还推出了聊天模型StripedHyena-Nous-7B(SH-...
-
一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原
一段音频+一张照片,瞬间照片里的人就能开始讲话了。 生成的讲话动画不但口型和音频能够无缝对齐,面部表情和头部姿势都非常自然而且有表现力。 而且支持的图像风格也非常的多样,除了一般的照片,卡通图片,证件照等生成的效果都非常自然。 再加上多语言的支持,瞬间照...
-
首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 实时根据传感器数据构建向量化高精地图对于预测和规划等下游任务至关重要,可以有效弥补离线高精地图实时性差的缺点。随着深度学习的发展,在线向量化高精地图构建逐渐兴起,代表性...
-
丰田是如何利用GenAI实现IT服务转型的
丰田汽车北美公司IT主管兼基础设施和运营服务总经理Jason Ballard表示:“我的一个大胆决定是,我希望在2025年前取消我们的传统服务台。” Ballard也是负责该公司转向电气化的电池电动汽车(Bev 平台以及数字平台工程和架构组织的技术高...
-
京东AIGC实战项目复盘;第一门AI动画系统课程;百川智能启动2024校园招聘;Kaggle 2023 AI前沿报告 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? 李彦宏宣布「文心大模型4.0」正式发布,并开启邀请测试 10月17日,李彦宏在百度世界2023上宣布「文心大模型4.0」正式发布,表示这是迄今为止最强...
-
触手可及的 GPT —— LLaMA
出品人:Towhee 技术团队 最近几个月 ChatGPT 的出现引起广泛的关注和讨论,它在许多领域中的表现都超越了人类的水平。它可以生成人类级别的语言,并且能够在不同的任务中学习和适应,让人们对人工智能的未来充满了希望和憧憬。 ChatGPT 之...
-
人均6万美元:2024英伟达奖学金名单公布,五位华人入选
本周五,备受期待的英伟达奖学金公布了入选者名单。 二十多年来,英伟达研究生奖学金计划(NVIDIA Graduate Fellowship Program)一直为研究生提供与英伟达技术相关的杰出工作支持。英伟达迄今为止已向近 200 名学生提供了 600...
-
“大海捞针”实验验证RAG+GPT-4 Turbo模型卓越性能 只需4%的成本
近期的“大海捞针”实验揭示了RAG+GPT-4Turbo模型的卓越性能,只需4%的成本,便能在生成响应时实现卓越的准确性。这标志着大型模型领域的一次重要突破。 在这个实验中,研究者使用了三种基本技术,包括上下文窗口填充、RAG(检索增强生成)和微调,以使L...
-
RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%
RAG+GPT-4,4%的成本,便可拥有卓越的性能。 这是最新的「大海捞针」实验得出的结论。 在产品中使用LLM的下一阶段,重点是让它们生成的响应/回复更加「超前高速化」(hyper-specific 。 也就是LLM需要按照不同的使用情况,针对数据集...
-
AIGC周报|周鸿祎:不会用GPT的人未来将被淘汰;蔡崇信:不用过于担心AI未来会取代人类;AI翻唱或涉多项侵权行为
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来...
-
自动驾驶大模型论文调研与简述
最近关于大模型(LLMs, VLM 与自动驾驶相关文献调研与汇总: 适合用于什么任务?答:目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。 大家都怎么做的? 对于规控任务,LLM型基本是调用+Prompt设计,集中在输入和输出设计...
-
Speaking AI在哪里下载 AI文本转语音软件推荐
Speaking AI 是一个由 Google AI 开发的语音合成软件。它使用了一种新的语音合成技术,能够生成逼真、自然的语音。Speaking AI软件的体验入口在哪呢,这里我们来看下Speaking AI的官方体验入口。 >>>点...
-
亚马逊云科技推出新型生成式 AI 助手 Amazon Q
亚马逊云科技宣布推出一种新型生成式 AI 助手 Amazon Q,专为满足办公场景的需求而设计。 Amazon Q 可以根据客户的业务进行定制,帮助员工快速获得复杂问题的答案、生成内容并采取行动。它可以根据企业的人员、角色和权限进行个性化定制,并确保客户的...
-
AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models 代码:lllyasviel/ControlNet: Let us control di...
-
LLaMA 2:开源的预训练和微调语言模型推理引擎 | 开源日报 No.86
facebookresearch/llama Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理。 该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型...
-
颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍
深度学习进入新纪元,Transformer的霸主地位,要被掀翻了? 2017年6月12日横空出世,让NLP直接变天,制霸自然语言领域多年的Transformer,终于要被新的架构打破垄断了。 Transformer虽强大,却有一个致命的bug:核心注意力...
-
构建生成式人工智能需要的不仅仅是大模型
生成式人工智能(GenAI 的迅速崛起使得企业争相寻找新的创新方法来利用这项技术在商业应用中的力量。许多企业认为,大型语言模型(LLM 已经重塑了人工智能驱动的商业应用程序的构建方式,所需要的只是将数据输入到大型企业的LLM模型中,它就会完成工作。然而,...
-
没有数据智能的人工智能是人工的
å¾ç 你在工作中看过机器人吸尘器吗?它一开始很有趣,当你看到它错过了你想要它清洗的一块污垢时,它变得越来越恼人。人工智能的前景是一样的。它可以使日常工作自动化,并带来显著的实际价值;但如果你不小心,你可能会花大部分时间反复撞到同一面墙上,或者在第...
-
字节跳动与中科大联手提出多模态文档大模型DocPedia
字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。 在此研究中,提出了DocPedia,...
-
突破分辨率极限,字节联合中科大提出多模态文档大模型
现在连文档都有大模型了,还是高分辨率、多模态的那种! 不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。 比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。 这款模型由字节跳动和中国科学技术大学合作研究,于2023年...
-
驶向未来,首个多视图预测+规划自动驾驶世界模型来了
近期,世界模型的概念引发了火热浪潮,而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队,首次提出了一种名为 Drive-WM 的全新多视图世界模型,旨在增强端到端自动驾驶规划的安全性。 网站:https://drive-wm.github.io...
-
百度文心一率先言向全社会开放 应用商店搜“文心一言”可直接下载
8月31日,文心一言率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com) 体验。同时,企业用户可以直接登录百度智能云千帆大模型平台官网,调用文心一言能力。 据悉,百度还...
-
加速数字化与低碳化双转型,施耐德电气的创新力量如何发挥作用?
进入数字化转型的下半程,如何加快数实融合、走向绿色低碳,已成为企业实现高质量发展的重要议题。作为全球数字化转型的专家和可持续发展的践行者,施耐德电气将大量绿色的创新产品和数字化技术应用于自身工厂,实现了数字化与低碳化双转型。 如今,施耐德电气在全球拥有9...
-
Excalidraw官网入口地址 AI团队协作画图软件推荐
Excalidraw是一款开源的在线绘图工具,可以让你用手绘风格画出各种流程图、示意图、架构图等。那么Excalidraw在哪里可以体验呢?这里就给大家带来Excalidraw官网体验入口。 >>>点击前往 Excalidraw 官网体...
-
文心一言最新重磅发布!
8月16日,由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会2023举办。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰以《大语言模型为通用人工智能带来曙光》为题,阐述了大语言模型具备理解、生成、逻辑、记忆四...
-
QQGC?揭秘QQ的AI绘画大模型技术
?腾小云导读 2022年来,AIGC概念迅速出圈并快速形成产业生态,成为继PGC、UGC之后新的数字内容创作形式。QQ影像中心提出了自研的AI画画技术方案——QQGC,本文将介绍在QQGC基础大模型训练中的实践和探索,接着往下看吧~...
-
网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展
随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。 然而,光电神经网络的前向数学...
-
面对AMD英特尔微软谷歌的挑战,英伟达AI计算能否笑到最后?
几天前英伟达发布财报,业绩不错,但不够好,无法推动股价进一步爬升。尽管如此,英伟达已经向投资者证明,竞争对手AMD、英特尔想追上还有很长的路要走。 英伟达高管知道竞争很激烈,他们强调,在AI芯片领域英伟达地位超然。如何保持优势?英伟达会加快研发速度,每...
-
Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享
OVD技术简介 目标检测是计算机视觉领域中的一项核心任务,其主要目标是让计算机能够自动识别图片中目标的类别,并准确标示每个目标的位置。目前,主流的目标检测方法主要针对闭集目标的开发,即在任务开始之前需要对待检测目标进行类别定义,并进行人工数据标注,通...
-
音频质量评估方法浅析
Part 01 评价方法 当涉及音频质量评价时,我们可以从主观评价和客观评价两个角度展开,以全面了解音频质量的好坏。这两种评价方法各自涉及不同的评估方式和应用场景,专家可以根据业务特点选取其中的一种或者多种评价方法结合的形式来评价业务音频质量。 主观评...
-
这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。 LLM 在情感分析、智...
-
LLaMA 2端到端推理打通!来自中国团队
Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。 我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorc...
-
聊一聊高精地图的数据问题,无图感知还有哪些坑要踩?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在自动驾驶领域,高精地图在定位、规划和避碰等方面发挥着至关重要的作用,实现行车安全和高质量路线预测。然而高精地图的构建都是昂贵、复杂的,而且专业性很强,无论是在硬件组成还是软件及其所使用的算法方面。...
-
智能工厂的下一步是什么? 展望工业 5.0
工业 5.0 建立在工业 4.0 技术的基础上,但强调可持续性以及人与机器之间的协作。 汽车制造商目前为实现智能运营而采取的许多措施有助于推动未来的进一步改进。 虽然数字化和工业 4.0 的好处已被讨论多年,但人们对工业 5.0 的兴趣与日俱增。 工...