-
YoloCS:有效降低特征图空间复杂度
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文地址:YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidificatio...
-
CVPR 2024 | 前沿而相对小众!几个AIGC扩散模型diffusion应用一览
1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 扩散...
-
具身智能的视觉-语言-动作模型:综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。 深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...
-
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争...
-
AI作画算法原理
1.概述 AI作画算法的原理相当复杂,涉及多个领域的知识,包括计算机视觉、机器学习和神经网络等。我们从以下几个方面来描述AI作画算法的基本原理。 2. 数据准备 在数据准备方面,AI作画算法通常需要大量的图像数据作为训练样本。可以是各种各样的艺术...
-
Sora底层技术原理:Stable Diffusion运行原理
AIGC 热潮正猛烈地席卷开来,可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度,特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性,也在逐渐改变一部分行业的生产模式。惊...
-
Hinton奥特曼重磅出席联合国AI大会,代表中国AI登台的竟是一位「癌患者」?
【新智元导读】达摩院医疗AI,又达新里程碑!国际顶刊《自然·医学》直接将其评价为,开启「医疗影像AI的黄金时代」。就在昨天,世卫组织亦宣布与达摩院合作,向发展中国家推广这项来自中国的AI多癌早筛技术。 5月30日,在日内瓦举行的AI for Good全球峰...
-
AI在咳嗽中检出癌症,不信?世卫组织正全球推广
中国的AI技术,登上联合国了! AI for Good峰会是联合国在AI领域的旗舰峰会,今年,联合国秘书长古特雷斯、“深度学习三巨头”之一的Hinton,以及OpenAI CEO奥特曼等都来参会了。 这样一场盛会中,一位中国女性患者吹奏口琴的视频吸引了全...
-
柒瑞赛事自动采集器:革新体育赛事数据采集与处理
在现代体育赛事中,数据的采集与处理已经成为不可或缺的一环。随着科技的进步,传统手动采集赛事数据的方式已经无法满足高效、准确的需求。在这一背景下,“柒瑞赛事自动采集器”应运而生,凭借其自动化、智能化的特点,为体育赛事行业带来了前所未有的变革。一、柒瑞赛事自动...
-
如何看待AIGC技术?未来已来,请做好准备!
文章目录 前言 令人震撼 无限可能 核心优势 背后力量 双刃剑 总结 前言 我正在写一篇关于人工智能对人类工作影响的文章,突然,我的电脑屏幕上弹出一条消息:“嘿,伙计,介意让我写一点吗?” 我吓了一跳,然后意识到是我自己的...
-
清华「天眸芯」登Nature封面:全球首款类脑互补视觉芯片
在开放世界中,智能系统不仅要处理庞大的数据量,还需要应对各种「长尾问题」,如自动驾驶中面临的突发危险、出入隧道的剧烈光线变化、夜间强闪光干扰等。在这类任务上,传统视觉感知芯片由于受到「功耗墙」和「带宽墙」的限制,往往面临失真、失效或高延迟的问题,严重影响...
-
Stable Diffusion文生图技术详解:从零基础到掌握CLIP模型、Unet训练和采样器迭代
文章目录 概要 Stable Diffusion 底层结构与原理 文本编码器(Text Encoder) 图片生成器(Image Generator) 那扩散过程发生了什么? stable diffusion 总体架构 主要模块分析 Un...
-
详解AI作画原理:从生成对抗网络到卷积神经网络
人工智能(AI)作画是近年来备受瞩目的领域之一,它不仅为艺术创作带来了全新的可能性,也推动了计算机视觉和深度学习技术的发展。本文将深入探讨AI作画的原理,重点介绍生成对抗网络(GAN)和卷积神经网络(CNN)在作画中的应用,并探讨它们的工作原理以及在实际应...
-
用于精确目标检测的多网格冗余边界框标注
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 一、前言 现在领先的目标检测器是从基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具...
-
解读注意力机制原理,教你使用Python实现深度学习模型
本文分享自华为云社区《使用Python实现深度学习模型:注意力机制(Attention)》,作者:Echo_Wish。 在深度学习的世界里,注意力机制(Attention Mechanism)是一种强大的技术,被广泛应用于自然语言处理(NLP)和计算机视...
-
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路...
1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder 超分辨率(SR)和图像生成是计算...
-
CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务...
目标跟踪 1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking 多目标跟踪(Multiple Object Tracking,MOT)是计算...
-
基于分层自监督学习将视觉Transformer扩展到千兆像素图像
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 Vision Transformers (ViT 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1 概括 对于计算病...
-
探秘图片爬虫:探寻数据的视觉宝藏
在今天的数字化时代,图片已经成为传递信息、表达情感的重要媒介。随着网络上图片资源的日益丰富,如何高效、准确地获取我们所需的图片成为了一个重要议题。而在这个议题中,“图片爬虫”无疑扮演着举足轻重的角色。本文将从定义、应用、技术原理、风险挑战以及未来趋势等多个...
-
Domo AI 上线唇形同步功能:提升面部对话视频转换效果
视频来自Domo AI官方 近日,Domo AI 宣布上线了唇形同步功能,使带有面部对话特写的视频在转换风格时,嘴部动画可以同步。通过选择3. 0 风格并启用“唇形同步”选项,用户可以体验到更自然流畅的面部对话视频转换效果。 唇形同步功能的上线标志着 Do...
-
yolov部署到iPhone或终端实践全过程
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 期待已久的检测经典又来来了一波强袭——yolov5。其实yolov5没有完整的文件,现在最重要的应该是把yolov4弄清楚,在目标检测领域中受益匪浅,可以在某些场景得到较高的提升。今天我们还是给大...
-
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源:https://github.com/LeapLabTHU/EfficientTrain 会议...
-
Meta首席科学家:大模型永远达不到人类智力
快科技5月23日消息,据媒体报道,Meta的首席人工智能科学家、深度学习领域的先驱杨立昆(Yann LeCun)近日对ChatGPT等生成式AI产品背后的大语言模型的能力提出了质疑。 他表示,大模型永远无法实现像人类一样的推理和规划能力。 杨立昆明确指出,...
-
CVPR 2024|多模态场景感知,小红书高保真人体运动预测方法来了!
设想一下,你在家中准备起身,前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统,已经预测出你的行动路线(路线通畅,避开桌椅障碍物)。当你接近橱柜时,系统已经理解了你的意图,柜门在你达到之前就已自动打开,无需手动操作。 视频中,左边为 3D 场景...
-
基于深度学习的实时视频处理 | 入门指南
近来,整个机器学习领域似乎被大型语言模型(LLM)和检索增强生成(RAG)所掩盖。虽然许多用例可以从这些新的基础模型中受益,但在非文本数据方面仍存在差距。我常把当前的机器学习阶段比作汽车工业中从燃油车向电动车的转变。燃油车已经有完善的基础设施(如汽车服务...
-
李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动
斯坦福李飞飞创业后,首次揭秘新概念“空间智能”。 这不仅是她的创业方向,也是指引她的“北极星”,被她认为是“解决人工智能难题的关键拼图”。 视觉化为洞察;看见成为理解;理解导致行动。 李飞飞最新15分钟TED演讲完整公开,从数亿年前生命进化的起源开始,...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。 然而,对于这些模型的评测多集中于语言上的任务,...
-
揭秘DeDoDe v2:如何革新关键点检测技术,让AI“眼”更明亮?
一、技术革新,DeDoDe v2应运而生 在图像处理和计算机视觉领域,关键点检测是许多应用的基础,如目标识别、图像匹配、三维重建等。然而,传统的关键点检测技术往往存在着检测不准确、易受噪声干扰等问题。为了解决这些问题,Linköping大学等科研团队推出...
-
AI教母李飞飞初创AI公司,开启最前沿AI算法研
最近的AI领域,又出现了大动作。 根据路透社5月4日消息,著名华人计算机科学家李飞飞正在建立一家初创公司。这家公司会利用类似人类对视觉数据的处理,使 AI 能够进行高级推理。这种AI算法使用的概念被称为“空间智能”。至于新公司的名字,还没有向外界披露。 一...
-
斯坦福李飞飞首次创业:学术休假两年,瞄准「空间智能」
没想到,在大模型时代,知名「AI 教母」李飞飞也要「创业」了,并完成了种子轮融资。 据路透社独家报道,著名计算机科学家李飞飞正在创建一家初创公司。该公司利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理。 知情人士透露称,李飞飞最近为这家公司进行...
-
AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮
AI教母李飞飞,创业了! 最新消息,斯坦福大学教授李飞飞正在建立一家AI公司,已完成种子轮融资。 公司方向定为“空间智能”——旨在让AI能像人类一样对视觉信息进行高级推理。消息人士表示,这将是该技术的一次飞跃。 投资方包括硅谷风投a16z和Radical...
-
最新综述!万字长文彻底搞懂单目3D车道线检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 3D车道检测在自动驾驶中起着至关重要的作用,通过从三维空间中提取道路的结构和交通信息,协助自动驾驶汽车进行合理、安全和舒适的路径规划和运动控制。考虑到传感器成本和视觉数...
-
什么是边缘人工智能和边缘计算?
边缘人工智能是人工智能领域最值得关注的新领域之一,它旨在让人们运行人工智能流程,而不必担心隐私或数据传输导致的速度减慢。边缘人工智能正在使人工智能的使用范围更广、更广泛,让智能设备无需访问云即可快速响应输入。虽然这是边缘人工智能的快速定义,但让我们花点...
-
华为开发者大会定档 将发布盘古大模型5.0
华为开发者大会定于6月21日至23日在东莞松山湖盛大举行,届时将见证盘古大模型5.0与HarmonyOS NEXT鸿蒙星河版的首次同台展示。 盘古大模型系列,作为华为精心打造的一系列预训练大模型,涵盖了自然语言处理(NLP)、计算机视觉(CV 以及科学计算...
-
人工智能可以帮助识别门牌号吗?
人工智能(AI 是一项进步,使计算机和机器能够复制人类的知识和解决问题的能力。如今,人们正在使用人工智能识别门牌号码。人工智能可以单独或与其他技术相结合来执行任务,如传感器、地理定位、机器人技术,无需人类参与。 人工智能在识别门牌号码方面的作用 在计算...
-
为下一波创新做准备:人工智能和元宇宙
我们正在见证两项变革性技术的激动人心的发展:人工智能和元宇宙。元宇宙的发展及其未来已经成为科技专业人士的热门话题。简而言之,元宇宙是一个虚拟现实世界,允许用户使用人工智能、增强现实和虚拟现实等先进技术进行互动。 根据彭博的报告,元宇宙市场预计到2030...
-
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”
Meta AI 研究人员今天发布了 OpenEQA,这是一个新的开源基准数据集,旨在衡量人工智能系统对 “体验式问答”(embodied question answering)的能力 —— 这种能力使人工智能系统能够理解现实世界,从而回答有关环境的自然语言...
-
AI无人商店竟是靠人工识别商品!七成交易需要人为
快科技4月10日消息,据媒体报道,亚马逊的AI无人商店项目竟然是靠人工来识别商品,并且每1000笔交易就有700笔需要人工审核。 据了解,亚马逊有一个Just Walk Out”的项目,顾客可以在无人商店里选好商品之后,直接走出去而无需排队等待结账。 因为...
-
离谱!AI超市「无人」收款,1000个印度人藏在背后……
就离谱,都2024了,人工智能靠人工的戏码还在上演。 而且是类似ATM机背后坐真·柜员给你递钱的那种! 当你走进一家超市,挑选完商品,无需人工、自助结账,直接拿好东西走人,等待一段时间,AI就能基于视频识别出你选了哪些东西,然后把账单发送过来,你只需点...
-
社交网络:利用AIGC进行社交网络分析
1.背景介绍 1. 背景介绍 社交网络是现代互联网的重要组成部分,它们连接了数亿个用户,为信息传播、人际交流和商业活动提供了一个平台。社交网络分析是研究这些网络结构和行为的科学,它涉及到许多领域,包括计算机科学、社会学、心理学和经济学。...
-
如何为制造业和自动化应用选择现人工智能技术
在工业自动化领域的生产和实验室之外的日常生活中,人工智能(AI 的定义差异很大。 “人工智能”指的是一门包含了几种不同技术和工程学科的科学,包括机器视觉、计算机视觉、机器学习和深度学习。当一个基于这些技术组合的系统设计得当时(从应用分析到最终验证 ,它...
-
智能百科 | 多模态人工智能及其应用
多模态人工智能概述 多模态人工智能是一种人工智能技术,其能够处理和理解多种类型的输入数据,例如文本、图像、语音和视频等。与传统的单一模态人工智能相比,多模态人工智能能够更全面地理解和处理信息,因为其能够同时考虑多种输入源的信息。 多模态人工智能通常利用...
-
马斯克造大模型,从特斯拉连挖高管
当全球首富埃隆・马斯克(Elon Musk)建立 xAI,准备与 OpenAI、谷歌竞争大模型时,他必须与众多科技巨头、初创公司争夺人才。 不过,他使用了一些取巧的办法:从自家的特斯拉挖来了几名优秀工程师。 该初创公司的网站显示,上个月,机器学习...
-
AI无人商店背后,是上千个印度人通过摄像头看美国人买西蓝花?
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 人们常说,有多少智能,就有多少人工。但是,亚马逊的这个项目,人工含量似乎有点高。 这个项目名叫「Just Walk Out」。就像它的...
-
马斯克为建立 xAI 从特斯拉挖来优秀工程师
全球首富埃隆・马斯克(Elon Musk)近期在建立 xAI 的过程中不仅与科技巨头、初创公司展开激烈竞争,还采取了从自家特斯拉挖来优秀工程师的策略。特斯拉的工程师 Ethan Knight 等一众人才转投 xAI,使得 xAI 在人才储备上得到强化。 马...
-
Transformer引领AI百花齐放:从算法创新到产业应用,一文读懂人工智能的未来
一、引言 近年来,人工智能技术取得了举世瞩目的成果,其中,自然语言处理(NLP)和计算机视觉等领域的研究尤为突出。在这些领域,一种名为Transformer的模型逐渐成为研究热点,以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...
-
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同...
-
探索使用对比损失的孪生网络进行图像相似性比较
简介 在计算机视觉领域,准确地测量图像相似性是一项关键任务,具有广泛的实际应用。从图像搜索引擎到人脸识别系统和基于内容的推荐系统,有效比较和查找相似图像的能力非常重要。Siamese网络与对比损失结合,为以数据驱动方式学习图像相似性提供了强大的框架。在...
-
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2...