-
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。 相比之下,基于大型语言模型(LLM)的图推理具有更强的跨任务和泛化能力,但它们在特定任务上的性能往往逊色于专用的图...
-
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...
-
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应
重磅: 北大团队联合兔展发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。 为什么发起这项计划? 因为资源有限,团队希望集结...
-
复旦研发出“眸思”大模型:助力视障者安全出行
快科技3月3日消息,据复旦大学官微发文,复旦大学自然语言处理实验室基于多模态大模型复旦眸思”(MouSi)为视障者量身打造的听见世界”APP上线,将成为视障人士的生活助手与智能管家。 2023年上半年,复旦大学自然语言处理实验室发布了开发MOSS对话式大型...
-
每日AI:Stable Diffusion3发布;剪映海外版CapCut推文生视频;微软win10、win11照片应用增加AI橡皮擦功能;OpenAI更新GPT商店
欢迎来到【每日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 🤖📱💼AI应用 Stable Diffusion3发布 文字渲染能力超强,图像生成质量超越Midjo...
-
Meta AI 发布 MMCSG数据集:使用 Project Aria 捕获的 25 小时以上的双向对话
Meta AI 最近发布了 MMCSG 数据集,该数据集包含使用 Project Aria 录制的25小时以上的双向对话。CHiME-8MMCSG 任务的重点是转录使用智能眼镜录制的对话,这些眼镜配备了多个传感器,包括麦克风、摄像头和惯性测量单元(IMUs...
-
Image to Music官网入口 AI图像转音乐生成器在线使用地址
Image to Music是一款利用人工智能将图像转换为音乐作品的创新工具。通过分析图像的颜色、形状和纹理等视觉元素,生成与图像相匹配的音乐。这款工具具有简单快速的操作界面和无需登录即可体验的特点,适用于音乐人、媒体创作者等不同领域的用户。 点击前往I...
-
Llama 3官网体验入口 媲美OpenAI GPT-4 AI模型免费使用下载地址
Llama 3是Meta开发的下一代开源语言模型,旨在与OpenAI的GPT- 4 相媲美。这款产品计划于 7 月发布,将更加响应用户,并对复杂话题提供上下文而不是简单阻止问题。Llama3 的参数数量可能超过 1400 亿,是Llama2 的两倍。目前尚...
-
微软37页论文逆向工程Sora,得到了哪些结论?
追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。 在最近的一篇文章中,微软研究院和理海大学的研...
-
OpenAI把GPT塞进机器人大脑,具身AGI奇点迫近!英伟达微软参投26亿美金独角兽Figure
人形机器人明星公司Figure迎来了高光时刻! 就在刚刚,OpenAI与Figure官宣合作,专为人形机器人打造下一代AI多模态模型。 图片 这项合作最大的目的是,增强机器人处理语言和推理的能力。 上个月,机器人Figure 01仅使用神经网络煮咖啡的视...
-
全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了
文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道,已经成了AI创业公司掘第一桶金的最佳起点。 但是在谷歌,微软等大厂都已经花了大量资源去布局的领域,留给初创公司的机会到底在哪里? 最近一家名为Ideogram的文生图工具,凭借优秀的文字渲...
-
AIGC下一步:如何用AI再度重构或优化媒体处理?
让媒资中“沉默的大多数”再次焕发光彩。 邹娟|演讲者 编者按 AIGC时代下,媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击,如何优化或重构媒体内容生产技术架构?在多样的应用场景中媒体内容生产技术又有着怎样的实践效...
-
UniVG体验入口 百度AI视频生成模型如何使用教程方法指南
UniVG是一款由百度推出的视频生成模型,其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式,以更好地平衡两者之间的关系。 点击前往UniVG体验入口 UniVG项目针对多模态视频生成场景,如影视特效制作和视频内容创作,提供了创新的多条件交叉...
-
OpenAI宣布与Figure合作 将GPT整合到机器人
OpenAI宣布与独角兽Figure合作,旨在打造下一代AI大模型,提升机器人的语言处理和推理能力。Figure01通过学习实现煮咖啡等任务,借助OpenAI的多模态模型,其能力有望得到进一步提升。 合作旨在增强机器人的智能,尤其是语言处理和推理方面。Fi...
-
开源 AI 生态平台 FlowGPT 获千万美元投资
00后华人创立了全球开源 AI 生态平台 FlowGPT,旨在成为 GenAI 的全球开源生态平台,为用户提供交流 AI 实践的社区和实际开发 AI 应用所需的工具。用户和创作者可以在平台上交互,并创建、分享各种 GenAI 应用程序。 FlowGPT最近...
-
AI文生图工具Ideogram获8000万美元融资 文字渲染吊打Midjourney
AI生成式图像创业公司Ideogram最近又成功融资8000万美元,吸引了包括Jeff Dean和Karpathy在内的硅谷大佬及知名机构的投资。 Ideogram凭借其卓越的文字渲染能力取得了重大突破。用户只需在提示中输入文字,即可自然地将文字融入生成的...
-
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemi...
-
读书笔记:从ChatGPT到AIGC:智能创作与应用赋能
文章目录 引爆内容生产力 应用场景:ChatGPT的多场景应用 传媒 电商 影视 教育 金融 医疗 发展梳理:从PGC到UGC再到AIGC PGC:企业和平台是内容创作的主体 UGC:用户成为内容创作主体 AIGC 内容生成:AIGC...
-
10|AI连接外部资料库,让Llama Index带你阅读一本书
有不少人在使用 OpenAI 提供的 GPT 系列模型的时候,都反馈效果并不好。这些反馈中有一大类问题,是回答不了一些简单的问题。比如当我们用中文问 AI 一些事实性的问题,AI 很容易胡编乱造。而当你问它最近发生的新闻事件的时候,它就干脆告诉你它不知道...
-
SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴
SORA技术报告解读 文章目录 概要 SORA整体概要 关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么? 1.2 如何处理不同分辨率的训练和推理问题? 2 Scalin...
-
Think2Drive:首个用于自动驾驶的基于模型的RL方法(上海交大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在CARLA v2中以专家级的熟练程度运行。 题目:Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World...
-
LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训
过去的图像生成模型常被人们诟病人物主要以「白人」为主,而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差,让用户们瞠目结舌。谷歌表示,该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上...
-
工信部:发布国内首个个人信息保护 AI 大模型“智御”助手
2 月 29 日消息,工业和信息化部日前发布关于 2023 年第四季度电信服务质量的通告。 通告称,深化 App 用户权益保护。制定《移动互联网应用程序(App)合规开发管理测评规范》《小程序个人信息保护规范》等系列标准,指引企业依法合规经营。实施“...
-
周鸿祎免费课演示360AI搜索 用户体验火爆现场增加服务器
2月29日,360创始人周鸿祎首堂AI免费课开讲,吸引千万网友围观。演讲现场周鸿祎演示了两款AI驱动的新产品。在演示测试版360AI搜索时,由于用户体验火爆,瞬时流量暴增44倍,为满足用户和全 网用户需求临时增加了服务器。产品经理透露,PV请求高达每秒近1...
-
探索AI写作的未来:从困惑度与爆发度的视角展望
大家好,小发猫降重今天来聊聊探索AI写作的未来:从困惑度与爆发度的视角展望,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 探索AI写作的未来:从困惑度与爆发度的视角展望 在人工智能飞速发展的...
-
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。 随着影视业失业潮呼声渐起,Sora的诞生也给中国AI行业带来了巨大的焦虑。 360集团创始人周鸿祎认为,Sora模型展现出了超越当前中国同类产品的性能...
-
CVPR'24发榜,华人博士生连中三篇凡尔赛!官方下场发梗图玩坏网友
千呼万唤,就在今天,CVPR 2024的接收结果终于出来了。 官方已邮件发送通知,已经有不少人晒出好消息: 当然,目前刚刚公布的是初步结果,具体中标的是oral还是highlight还要再等等。 以及详细统计数据也还没出。 但无论是中了还是“缘分未...
-
ChatMusician官网体验入口 AI音乐生成语言模型在线使用地址
ChatMusician是一个开源的大型语言模型(LLM),它通过持续的预训练和微调,集成了音乐能力。该模型基于文本兼容的音乐表示法(ABC记谱法),将音乐视为第二语言。ChatMusician能够在不依赖外部多模态神经结构或分词器的情况下,理解和生成音乐...
-
VAD v2端到端SOTA | 远超DriveMLM等方法(地平线)
从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的,但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中,为了应对不确定性问题,作者提出了VADv2,一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列,将传感器数据转换为...
-
免费的ChatGPT网站( 7个 )
ChatGPT 是由 OpenAI 公司研发的一款大型语言模型,它可以实现智能聊天、文本生成、语言翻译等多种功能。以下是 ChatGPT 的详细介绍: 智能聊天:ChatGPT 可以与用户进行自然语言对话,回答用户的问题,提供相关的信息和建议。它可以...
-
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。 具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1...
-
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了? 根...
-
重要的医学AI应用:使用多模态 CNN-DDI预测药物间相互作用事件
生病时,医生往往给我们开了多种药物,这些药物在同时服下时是否因为药物间相互作用产生对身体不良的效果,这引起我们的怀疑和担心。其实医生所开的药方的药品已经经过了药物间相互作用的实验和临床测试,我们不应对此产生疑虑。 药物间相互作用(DDI)是指当一个患者同...
-
高通宣布推出 AI Hub 开发人员在高通设备上运行AI模型
在巴塞罗那世界移动大会上,高通公司推出了多项新技术。该公司发布了Qualcomm AI Hub,这是一款新工具,允许开发人员在高通设备上运行AI模型。 Qualcomm AI Hub 为 Snapdragon 和 Qualcomm 平台提供75多个优化的...
-
AI、WiFi 7、5G齐发力,MWC 2024高通新技术看点汇总
2024年2月26日到29日,世界移动通信大会(MWC 2024)在西班牙巴塞罗那正式开幕。MWC是全球最具影响力的科技盛会,每一年都会吸引到世界各地的大批科技企业参与其中,共同推动移动通信技术的发展和创新。 高通作为全球领先的移动通信技术公司之一,可以算...
-
高通发布AI Hub 为开发者提供了75+优化的AI模型
高通在巴塞罗那举办的MWC上发布了AI Hub,该平台为开发者提供了一系列优化的AI模型,可在Snapdragon和高通平台上运行。这些模型的推出不仅加快了开发速度,还实现了在设备上运行AI的优势。通过在云端主机设备上运行模型,开发者只需几行代码即可实现。...
-
中国首部文生视频AI动画片发布 将在央视综合频道开播
2月26日起,每晚18:40,中央广播电视总台央视综合频道(CCTV-1)将播出国内首部文生视频AI动画片——《千秋诗颂》。这部动画片由总台精心制作,利用先进的AI技术,将中华经典诗词如《春夜喜雨》《咏鹅》等转化为独具中国审美特色的美术视觉。 《千秋诗颂...
-
香港大模型初创公司 Weitu AI 完成天使轮融资 估值一亿美金
AI 产品研发的香港初创公司 Weitu AI 今日宣布完成天使轮融资,估值一亿美金。本轮融资由拥有全球数亿月活的互联网科技公司和著名天使投资人联合领投。 Weitu AI 团队由来自北美名校毕业并拥有海外大厂工作经验的顶尖人才组成,其中包括多位长期活跃在...
-
这款对标ChatGPT的国产MoE大模型重磅更新!集AI对话、AI绘画、AI阅读、AI写作于一体!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效...
-
谷歌AI新星转投Pika:视频生成Lumiere一作,担任创始科学家
视频生成进展如火如荼,Pika迎来一位大将—— 谷歌研究员Omer Bar-Tal,担任Pika创始科学家。 一个月前,还在谷歌以共同一作的身份发布视频生成模型Lumiere,效果十分惊艳。 当时网友表示:谷歌加入视频生成战局,又有好戏可看了。 St...
-
谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。 对此,在 2 月 8 日,谷歌还把自家对标 ChatGPT...
-
【AIGC】基于深度学习的图像生成与增强技术
摘要: 本论文探讨基于深度学习的图像生成与增强技术在图像处理和计算机视觉领域的应用。我们综合分析了主流的深度学习模型,特别是生成对抗网络(GAN)和变分自编码器(VAE)等,并就它们在实际应用中的效果和局限性展开讨论。通过比较实验和案例研究,我们评估了不...
-
图像生成发展起源:从VAE、扩散模型DDPM、DETR到ViT、Swin transformer
前言 2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、...
-
AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期
今天分享的是AIGC系列深度研究报告:《AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期》。 (报告出品方:华安证券) 报告共计:64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...
-
OpenAI和谷歌,AI对线中的飞驰人生
到底什么时候,才能有一家公司赶超OpenAI?这句问题,想必是过去一年多来,萦绕在不少读者心中的困惑。 如果全世界只有一家公司能赶超OpenAI,谷歌应该是最有希望的选手。 同为北美AI巨头的谷歌,与OpenAI有着相同的AGI目标、世界级的技术人才、全球...
-
鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接:https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...
-
EgoGen官网体验入口 微软AI合成数据生成自我感知工具使用指南
EgoGen是一个用于生成以自我为中心的合成数据的系统,它能够模拟头戴设备(HMDs)的相机装置,并从相机佩戴者的视角渲染多种传感器数据。该系统提供了丰富的多模态数据和准确的注释,适用于自我感知任务。 点击前往EgoGen官网体验入口 谁可以从EgoGe...
-
AIGC内容分享(五十九):拐点时刻?AIGC时代的新闻业
目录 前言 大洗牌:新闻业的三重变革 涌现:AIGC正掀起一场 “供给侧改革”之外: 达克摩斯之剑: AIGC时代 结语: 前言 一阵生成式人工智能(AIGC 的旋风,正在席卷众多领域。 2022年底,OpenAI发布自然语言对话...
-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
都在搞端到端,试问端到端自动驾驶的基石到底是什么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基础模型的出现彻底改变了自然语言处理和计算机视觉领域,为其在自动驾驶(AD)中的应用铺平了道路。这项调查对40多篇研究论文进行了全面回顾,展示了基础模型在增强AD中的...