-
超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大&阿里发布MovieDreamer,纯AI生成电影引爆热议!
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。 对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归...
-
AI写作软件:解放创作还是威胁人文?
1. AI写作软件简介 近年,得益于 AI 技术的飞速成长,AI 写作软件渐被众人熟知。AI 写作软件,是一种借助 AI 技术实现文字自动生成的工具,其使用范围广泛,包括新闻写作、广告文本创作、甚至小说写作等各个领域。通过深度学习以及自然语言处理技术,其...
-
AI+视频 | Nvidia 投资的AI公司,通过视频理解开创感知推理,获顶级风投5000万美元融资
在每天刷视频的时代,我们如何快速创作360度全方位理解的视频内容? Twelve Labs,一家旧金山初创公司,是由一支年轻的工程师团队Jae Lee 和 Aiden L 创立,该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义...
-
OpenAI 升级 ChatGPT 语音,使其能够以不同角色的声音说话
OpenAI正在更新 ChatGPT 的语音功能,允许用户使用各种 AI 生成的声音和声音风格与聊天机器人进行交互。 ChatGPT 目前有四种预设声音,从五种减少,因为在斯嘉丽约翰逊 (Scarlett Johansson) 提出法律投诉后,它不得不删除...
-
“全家桶”战士归来,谷歌自我革命!
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 5月与6月,旧金山硅谷各大新贵旧王正在激烈角逐,主战场无疑则是AI。 就在昨天凌晨GPT-4o发布的24小时后,Google I/O大会也交卷了。 有意思的是,谷歌掌舵人皮查伊,好...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
人工智能将如何影响药物研发
创造新药是一个艰苦的过程,需要多年的努力和大量的资金才能取得重大进展。在如此巨大的资金和生命攸关的情况下,加速药物发现过程一直是行业专业人士最关心的话题。 就像其他所有涉及大量耗时任务的行业一样,随着人工智能工具的引入,药物发现正在经历一场革命。 虽然...
-
到2028年,多模式人工智能市场将达到50亿美元
人工智能的发展有很多应用,其中越来越受到关注的是多模式人工智能。由于其在数据分析、问题解决和机器学习方面的转变能力,多模式人工智能继续在垂直领域占据主导地位。多模式人工智能市场的增长必然会像滚雪球一样。多式联运人工智能市场规模预计将从2023年的12.6...
-
InternLM2官网体验入口 中文AI聊天机器人模型使用地址
InternLM2是一个面向中文和英文的大型多语言预训练语言模型。它具有语言理解、自然语言生成、多模式推理、代码理解等强大的能力。模型采用Transformer架构并进行海量数据的预训练,在长文本理解、对话、数学运算等多个方向上都达到了业界领先水平。该系列...
-
生物识别技术是访问控制的未来吗?
在人类历史上,很难想象我们进入建筑物时不需要安全入口。从雕刻的木棒到无处不在的金属工具,再到更现代的钥匙卡,甚至更先进的密码,钥匙已经为这一目的服务了千万年。然而,在过去的几年里,随着生物识别技术在建筑环境中作为“虚拟钥匙”的使用变得越来越普遍,高科技...
-
苹果新AI模型研究Ferret-UI:或将提升Siri,读懂屏幕内容
尽管苹果在生成式 AI 热潮开始后并未推出任何 AI 模型,但近期公司正在着手一些 AI 项目。上周,苹果研究人员分享了一篇揭示公司正在研发的新语言模型的论文,内部消息称苹果正在研发两款 AI 驱动的机器人。 如今,又一份研究论文的发布显示苹果才刚刚开始。...
-
智能百科 | 多模态人工智能及其应用
多模态人工智能概述 多模态人工智能是一种人工智能技术,其能够处理和理解多种类型的输入数据,例如文本、图像、语音和视频等。与传统的单一模态人工智能相比,多模态人工智能能够更全面地理解和处理信息,因为其能够同时考虑多种输入源的信息。 多模态人工智能通常利用...
-
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里...
-
研究表明:AI眼镜将成为取代AR眼镜的“杀手级应用”
随着时间的推移和技术的进步,有些人认为,增强现实(AR 作为技术驱动的概念正在逐渐消失。 有人可能要将这种情况归咎于苹果公司,该公司要求Apple Vision Pro开发者将其应用程序称为空间计算应用程序,不再将应用体验描述为增强现实(AR 、虚拟现...
-
ChatGPT新增朗读功能,可以语音播报生成结果
OpenAI 针对 ChatGPT 的新朗读功能Read Aloud现在已经支持在 ChatGPT 的网络版本以及 iOS 和 Android ChatGPT 应用程序上使用。 Read Aloud 可以讲37种语言,但会自动检测正在阅读的文本的语言,并...
-
复旦研发出“眸思”大模型:助力视障者安全出行
快科技3月3日消息,据复旦大学官微发文,复旦大学自然语言处理实验室基于多模态大模型复旦眸思”(MouSi)为视障者量身打造的听见世界”APP上线,将成为视障人士的生活助手与智能管家。 2023年上半年,复旦大学自然语言处理实验室发布了开发MOSS对话式大型...
-
未来十年AI的最大发展趋势
穆斯塔法·苏莱曼在他的优秀著作《即将到来的浪潮》中指出,从内燃机到互联网,每一波由技术驱动的变革都在更短的时间内给社会带来了革命性的变化。因此,我认为我们不需要等待30年或者20年,AI就会应用于生活的方方面面。 在接下来的十年中,很多事情都会发生变化...
-
GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况
众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decoding)已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中,会先预测几个可能的 token,...
-
人工智能需要吸取数字化转型容易失败的教训
今年1月,IBM发表了一份详细的研究报告,解释了为什么数字化转型只提供了-5%到10%的投资回报率,而不是预计的150%。这是一个巨大差距,与我们在20世纪80年代的初始客户端/服务器实现、90年代的操作系统迁移、21世纪初的大数据实现以及过去十年分析的...
-
基于LLaVA开源模型打造视频聊天助手
简介 大型语言模型已经证明自己是一项革命性的技术。目前,人们已经开发出了许多基于大型语言模型功能的应用程序,而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手,它们能够帮助人类用户完成各种任务。 人们已经能够通过指令微...
-
Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理
Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。 该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
OpenAI宣布GPT-3.5 Turbo降价,还治好了GPT-4 Turbo的"懒病"
1月26日消息,美国时间周四, OpenAI宣布了一系列重大更新。这些更新不仅关乎它们备受欢迎的大模型,还包括API访问价格的调整、性能优化以及全新嵌入性模型的发布。这些动作旨在吸引更多开发者的注意,也有望为未来的消费者市场设立新的标杆。 OpenAI...
-
生成式AI:CIO在工作场所中遇到的一个未知因素
确保组织最终用户和日益智能的软件工具这两者之间形成富有成效的合作伙伴关系,这对于生成式AI战略的成功来说是至关重要的,其中需要指导和引导。 在急于制定技术战略以兑现有关生成式AI的承诺时,许多CIO发现自己正在一头扎进可能是他们迄今为止最具挑战性的任务...
-
RAG实战 7 - 使用llama_index实现多模态RAG
LLM之RAG实战(七)| 使用llama_index实现多模态RAG 文章目录 LLM之RAG实战(七)| 使用llama_index实现多模态RAG 一、多模态RAG 二、多模态LLM 三、多模态嵌入 四、多模态索引与检索 五、多...
-
2024 年值得关注的 6 大生成式 AI 趋势
2023年是人工智能领域长期以来最具颠覆性的一年,大量生成式人工智能产品进入主流。继续其变革之旅,生成式人工智能有望在2024年从兴奋的话题转变为现实世界的应用。 随着科技公司不断开发和微调人工智能模型,生成式人工智能领域正在迅速发展,催生了一系列广泛的趋...
-
AIGC神器CLIP:技术详解及应用示例
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafrit...
-
百望云亮相服贸会 重磅发布业财税融Copilot
小望小望,我要一杯拿铁! 好的,已下单成功,请问要开具发票嘛? 在获得确认的指令后, 百小望AI智能助手 按用户要求成功开具了一张电子发票! 这是2023年服贸会国家会议中心·成果发布现场,百望云向与会嘉宾展示的业财税融Copilot...
-
AI 时代,传统搜索引擎将何去何从?
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - 生成式人工智能的搜索引擎 "Perplexity AI " 。 在人工智能生态领域中,Perplexity AI 的出现为我们展示了生成式人工智能技术在...
-
书生·浦语2.0体验入口 AI聊天InternLM2模型在线使用地址
「InternLM2」书生·浦语2.0是一款面向中文和英文的大型多语言预训练语言模型,标志着自然语言处理技术的新时代。它不仅在语言理解和生成方面有着出色的表现,还能够进行多模式推理和代码理解。这种基于Transformer架构的模型通过海量数据的预训练,在...
-
2024年数据技术趋势:基础模型和机密计算
也许塑造当代数据领域的最大力量,就是基础模型的普遍存在。这些模型在生成人工智能的部署中表现得最为明显,其正在影响从外部客户交互到内部员工与数据系统的接口等各个方面。 因此,存储和检索数据、应用和从基础模型中产生价值,以及强调数据驱动流程(如数据安全和数...
-
广义人工智能时代:通往通用人工智能(AGI)之路
人工智能(AI 将于2024年进一步改进,大型语言模型有望进一步发展。 2023年对于人工智能和生成式人工智能来说是激动人心的一年,特别是那些采用大型语言模型(LLM 架构的人工智能,比如来自开放人工智能(GPT 4 、Anthropic(Claud...
-
精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了
字节&复旦大学多模态理解大模型来了: 可以精确定位到视频中特定事件的发生时间。 比如在下面这个视频中: 狗子转身看镜头时的时间戳是多少? 什么时候用爪子推开滑板? 在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书? 对...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
【AIGC】大模型协作系统 HuggingGPT 深度解析
欢迎关注【youcans的 AIGC 学习笔记】原创作品 【AIGC】大模型协作系统 HuggingGPT 深度解析 1. 摘要 2. 前言 3. HugginGPT 大模型协作系统 3.1 任务规划 3.2 模型选择 3.3 任务执行...
-
2024年大数据行业预测(三)
深度学习 深度伪造危险:2024年将出现一系列消费者应警惕的深度伪造危险,尤其是在虚拟客户服务环境中。身份和验证(ID&V 是大多数行业的标准做法,在这些行业中建立了客户身份和交易权。然而,如果客户生成虚假图像,暗示某企业的产品被用来犯罪,深度...
-
研究表明,2024年将是“AI眼镜”市场元年
虽然苹果的Vision Pro头显预计将于2024年第一季度上市,但行业专家预测,AI眼镜将成为2024年科技行业关注的热点。 让用户更加舒适地进行互动的AI眼镜将成为今年最热门的科技产品。事实上,已经有很多围绕AI眼镜市场领导者Meta推出AI 眼镜...
-
对2024年大数据及其相关领域的预测
数据分析 随着全渠道商务的发展,广告分析的格局即将发生巨变。线上和线下消费者互动之间的传统竖井正在瓦解,为真正的全渠道消费者铺平了道路。虽然实体/数字墙在消费者的旅程中正在倒塌,但消费者隐私仍使分析变得复杂,这种全渠道消费者的增长将要求重新调整营销衡量...
-
展望未来:人工智能的2024年
从生成式人工智能(GenAI 工具到拥抱AIOps,以下是人工智能的未来。 当我们站在2024年的边缘时,人工智能(AI 的发展轨迹将重新定义创新的边界。回顾生成式人工智能的历史,很明显,像ChatGPT和Bard这样的模型主要专注于文本处理。虽然具有...
-
还不知道?近20+自动驾驶数据集、榜单和Benchmark汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.Nuscenes 数据集链接:nuScenes nuscenes数据集下有多个任务,涉及Detection(2D/3D)、Tracking、prediction、激光雷达分割、全景任务、规划控制等...
-
LLM之RAG实战(七)| 使用llama_index实现多模态RAG
一、多模态RAG OpenAI开发日上最令人兴奋的发布之一是GPT-4V API(https://platform.openai.com/docs/guides/vision)的发布。GPT-4V是一个多模态模型,可以接收文本/图像,并可以...
-
人工智能之战:Gemini的人工智能驱动的Google Bard vs ChatGPT vs Grok vs Copilot-他们能为你做什么
随着世界上最大的公司推出并增强他们的对话聊天机器人,人工智能聊天机器人竞赛正在升温。谷歌、Meta、微软、Snap和xAI都创建了自己的人工智能聊天机器人。虽然ChatGPT已经被全球数百万人广泛使用,但谷歌巴德最近也收到了大量新功能,使其能够在人工智能聊...
-
Relevance AI:让每个团队都拥有自己的AI同事
澳大利亚初创公司Relevance AI推出了一款低代码平台,旨在帮助企业建立自定义AI团队,提高生产力。该平台已成功筹集1000万美元的A轮融资,由King River Capital领投,全球投资者Peak XV、Galileo Venture和Ins...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
谷歌承认 Gemini AI 模型演示视频不是真实的:使用静态图像帧,并撰写文本提示供 Gemini 回应
Google 刚刚宣布了其迄今为止最强大的 AI 模型套件 Gemini,但该公司已被指控在其宣传视频中对其性能进行了误导性表述。 根据彭博社专栏作家帕尔米·奥尔森(Parmy Olson)的观点文章,Google 在一段视频中误导了公众对 Gemini...
-
关于谷歌最新AI模型Gemini 你应该知道的一切
什么是Google Gemini? Gemini是谷歌推出的一种最新的、功能强大的AI模型,它不仅可以理解文本,还可以理解图像、视频和音频。作为一种多模式模型,Gemini被描述为能够完成数学、物理和其他领域的复杂任务,以及理解和生成各种编程语言的高...
-
首超人类专家!OpenAI“混乱”之际,谷歌多模态大模型Gemini“大杀四方”
在OpenAI“混乱”之际,Google准备“大杀四方”。 就在昨日晚间,Google 和 Alphabet CEO Sundar宣布Gemini上线,并称之为“我们规模最大、能力最强的 AI 模型”,语惊四座。 Gemini的关键词是“多模态”,Go...
-
谷歌CEO皮查伊深度解析谷歌史上最强大模型Gemini及即将到来的人工智能时代
12月7日消息,美国当地时间周三,谷歌发布了其新一代人工智能模型Gemini。Gemini反映了谷歌内部多年来在首席执行官桑达尔·皮查伊(Sundar Pichai)的监督和推动下所做的努力。 此前负责Chrome和安卓业务的皮查伊是出了名的产品迷。2...
-
OpenAI的首席运营官谈论ChatGPT的发布、开发人员日和奥特曼的想法
OpenAI的首席运营官Brad Lightcap在接受记者采访时表示:“如果你知道奥特曼,他喜欢在一个话题上快速切换,所以我们在一个话题上花了这么多时间意味着这件事很重要。这是一场辩论——人们并不100%确定这是正确的事情,或者是值得我们花时间...
-
外媒:谷歌已将下一代AI模型Gemini发布时间推迟至明年1月
12月4日消息,据外媒报道,谷歌已将其下一代人工智能(AI)模型Gemini的发布时间推迟到了明年1月。 据外媒报道,在谷歌“发现该AI模型不能可靠地处理一些非英语查询”后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)做出了推迟发布Gemini的...