多模态第14页 - AIGC资讯

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种...... 这不，谷歌团队就做出来了一个强大的「读屏」AI。研究人员...

生成式AI 2024-03-05 人工智能

895阅读

全球最强大模型易主 GPT-4被超越：Claude 3系列模型发布

Anthropic 发布的 Claude3系列模型超越了 GPT-4，在多模态和语言能力上表现出色。Claude3系列模型包括 Opus、Sonnet 和 Haiku，能力依次从低到高，可以根据需求选择合适的模型。 Opus 是最先进的模型，在多项评估标准...

生成式AI 2024-03-05 人工智能

792阅读

全面超越GPT-4，Claude 3终于来了，有大学生智商，支持百万token

大模型的纯文本方向，已经卷到头了? 刚刚，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude3。该系列包含三个模型，按能力由弱到强排列分别是 Claude3Haiku、Claude3Sonnet 和 Cla...

大数据 2024-03-05 人工智能

1132阅读

复旦大学MBA：AIGC时代，科技与商业迸发更绚烂的火花

ChatGPT问世以来，AI技术及应用进入一个全速推进的通道，快速迈入通用大模型时代。从AGI(人工通用智能）到AIGC(AI多模态内容生成），AI正在飞速重塑各个行业、人类生活乃至人类的未来。在商业领域更是给营销场景和营销工具等细分板块带来了无限的想象与...

AIGC 2024-03-05 人工智能

875阅读

十年内出现AGI？下一代Gemini能感知环境？DeepMind CEO哈萨比斯畅谈AI

「如果我们在未来十年内拥有类似 AGI 的系统，我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。在长达一个小时的节目中，Hassa...

人工智能 2024-03-05 人工智能

920阅读

Llama3将于7月发布！当下处于微调中！

整理 | 言征出品 | 51CTO技术栈（微信号：blog51cto）据一位熟悉Llama 3人士透露，Meta计划于7月发布Llama 3。据悉，Llama 3的最大版本可能会超过1400亿个参数，超过其前身Llama 2。 Meta希望Llama...

大数据 2024-03-05 人工智能

895阅读

马斯克用微软论文当论据起诉OpenAI：你们自己早承认AGI了

大概也只有马斯克敢了。用微软论文当证据，起诉OpenAI。一年前微软研究院发表的论文《Sparks of AGI：Early experiments with GPT-4》，现在成为了马斯克起诉书中的关键角色。这篇论文通过分析早期GPT-4的能力，...

大数据 2024-03-05 人工智能

793阅读

每日一看大模型新闻（2023.12.28）发现GPT-4 API存在重大漏洞；告别冷启动，LoRA为大模型提速高达300%；发布中文大模型基准测评年度报告；腾讯云AI绘画首批通过AIGC绘画平台评估

1.产品发布 1.1微软：明年春季推出首款AI PC 发布日期：2023.12.28 Microsoft’s next Surface laptops will reportedly be its first true ‘AI PCs’ - The...

大数据 2024-03-04 人工智能

881阅读

53页PDF爆料OpenAI“AGI时间表”，爆料者：马斯克诉讼搅了局

OpenAI神秘的Q*计划，又有新鲜爆料。今天凌晨，一篇54页google文档开始在网络上热传，透露OpenAI“计划在2027年前实现完全AGI”。爆料者称，自己选择发布这篇文档是不想让马斯克继续“造成伤害”，他认为后者发起的诉讼造成了AGI的推迟...

人工智能 2024-03-04 人工智能

833阅读

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

本年度科技圈这场里程碑级大战，还在持续白热化！刚刚，Sam Altman罕见地发声了，连发两条推文。在马斯克闹出起诉风波后，Altman一直保持缄默。因此，这两条推文应该是全公司经过了深思熟虑的结果—— 飓风已经愈来愈猛烈，但风暴中心却仍然保持着平静...

人工智能 2024-03-04 人工智能

833阅读

华为云盘古大模型通过金融大模型标准符合性验证

据华为官方消息，2023年12月，在中国信通院组织的可信AI大模型标准符合性验证中，华为云盘古大模型成功完成了金融大模型的验证，并获得了优秀级（4+级）评分。这一成绩不仅突显了华为云盘古大模型在金融领域的卓越性能，还使其成为首批通过金融大模型及行业大模型标...

AIGC 2024-03-04 人工智能

862阅读

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

图神经网络（GNNs）擅长利用图的结构信息进行推理，但它们通常需要特定于领域的调优才能达到峰值性能，这阻碍了它们在不同任务之间的泛化性。相比之下，基于大型语言模型（LLM）的图推理具有更强的跨任务和泛化能力，但它们在特定任务上的性能往往逊色于专用的图...

大数据 2024-03-04 人工智能

873阅读

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...

AIGC 2024-03-04 人工智能

789阅读

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

重磅：北大团队联合兔展发起了一项Sora复现计划——Open Sora。框架、实现细节已出：初始团队一共13人：带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。为什么发起这项计划？因为资源有限，团队希望集结...

人工智能 2024-03-04 人工智能

820阅读

复旦研发出“眸思”大模型：助力视障者安全出行

快科技3月3日消息，据复旦大学官微发文，复旦大学自然语言处理实验室基于多模态大模型复旦眸思”（MouSi）为视障者量身打造的听见世界”APP上线，将成为视障人士的生活助手与智能管家。 2023年上半年，复旦大学自然语言处理实验室发布了开发MOSS对话式大型...

AIGC 2024-03-03 人工智能

851阅读

每日AI：Stable Diffusion3发布；剪映海外版CapCut推文生视频；微软win10、win11照片应用增加AI橡皮擦功能；OpenAI更新GPT商店

欢迎来到【每日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。 ???AI应用 Stable Diffusion3发布文字渲染能力超强，图像生成质量超越Midjo...

AIGC 2024-03-03 人工智能

1122阅读

Meta AI 发布 MMCSG数据集：使用 Project Aria 捕获的 25 小时以上的双向对话

Meta AI 最近发布了 MMCSG 数据集，该数据集包含使用 Project Aria 录制的25小时以上的双向对话。CHiME-8MMCSG 任务的重点是转录使用智能眼镜录制的对话，这些眼镜配备了多个传感器，包括麦克风、摄像头和惯性测量单元（IMUs...

大数据 2024-03-02 人工智能

962阅读

Image to Music官网入口 AI图像转音乐生成器在线使用地址

Image to Music是一款利用人工智能将图像转换为音乐作品的创新工具。通过分析图像的颜色、形状和纹理等视觉元素，生成与图像相匹配的音乐。这款工具具有简单快速的操作界面和无需登录即可体验的特点，适用于音乐人、媒体创作者等不同领域的用户。点击前往I...

人工智能 2024-03-02 人工智能

847阅读

Llama 3官网体验入口媲美OpenAI GPT-4 AI模型免费使用下载地址

Llama 3是Meta开发的下一代开源语言模型，旨在与OpenAI的GPT- 4 相媲美。这款产品计划于 7 月发布，将更加响应用户，并对复杂话题提供上下文而不是简单阻止问题。Llama3 的参数数量可能超过 1400 亿，是Llama2 的两倍。目前尚...

AIGC 2024-03-02 人工智能

924阅读

微软37页论文逆向工程Sora，得到了哪些结论？

追赶 Sora，成为了很多科技公司当下阶段的新目标。研究者们好奇的是：Sora 是如何被 OpenAI 发掘出来的？未来又有哪些演进和应用方向？ Sora 的技术报告披露了一些技术细节，但远远不足以窥其全貌。在最近的一篇文章中，微软研究院和理海大学的研...

AIGC 2024-03-02 人工智能

810阅读

OpenAI把GPT塞进机器人大脑，具身AGI奇点迫近！英伟达微软参投26亿美金独角兽Figure

人形机器人明星公司Figure迎来了高光时刻！就在刚刚，OpenAI与Figure官宣合作，专为人形机器人打造下一代AI多模态模型。图片这项合作最大的目的是，增强机器人处理语言和推理的能力。上个月，机器人Figure 01仅使用神经网络煮咖啡的视...

生成式AI 2024-03-01 人工智能

880阅读

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3！5亿融资Karpathy都投了

文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道，已经成了AI创业公司掘第一桶金的最佳起点。但是在谷歌，微软等大厂都已经花了大量资源去布局的领域，留给初创公司的机会到底在哪里？最近一家名为Ideogram的文生图工具，凭借优秀的文字渲...

人工智能 2024-03-01 人工智能

899阅读

AIGC下一步：如何用AI再度重构或优化媒体处理？

让媒资中“沉默的大多数”再次焕发光彩。邹娟｜演讲者编者按 AIGC时代下，媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击，如何优化或重构媒体内容生产技术架构？在多样的应用场景中媒体内容生产技术又有着怎样的实践效...

人工智能 2024-03-01 人工智能

855阅读

UniVG体验入口百度AI视频生成模型如何使用教程方法指南

UniVG是一款由百度推出的视频生成模型，其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式，以更好地平衡两者之间的关系。点击前往UniVG体验入口 UniVG项目针对多模态视频生成场景，如影视特效制作和视频内容创作，提供了创新的多条件交叉...

人工智能 2024-03-01 人工智能

1017阅读

OpenAI宣布与Figure合作将GPT整合到机器人

OpenAI宣布与独角兽Figure合作，旨在打造下一代AI大模型，提升机器人的语言处理和推理能力。Figure01通过学习实现煮咖啡等任务，借助OpenAI的多模态模型，其能力有望得到进一步提升。合作旨在增强机器人的智能，尤其是语言处理和推理方面。Fi...

AIGC 2024-03-01 人工智能

741阅读

开源 AI 生态平台 FlowGPT 获千万美元投资

00后华人创立了全球开源 AI 生态平台 FlowGPT，旨在成为 GenAI 的全球开源生态平台，为用户提供交流 AI 实践的社区和实际开发 AI 应用所需的工具。用户和创作者可以在平台上交互，并创建、分享各种 GenAI 应用程序。 FlowGPT最近...

大数据 2024-03-01 人工智能

847阅读

AI文生图工具Ideogram获8000万美元融资文字渲染吊打Midjourney

AI生成式图像创业公司Ideogram最近又成功融资8000万美元，吸引了包括Jeff Dean和Karpathy在内的硅谷大佬及知名机构的投资。 Ideogram凭借其卓越的文字渲染能力取得了重大突破。用户只需在提示中输入文字，即可自然地将文字融入生成的...

生成式AI 2024-03-01 人工智能

900阅读

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemi...

AIGC 2024-03-01 人工智能

921阅读

读书笔记：从ChatGPT到AIGC：智能创作与应用赋能

文章目录引爆内容生产力应用场景：ChatGPT的多场景应用传媒电商影视教育金融医疗发展梳理：从PGC到UGC再到AIGC PGC：企业和平台是内容创作的主体 UGC：用户成为内容创作主体 AIGC 内容生成：AIGC...

AIGC 2024-03-01 人工智能

861阅读

10｜AI连接外部资料库，让Llama Index带你阅读一本书

有不少人在使用 OpenAI 提供的 GPT 系列模型的时候，都反馈效果并不好。这些反馈中有一大类问题，是回答不了一些简单的问题。比如当我们用中文问 AI 一些事实性的问题，AI 很容易胡编乱造。而当你问它最近发生的新闻事件的时候，它就干脆告诉你它不知道...

大数据 2024-03-01 人工智能

959阅读

SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴

SORA技术报告解读文章目录概要 SORA整体概要关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么？ 1.2 如何处理不同分辨率的训练和推理问题？ 2 Scalin...

人工智能 2024-03-01 人工智能

1257阅读

Think2Drive：首个用于自动驾驶的基于模型的RL方法（上海交大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。在CARLA v2中以专家级的熟练程度运行。题目：Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World...

人工智能 2024-02-29 人工智能

933阅读

LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

过去的图像生成模型常被人们诟病人物主要以「白人」为主，而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差，让用户们瞠目结舌。谷歌表示，该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上...

AIGC 2024-02-29 人工智能

759阅读

工信部：发布国内首个个人信息保护 AI 大模型“智御”助手

2 月 29 日消息，工业和信息化部日前发布关于 2023 年第四季度电信服务质量的通告。通告称，深化 App 用户权益保护。制定《移动互联网应用程序（App）合规开发管理测评规范》《小程序个人信息保护规范》等系列标准，指引企业依法合规经营。实施“...

大数据 2024-02-29 人工智能

812阅读

周鸿祎免费课演示360AI搜索用户体验火爆现场增加服务器

2月29日，360创始人周鸿祎首堂AI免费课开讲，吸引千万网友围观。演讲现场周鸿祎演示了两款AI驱动的新产品。在演示测试版360AI搜索时，由于用户体验火爆，瞬时流量暴增44倍，为满足用户和全网用户需求临时增加了服务器。产品经理透露，PV请求高达每秒近1...

人工智能 2024-02-29 人工智能

849阅读

探索AI写作的未来：从困惑度与爆发度的视角展望

大家好，小发猫降重今天来聊聊探索AI写作的未来：从困惑度与爆发度的视角展望，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：探索AI写作的未来：从困惑度与爆发度的视角展望在人工智能飞速发展的...

大数据 2024-02-29 人工智能

928阅读

Sora阴影之下，焦虑的中国AI

“跟不上的可能就要被淘汰了。”看到Sora演示视频后，从业10多年的动画制作师黄斌得出了这样的判断。随着影视业失业潮呼声渐起，Sora的诞生也给中国AI行业带来了巨大的焦虑。 360集团创始人周鸿祎认为，Sora模型展现出了超越当前中国同类产品的性能...

AIGC 2024-02-28 人工智能

793阅读

CVPR'24发榜，华人博士生连中三篇凡尔赛！官方下场发梗图玩坏网友

千呼万唤，就在今天，CVPR 2024的接收结果终于出来了。官方已邮件发送通知，已经有不少人晒出好消息：当然，目前刚刚公布的是初步结果，具体中标的是oral还是highlight还要再等等。以及详细统计数据也还没出。但无论是中了还是“缘分未...

生成式AI 2024-02-28 人工智能

832阅读

ChatMusician官网体验入口 AI音乐生成语言模型在线使用地址

ChatMusician是一个开源的大型语言模型（LLM），它通过持续的预训练和微调，集成了音乐能力。该模型基于文本兼容的音乐表示法（ABC记谱法），将音乐视为第二语言。ChatMusician能够在不依赖外部多模态神经结构或分词器的情况下，理解和生成音乐...

生成式AI 2024-02-27 人工智能

851阅读

VAD v2端到端SOTA | 远超DriveMLM等方法（地平线）

从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的，但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中，为了应对不确定性问题，作者提出了VADv2，一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列，将传感器数据转换为...

大数据 2024-02-27 人工智能

1309阅读

免费的ChatGPT网站（ 7个）

ChatGPT 是由 OpenAI 公司研发的一款大型语言模型，它可以实现智能聊天、文本生成、语言翻译等多种功能。以下是 ChatGPT 的详细介绍：智能聊天：ChatGPT 可以与用户进行自然语言对话，回答用户的问题，提供相关的信息和建议。它可以...

大数据 2024-02-27 人工智能

1672阅读

谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1...

生成式AI 2024-02-27 人工智能

857阅读

国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

2023 年年底，很多人都预测，未来一年将是视频生成快速发展的一年。但出人意料的是，农历春节刚过，OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心：国内外 AI 技术的差距是不是又拉大了？根...

生成式AI 2024-02-27 人工智能

810阅读

重要的医学AI应用：使用多模态 CNN-DDI预测药物间相互作用事件

生病时，医生往往给我们开了多种药物，这些药物在同时服下时是否因为药物间相互作用产生对身体不良的效果，这引起我们的怀疑和担心。其实医生所开的药方的药品已经经过了药物间相互作用的实验和临床测试，我们不应对此产生疑虑。药物间相互作用（DDI）是指当一个患者同...

人工智能 2024-02-27 人工智能

891阅读

高通宣布推出 AI Hub 开发人员在高通设备上运行AI模型

在巴塞罗那世界移动大会上，高通公司推出了多项新技术。该公司发布了Qualcomm AI Hub，这是一款新工具，允许开发人员在高通设备上运行AI模型。 Qualcomm AI Hub 为 Snapdragon 和 Qualcomm 平台提供75多个优化的...

AIGC 2024-02-26 人工智能

823阅读

AI、WiFi 7、5G齐发力，MWC 2024高通新技术看点汇总

2024年2月26日到29日，世界移动通信大会（MWC 2024）在西班牙巴塞罗那正式开幕。MWC是全球最具影响力的科技盛会，每一年都会吸引到世界各地的大批科技企业参与其中，共同推动移动通信技术的发展和创新。高通作为全球领先的移动通信技术公司之一，可以算...

人工智能 2024-02-26 人工智能

846阅读

高通发布AI Hub 为开发者提供了75+优化的AI模型

高通在巴塞罗那举办的MWC上发布了AI Hub，该平台为开发者提供了一系列优化的AI模型，可在Snapdragon和高通平台上运行。这些模型的推出不仅加快了开发速度，还实现了在设备上运行AI的优势。通过在云端主机设备上运行模型，开发者只需几行代码即可实现。...

AIGC 2024-02-26 人工智能

777阅读

中国首部文生视频AI动画片发布将在央视综合频道开播

2月26日起，每晚18:40，中央广播电视总台央视综合频道（CCTV-1）将播出国内首部文生视频AI动画片——《千秋诗颂》。这部动画片由总台精心制作，利用先进的AI技术，将中华经典诗词如《春夜喜雨》《咏鹅》等转化为独具中国审美特色的美术视觉。《千秋诗颂...

人工智能 2024-02-26 人工智能

827阅读

香港大模型初创公司 Weitu AI 完成天使轮融资估值一亿美金

AI 产品研发的香港初创公司 Weitu AI 今日宣布完成天使轮融资，估值一亿美金。本轮融资由拥有全球数亿月活的互联网科技公司和著名天使投资人联合领投。 Weitu AI 团队由来自北美名校毕业并拥有海外大厂工作经验的顶尖人才组成，其中包括多位长期活跃在...

AIGC 2024-02-26 人工智能

831阅读

这款对标ChatGPT的国产MoE大模型重磅更新！集AI对话、AI绘画、AI阅读、AI写作于一体！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效...

大数据 2024-02-26 人工智能

1120阅读