多模态第26页 - AIGC资讯

【GPT4】微软 GPT-4 测试报告（3）GPT4 的编程能力

欢迎关注【youcans的GPT学习笔记】原创作品，火热更新中微软 GPT-4 测试报告（1）总体介绍微软 GPT-4 测试报告（2）多模态与跨学科能力微软 GPT-4 测试报告（3）GPT4 的编程能力【GPT4】微软 GPT-4 测试...

生成式AI 2023-11-24 人工智能

1044阅读

AI视野：飞书智能伙伴发布；OpenAI曝光Q*项目；微软12月1日向中国开放Copilot；Grok下周将向x的Premium+订阅用户推出

???AI新鲜事微软12月1日向中国开放Copilot 微软将在今年12月1日面向中国大陆的企业和教育机构推出，基于网页的生成式AI聊天助手 ——Copilot，那些无法使用ChatGPT的小伙伴们可以体验Copilot。 xAI的聊天机器人Grok...

生成式AI 2023-11-23 人工智能

936阅读

LLaMA 2端到端推理打通！来自中国团队

Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器，从而结合了 MLIR 和 PyTorc...

人工智能 2023-11-23 人工智能

979阅读

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

当今深度学习以及大模型的飞速发展，带来了对创新技术的不断追求。在这一进程中，代码数据增强技术显现出其不可忽视的价值。最近，由蒙纳士大学、新加坡管理大学、华为诺亚方舟实验室、北京航空航天大学以及澳大利亚国立大学联合进行的对近 5 年的 89 篇相关研究调...

大数据 2023-11-23 人工智能

854阅读

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

901阅读

新的生图模型DeepFloyd IF来了，可以拳打Stable Diffusion，脚踢Dall-E？

简介： Stability AI与它的多模式AI研究实验室DeepFloyd共同宣布研究版本DeepFloyd IF的发布,这是一款强大的文text-to-image级联像素扩散模型（cascaded pixel diffusion model），复现了...

大数据 2023-11-22 人工智能

1297阅读

通用人工智能（AGI）离我们还有多远

人工智能（AI）是当今科技领域最热门和最具影响力的话题之一，它已经渗透到了我们生活和工作的方方面面，从电影推荐和语音助手，到自动驾驶和医疗诊断。AI的发展也引发了人们对未来的想象和期待，尤其是对通用人工智能（Artificial General Inte...

大数据 2023-11-22 人工智能

949阅读

AI视野：ChatGPT语音旁白功能免费开放；文心一言率先实现收费；Claude2.1长下文长度扩展至200K；拼多多成立大模型团队

???AI新鲜事 ChatGPT语音旁白功能现已向所有免费用户开放 OpenAI宣布将ChatGPT with voice语音功能免费对所有用户开放，用户只需下载应用程序，点击耳机图标即可进行语音对话，此功能于今年9月推出，最初仅面向Plus和Enterp...

人工智能 2023-11-22 人工智能

879阅读

快手：已开始研发超千亿规模大模型以及多模态大模型

在昨日的电话会议上，快手首席执行官程一笑表示，今年初，快手启动了新的AI战略，并设定了战略目标，希望确保自己在可能到来的新技术突破中保持国内领先地位。具体来说，快手研发的“快意”130亿和660亿大模型已达到了行业内同等规模的领先水平。他们已经开始研发超...

人工智能 2023-11-22 人工智能

806阅读

xAI Grok内测资格怎么申请 xAI Grok内测申请入口

Grok是一款由马斯克旗下的人工智能公司xAI开发的聊天机器人，它可以与用户进行智能、幽默和多任务的对话，还可以根据用户的兴趣和需求提供个性化的推荐和建议。Grok的特点是它可以实时访问X平台上的海量数据，从中学习和理解最新的热门话题和事件，还可以回答一些...

AIGC 2023-11-22 人工智能

790阅读

文心一言发布，你怎么看？chatGPT

百度全新一代知识增强大语言模型“文心一言”于2021年3月16日正式发布，作为一款自然语言处理技术，它引起了广泛的关注和讨论。首先，文心一言是一款具有重大意义的自然语言处理技术。在人工智能领域，自然语言处理技术一直是一个难以攻克的难题。而文心一言作为一...

人工智能 2023-11-22 人工智能

742阅读

九章云极DataCanvas公司与生态伙伴强强联手，构建人工智能强生态！

11月21日，在「筑基赋能智向未来」九章云极DataCanvas大模型系列成果发布会上，九章云极DataCanvas公司与人工智能产业链上下游合作伙伴广东民营投资股份有限公司（以下简称“粤民投”）、西藏赛富合银投资有限公司（以下简称“西藏赛富”）、广...

生成式AI 2023-11-21 人工智能

982阅读

研究表明：GPT-4在图形推理任务上表现不佳，准确率仅33%

最近的研究表明，GPT-4在图形推理任务上表现不佳，仅有33%的准确率，引发了对大型语言模型图形处理能力的关注。通过使用ConceptARC数据集，研究者对451名人类受试者进行了图形推理任务测试，结果显示人类在这方面表现卓越，平均准确率达到91%。...

人工智能 2023-11-21 人工智能

847阅读

GPT-4V医学执照考试成绩超过大部分医学生，AI加入临床还有多远？

人工智能（AI）在医学影像诊断方面的应用已经有了长足的进步。然而，在未经严格测试的情况下，医生往往难以采信人工智能的诊断结果。对于他们来说，理解人工智能根据医学影像给出的判别，需要增加额外的认知成本。为了增强医生对辅助医疗的人工智能之间的信任，让 AI...

生成式AI 2023-11-21 人工智能

858阅读

Grounding dino + segment anything + stable diffusion 实现图片编辑

目录总体介绍总体流程模块介绍目标检测： grounding dino 目标分割：Segment Anything Model (SAM 整体思路模型结构：数据引擎图片绘制集成样例其他问题附录总体介绍...

生成式AI 2023-11-21 人工智能

2038阅读

【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

个人主页：【?个人主页】文章目录前言什么是DALL-E 2 ？介绍的怎么厉害，它又能干啥呢？基本功能新功能编辑变体功能总结前言 DALL-E 2 是一种基于语言的人工智能图像生...

大数据 2023-11-21 人工智能

1014阅读

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。 △虚线表示16项任务的平均表现这项实验结果发表后，迅速在...

生成式AI 2023-11-20 人工智能

775阅读

谷歌为什么输给了OpenAI？科技公司创始人兼谷歌前员工带你一探究竟

在当今的人工智能浪潮中，OpenAI这样的新兴公司引领了革命。 ——而GPT的一些关键部分：Transformer、强化学习（AlphaGo ）和多模态（Flamingo）却都是由Google发明的。那么为什么，作为科技领域巨无霸的Google，却...

大数据 2023-11-20 人工智能

944阅读

自动驾驶中基于深度学习的预测和规划融合方法综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。 Rethinking Integration of Prediction and Planning in Deep Learning-Based Automated Driving Systems: A...

生成式AI 2023-11-20 人工智能

910阅读

「无需配对数据」就能学习！浙大等提出连接多模态对比表征C-MCR

多模态对比表示（multi-modal contrastive representation, MCR）的目标是将不同模态的输入编码到一个语义对齐的共享空间中。随着视觉-语言领域中CLIP模型的巨大成功，更多模态上的对比表征开始涌现出来，并在诸多下游任...

人工智能 2023-11-20 人工智能

884阅读

探寻人工智能前沿迎接AIGC时代——CSIG企业行（附一些好玩的创新点）

上周我有幸参加了由中国图像图形学会和合合信息共同举办的CSIG企业行活动。这次活动邀请了多位来自图像描述与视觉问答、图文公式识别、自然语言处理、生成式视觉等领域的学者，他们分享了各自的研究成果和经验，并与现场观众进行了深入的交流和探讨。干货多多...

大数据 2023-11-18 人工智能

868阅读

【CVHub】《万字长文带你解读AIGC》系列之入门篇

本文来源“CVHub”公众号，侵权删，干货满满。作者丨派派星来源丨CVHub 原文链接：《万字长文带你解读AIGC》系列之入门篇 0. 导读图0 随着ChatGPT的病毒式传播，生成式人工智能(AIGC, a.k.a AI-gener...

AIGC 2023-11-18 人工智能

974阅读

AI视野：ChatGPT测试新功能“从聊天中学习”；Kimi Chat全面开放服务；文心生物计算大模型宣布升级；Meta发布AI视频编辑工具Emu Video；贾跃亭也开始搞AI了

???AI新鲜事 ChatGPT测试新功能“从聊天中学习” ChatGPT测试新功能，能学习用户历史聊天、理解偏好，还支持重置记忆和阅后即焚功能，使其更像个性化的朋友。【AiBase提要:】 ? 学习历史聊天: ChatGPT将能够在一个新的“My C...

AIGC 2023-11-17 人工智能

1198阅读

微软战略大转变：拥抱小模型！

撰稿 | 言征出品 | 51CTO技术栈（微信号：blog51cto）微软的生成式AI战略似乎出现了180度大转变：相比大模型，小模型才是微软的真爱。在Ignite 2023上，微软董事长兼首席执行官Nadella在主题演讲中表示：“微软喜欢小模型...

AIGC 2023-11-17 人工智能

860阅读

让Ai帮你工作（4）--锁定图片生成角色

背景： Gpt4多模态模型上来后，MJ也是紧接着发布了V5，微软发布自己Ai作图工具，Abode、unity这些传统老牌作图软件工具也是紧跟着发布自己的AI作图插件工具。这已经标志着Ai作图已经成为计算成像的另一条生成链。各大厂都已经发布了...

AIGC 2023-11-17 人工智能

929阅读

谷歌发布 Mirasol：30 亿参数，将多模态理解扩展到长视频

11 月 16 日消息，谷歌公司近日发布新闻稿，介绍了小型人工智能模型 Mirasol，可以回答有关视频的问题并创造新的记录。 AI 模型目前很难处理不同的数据流，如果要让 AI 理解视频，需要整合视频、音频和文本等不同模态的信息，这大大增加了难度。...

生成式AI 2023-11-16 人工智能

794阅读

李彦宏：AI原生时代的“冷”思考和“热”驱动

11月15日，由科学技术部、深圳市人民政府联合主办的“2023西丽湖论坛”在深圳大学城国际会议中心开幕。论坛聚焦战略性新兴产业和未来产业前沿领域，设置了人工智能等主题平行论坛，李彦宏出席论坛做了题为《AI原生时代：“冷”思考和“热”驱动》的演讲，引发热...

大数据 2023-11-16 人工智能

844阅读

Altman首次自曝GPT-5加急训练中！暗示比GPT-4更复杂，无法预测真实能力

「OpenAI正在开发下一代大模型GPT-5。我们的意义所在，就是打造超凡脱俗的神奇AI智能」。这是Sam Altman最近接受FT的一次采访中，首次对外透露了更多OpenAI的计划。这篇文章信息量巨大！他不仅谈到了OpenAI的融资想法，英伟达...

大数据 2023-11-16 人工智能

808阅读

全球首个！电视拥抱AI大模型颠覆式革新

快科技11月15日消息，长虹电视官方宣布，将于11月20日发布全球首个基于大模型的智慧家电AI平台。早在2016年，长虹就发布了全球首台人工智能电视，第一家将”人工智能深度学习神经网络算法”应用于电视，让家电行业正式迈入人工智能新时代。如今，长虹再一次...

AIGC 2023-11-16 人工智能

773阅读

百度文心一言4.0抢先体验教程！

? 展望：关注我, AI学习之旅上，我与您一同成长！一、引言想快速体验文心一言4.0，但又觉得技术难度太高？别担心，我来手把手教你！ ? 10月17日，文心一言4.0震撼亮相，带着一系列闪亮的AI原生应用与服务。这包括了百度新搜索、百度...

AIGC 2023-11-16 人工智能

1497阅读

【文心一言】文心一言最近这么火，它到底是什么

前言文心一言（英文名：ERNIE Bot）是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型，基于飞桨深度学习平台和文心知识增强大...

大数据 2023-11-15 人工智能

1612阅读

文心一言官网地址入口文心一言4.0网页版使用链接

文心一言是百度打造出来的人工智能大语言模型，具备跨模态、跨语言的深度语义理解与生成能力，文心一言有五大能力，文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，其在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。文心一言企业服务...

生成式AI 2023-11-15 人工智能

870阅读

实时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万

文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中，我们发现它们通常运行缓慢，导致我们要等一段时间才能拿到生成结果。但最近，一种名叫「LCM」的模型改变了这种情况，它甚至能做到实时的连续生图。图源：https://twitter.com/...

AIGC 2023-11-15 人工智能

908阅读

微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

近期，微软Azure AI发布了MM-Vid，这是一项结合GPT-4V与专用工具的创新，致力于解读长视频并为视障人士提供更好的体验。目前，人工智能在长视频理解领域所面临的复杂挑战，包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作...

人工智能 2023-11-15 人工智能

864阅读

比ChatGPT早发两周，被喷下线的Galactica成了LeCun最大的意难平

今天我们提到大型语言模型（LLM），第一个想到的就是 OpenAI 的 ChatGPT。一年来，ChatGPT 因其强大的性能，广泛的应用前景而爆火出圈。但谈到大型语言模型，ChatGPT 并不是第一个。一年前，也就是 OpenAI 发布 ChatGP...

生成式AI 2023-11-15 人工智能

824阅读

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

世界各地的人们每天都会创造大量视频，包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介，可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法，就能帮助人们设计出具备强大能力的认知机器 —— 它不...

生成式AI 2023-11-15 人工智能

1065阅读

文心一言怎么清除记录文心一言4.0版本收费标准

文心一言具备广泛的应用能力，涵盖了文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成等。这些能力使其在搜索问答、内容创作生成、智能办公等领域展现出广阔的应用前景。例如，在企业服务领域，文心一言可以帮助企业进行内容创作、客服问答优化、数据分析等，极...

AIGC 2023-11-15 人工智能

1324阅读

深势科技推出多模态科学文献大模型Uni-Finder

深势科技推出了 Uni-Finder，一个革命性的智能文献数据库平台，通过多模态检索功能和自然语言交互技术，提高科学文献的阅读和分析效率。 Uni-Finder 基于科学多模态大模 Uni-SMT，综合考虑文献中的多模态元素，如图表、数学方程、分子结构等...

生成式AI 2023-11-15 人工智能

913阅读

阿里发布自研夸克大模型：整体能力已超GPT-3.5

快科技11月14日消息，阿里巴巴智能信息事业群今日正式发布全栈自研、千亿级参数夸克大模型。据介绍，在CMMLU权威大模型性能评测中，夸克大模型成绩位列榜首，根据评测显示，夸克大模型整体能力已经超过GPT-3.5，在写作、考试等部分场景中优于GPT-4。...

生成式AI 2023-11-14 人工智能

810阅读

Meta 工程师：明年全球 AI 推理用电量仅需新增两座核电站即可满足

11 月 14 日消息，Meta 生成式人工智能工程总监谢尔盖・埃杜诺夫近日在硅谷数字工人论坛上分享了他对人工智能推理需求的预测。他认为，明年全球新增的人工智能应用推理需求，如果使用合理规模的语言模型，仅需两座核电站的发电量就可以满足。人工智能推理是...

AIGC 2023-11-14 人工智能

873阅读

令人惊艳的ChatGPT项目，AIGC也太猛了

自从 ChatGPT、Stable Diffusion 发布以来，各种相关开源项目百花齐放，着实让人应接不暇。今天，我将着重挑选几个优质的开源项目，对我们的日常工作、学习生活，都会有很大的帮助。今天整理分享给大家，希望对你有所帮助。...

AIGC 2023-11-14 人工智能

785阅读

Meta工程师称全球AI推理用电仅需新增两座核电站即可满足

近日，Meta公司的生成式人工智能工程总监谢尔盖·埃杜诺夫在硅谷数字工人论坛上透露，为满足明年全球不断增长的人工智能应用推理需求，仅需新增两座核电站的发电量即可。埃杜诺夫表示，他仅通过简单的数学计算得出这个结果。他专门分析了人工智能“推理”阶段的用电量。...

人工智能 2023-11-14 人工智能

893阅读

OpenAI新功能揭秘：多模态时代的到来

作者 | 崔皓审校 | 重楼摘要本文介绍了OpenAI的最新进展，重点关注其在多模态技术领域的突破。文章首先探讨了GPT-4 Turbo模型的优化和多模态功能的融合，如图像生成和文本到语音转换。随后，作者深入解析多模态技术的工作原理，特别是文本到图...

大数据 2023-11-14 人工智能

876阅读

刚刚，出行行业首个！百亿估值玩家联合国有运营商开卷大模型

首个落地的交通出行大模型，它来了! 这两年的出行行业，有的卷补贴、规模，有的卷自动驾驶、卷定制车，终于有人开始卷大模型了! 名为“阡陌”，背后是国家队级别的选手:T3出行和中国电信。 T3出行，出行领域快速崛起的明星玩家，曾创造77亿元融资业内纪录，估值早...

人工智能 2023-11-14 人工智能

836阅读

网易云音乐推荐系统的冷启动技术

一、问题背景：冷启动建模的必要性和重要性作为一个内容平台，云音乐每天都会有大量的新内容上线，虽然相较于短视频等其它平台，云音乐平台的新内容数量相对较少，但实际数量可能远远超出大家的想象。同时，音乐内容与短视频、新闻、商品推荐又有着显著的不同，音乐的...

大数据 2023-11-14 人工智能

1209阅读

【PaLM2】PaLM2 大语言模型与 Bard 使用体验

欢迎关注【youcans的学习笔记】原创作品，火热更新中【Google I/O 2023】PaLM2 大语言模型与 Bard 使用体验 1. PaLM2 大型语言模型 1.1 谷歌发布 PaLM2 1.2 PaLM2 的功能与性能...

人工智能 2023-11-14 人工智能

1217阅读

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

可以说，AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日，Meta 终于发布了免费可商用版本 Llama 2，让开源大模型领域的格局发生了巨大变化。 Llama 2 模...

大数据 2023-11-14 人工智能

839阅读

UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了

GPT-4V诞生后，惊艳的多模态能力让网友惊呼连连，连OpenAI总裁Greg Brockman都不断在X上安利。不过，最近大家发现，只要打乱布局，GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」，再次难倒…… UCSC教授Xin...

大数据 2023-11-13 人工智能

753阅读

AI视野：Runway推新功能运动笔刷；iPhone16将引入生成式AI；百度AI编程工具限时免费；元象大模型向全社会开放

???AI新鲜事 Runway推新功能运动笔刷随手一涂静图变动图 Runway推出的新功能「运动笔刷」让Gen-2视频生成工具再次颠覆AI圈，摆脱文字依赖，手势操作即可赋予静态图片动感，创造可控制生成内容的新方法。苹果计划在iPhone16上推出i...

大数据 2023-11-13 人工智能

822阅读

文心一言4.0内测入口文心一言新版本有哪些功能

百度文心一言4.0版本现在已经可以申请测试，4.0版本效果全面升级，能更好地帮助您的工作和生活，同时每3小时内畅享100次问答，这里我们来看下文心一言4.0版本的申请入口。文心一言4.0（点击进入）是百度最新推出的一款人工智能大模型，它可以在多个场景和...

AIGC 2023-11-13 人工智能

833阅读