-
真把自己「当个人」的AI,扫去了我的社交贫困
现代打工人,时常会因为「社交贫困」而四处碰壁,无心工作时不知找谁聊天,讨论气氛热烈时语出惊人,开口就能终结话题,周末出去玩发了朋友圈,后来发现也没有人点赞。 总之一进入社会,就感受到了世界的参差。最近这些尴尬无助的场景,全都有了解决方案。 我们刷到一段聊天...
-
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
文章链接: https://arxiv.org/pdf/2407.18290 亮点直击 概述了视觉生成领域中的各种问题。 这些问题的核心在于如何分解视觉信号,其他所有问题都与这一核心问题密切相关,并源于不适当的信号分解方法。 本文旨...
-
每日AIGC最新进展(48):腾讯提出Rich-Contextual Conditional Diffusion Models、OPPO提出自动生成复杂字形海报模型、南京大学提出基于Mamba插帧模型
Diffusion Models专栏文章汇总:入门与实战 Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models...
-
文生视频大模型,短视频的过弯点?
随着今年初Sora的横空出世,这个可以创建长达一分钟视频的文生视频模型就成为了国内厂商追逐的焦点。 6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线,能够生成具有合理运动和模拟物理世界特性的视频。 截至目前,已有超百...
-
自回归模型胜过扩散模型:用于可扩展图像生成的 Llama
📜 文献卡 Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 作者: Peize Sun; Yi Jiang; Shoufa Chen; Shil...
-
抖音、快手的AI短剧还成不了新赛道
AI浪潮狂卷不已,就在这个七月,吹到了短剧行业。 少年李行舟为救母亲,独自征战汹涌大海,遇蠃鱼、战共工,得鲲鹏相助,拿到水神戟,劈开无望海,斩杀海底怪兽九婴,救下亲人。 图源:快手 这是一部以《山海经》为背景的少年历险玄幻短剧,不同以往的是,视觉画面、效...
-
AI短剧的“快手经验”
2024年,Sora横空出世,视频大模型一夜之间成为AI大模型的塔尖之间。在Sora“高冷隐身”时,中国科技公司正在吭哧吭哧推动视频大模型落地。 说到国产视频大模型玩家,不得不提率先面向公众开放的可灵AI。在前段时间的WAIC上,快手团队播放了AIGC星芒...
-
AIGC短剧卷起来了!没有演员全AI生成 快手抖音领衔竞速
7月13日,国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手,可灵大模型提供深度技术支持。 五天前,抖音和博纳合作的首部AIGC科幻短剧《三星堆:未来启示录》上线,抖音视频大模型即梦提供技术支持。 一周之内,抖音、快手相继上线AIGC短剧作品,...
-
70万人争先体验!视频生成新王者「可灵AI」又双叒升级了
难不成,AI 生成短剧时代真的要来了? 最近,各路视频生成 AI 放出的 Demo 让人眼花缭乱。从玩梗图、拼长度再到讲究真实物理逻辑,层出不穷的人工智能创意难分高下,个个都要跟 Sora 试比高。这时候,突然有人偷偷先行一步,搞出了「电影级」的表现: 从...
-
千呼万唤的可灵网页版来了!基础模型重磅升级,新功能“炸场”WAIC
“这可能是本届WAIC上欢呼声最多的一场发布” 在刚刚闭幕的世界人工智能大会(WAIC)上,快手晒出了可灵发布一个月以来的成绩单: “超50万人申请,已开放给超30万用户使用,生成超700万条短视频。” 作为全球首个用户可用的真实影像级视频生成大模型,可灵...
-
AIGC实践|用AI制作视频短片创作全流程
前言: 在深入探讨了AI在动态有声绘本和小游戏开发的应用之后,本次我们将聚焦于视频创作领域。本篇文章将详细展示如何使用AI工具从概念构思到画面生成再到最终成片的全过程,涵盖剧本创作、分镜头设计、视觉效果生成及音乐配制等各个阶段。让我们一同启程,再次踏上这...
-
腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
6月21日,腾讯混元文生图大模型(以下简称为混元 DiT 模型)宣布全面开源训练代码,同时对外开源混元 DiT LoRA 小规模数据集训练方案与可控制插件 ControlNet。 这意味着,全球的企业与个人开发者、创作者们,都可以基于混元 DiT 训练代...
-
抢疯了,腾讯给大模型人才,定了一个前所未有的标准
「21世纪什么最贵?人才!」二十年前的黎叔语录,现在听来也不过时。 这两年,大模型赛道风起云涌。科技公司们全力投入生成式 AI 技术的研发,期待将新的突破整合到自家产品中。OpenAI 是一个非常成功的样本,并受到了研究员、工程师和投资人们的广泛关注与深刻...
-
腾讯混元发布开源加速库,生图时间缩短75%
6月6日,腾讯发布针对腾讯混元文生图开源大模型(以下简称为混元DiT模型)的加速库,让推理效率大幅提升,生图时间缩短75%。 混元DiT模型的使用门槛也大幅降低。用户可以基于ComfyUI的图形化界面,使用腾讯混元文生图模型能力。同时,混元DiT模型已经...
-
腾讯混元发布开源文生图大模型混元DiT加速库 生图时间缩短75%
腾讯混元发布了针对开源文生图大模型混元 DiT 的加速库,可将推理时间缩短75%,生图时间大幅缩短。 混元 DiT 模型也已部署至 Hugging Face Diffusers 通用模型库,用户可通过三行代码调用模型,无需下载原始代码。 通过知识蒸馏和 T...
-
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型
北航的研究团队,用扩散模型“复刻”了一个地球? 在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。 而且地形、气候、植被等复杂的地理特征,也全都考虑到了。 受Google Earth启发,北航的研究团队从俯拍视角出发,将...
-
彻底火了!《AIGC 面试宝典》圈粉无数!
2022 年下半年以来,文本生成图像快速出圈,多款应用持续火爆。 国外文生图代表:Midjourney、Stable Diffusion、OpenAI 的 DALL-E: 海外模型SD开源,进一步促进了国内大厂的研究热情和应用落地: 随着多模态技术迭...
-
腾讯正式发布AI助手App“腾讯元宝”:提供口语陪练特色应用
快科技5月30日消息,腾讯今日正式上线AI助手App腾讯元宝”。 据官方介绍,腾讯今日正式推出了全新的AI助手App腾讯元宝”,这款应用基于腾讯的混元大模型,集成了AI搜索、AI总结、AI写作等强大功能,为用户带来前所未有的智能体验。 腾讯元宝的亮点在于其...
-
腾讯混元将发布大模型C端App腾讯元宝:超万亿参数规模
在腾讯云生成式AI产业应用峰会上,腾讯表示,将于5月30日正式发布面向C端的全新App——“腾讯元宝”。这款应用的背后,是腾讯全链路自研的通用大语言模型——混元大模型,它以其超过万亿的参数规模,展现了卓越的中文理解与创作能力、逻辑推理能力以及可靠的任务执行...
-
首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了! 5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型...
-
为什么腾讯认为DiT架构是未来的主流?做了哪些改进?
OpenAI迭代ChatGPT的过程,发现随着参数量的提升,基于Transformer 架构的大语言模型出现了涌现现象。因此,在文生图领域,很可能参数量更大的模型,也会更“聪明”。 而此前文生图领域大火的Unet 模型容易陷入性能瓶颈与可扩展性的问题,且...
-
腾讯宣布混元文生图大模型开源: Sora 同架构,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的 DiT 架构文生图开源模型...
-
重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的DiT架构文生图开源模型,支...
-
腾讯混元文生图大模型宣布开源:首个中文原生DiT架构
今日,腾讯旗下引人注目的混元文生图大模型(混元DiT)宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在Hugging Face和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。 腾讯混...
-
通义千问APP更名为通义APP,免费开放通义全栈能力
5月9日,通义大模型品牌升级,“通义千问APP”更名为“通义APP”,集成通义大模型全栈能力,免费为所有用户提供服务。通义APP以性能媲美GPT-4 Turbo的基模为底座,并把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“Al...
-
写真视频击败Sora?人大自研全新多模态大模型Awaker 1.0震撼登场
在人工智能领域,人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型,标志着向通用人工智能(AGI)迈出了重要一步。该模型在写真视频效果上超越了Sora,展现了其在视觉生成方面的卓越能力。 4月27日,在中关村论坛的通用人工智能平...
-
超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题
哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。 训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。 尤其在多模态任务中,这一问题尤为突出。 一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模...
-
颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 项...
-
自回归超越扩散!北大、字节 VAR 范式解锁视觉生成 Scaling Law
新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task General...
-
VQAScore官网体验入口 AI文本到视觉生成评估工具使用地址
VQAScore是一种新的评估指标,旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5 模型,能够在文本到图像/视频/3D生成评估中实现最佳性能,是评估和优化文本到视觉生成模型的强大工具。同时,VQAScore引入了GenAI-B...
-
VAR官网体验入口 自回归式AI视觉生成工具使用地址
VAR是一种新的视觉自回归建模方法,能够超越扩散模型,实现更高效的图像生成。它建立了视觉生成的幂律scaling laws,并具备零shots的泛化能力。VAR提供了一系列不同规模的预训练模型,供用户探索和使用。 点击前往VAR官网体验入口 谁可以从VA...
-
【AIGC】Animate Anyone阿里全民舞王背后的科技,基于图片高可控动画生成
在11月底,阿里巴巴集团智能计算研究院发布了一款AI动画项目:Animate Anyone。只需要一张人物静态图片,结合人物的骨骼动画(姿势控制),就能生成一段人物动画视频。 我们先通过官网放出的动画效果直观感受一下。 一. Anima...
-
小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见
近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。 第一行:人眼所见画面,第二...
-
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述 大型语言模型构建在基于Transf...
-
用扩散模型生成网络参数,LeCun点赞尤洋团队新研究
如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发...
-
【专题速递】音频生成、TTS和AIGC在音乐上的运用
// AIGC的发展为音频带来了什么?AIGC如何赋能音乐创作?如何识别虚假音频?TTS可以在哪种场景下解决特定问题?7月29日LiveVideoStackCon2023上海站音频新体验专场,为您解答。 音频新体验 随着多媒...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画
只会「看书」的大语言模型,有现实世界的视觉感知力吗?通过对字符串之间的关系进行建模,关于视觉世界,语言模型到底能学会什么? 最近,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究人员对语言模型的视觉能力进行了系统的评估,从简单形状、物体...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。 这种方法可以让任何基于文字提示的生成模型(比如文生图、文生3D等),通过一组参照图片来学习对应的视觉属性共性和变化的文本提示分布。...
-
吃了几个原作者才能生成这么逼真的效果?文生图涉嫌视觉「抄袭」
不久之前,《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。 GPT-4 输出的许多回答中,几乎逐字逐句地抄袭了《纽约时报》的报道: 图中红字是 GPT-4 与《纽约时报》报道重复的部分。 对此,各个专...
-
兵马俑跳《科目三》,是我万万没想到的
家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了! 图片 热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。 图片 这到底是怎么一回事? 原来,是有人借助了阿里之前走红的AI技术——AnimateA...
-
大模型+机器人,详尽的综述报告来了,多位华人学者参与
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。 预训练的大型语言模型(LLM)、大型视觉 -...
-
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。 最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney, 可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷! 图片 用一张爱丽丝奇境漫游的图片,...
-
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
FaceChain写真开源项目插播: 最新 FaceChain支持多人合照写真、上百种单人写真风格,项目信息汇总:ModelScope 魔搭社区 。 github开源直达(觉得有趣的点个star哈。):GitHub - mo...