-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?
在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。 一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域...
-
AIGC专题:Sora是如何成功的?
今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。 (报告出品方:中泰证券) 报告共计:15页 来源:人工智能学派 Sora:大规模训练的视频生成模型,支持60s 1080p视频生成 ◼ 2024年2月15日,O...
-
Stable Diffusion简介
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。 根据维基百科的描述可以得知,Sta...
-
Pika之后又有华人创业者入局AI视频生成,融资千万美金
3月5日,两位华人创业者苗亦舒和王子宇建立的 AI 初创公司推出了搭载自研 AI 模型的视频生成工具 Haiper。 题图来源:Haiper Haiper 的两位创始人都获得了牛津大学机器学习方向的博士学位,在该领域拥有丰富的知识和实践经验。苗亦舒曾供职...
-
Stable Diffusion 解析:探寻 AI 绘画背后的科技神秘
AI 绘画发展史 在谈论 Stable Diffusion 之前,有必要先了解 AI 绘画的发展历程。 早在 2012 年,华人科学家吴恩达领导的团队训练出了当时世界上最大的深度学习网络。这个网络能够自主学习识别猫等物体,并在短短三天时间内绘制出了一...
-
使用纹理对比度检测检测AI生成的图像
在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像。 大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。 但是这篇论文“Rich an...
-
一文总结扩散模型(Diffusion Model)在时间序列中的应用
扩散模型是目前生成式AI中的最核心模块,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时,扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路,以及几篇扩散模型用于时间序列的典型工作,带你...
-
Stability AI发布3D生成模型TripoSR 不用1秒就能生成高质量3D模型
Stability AI 和 Tripo AI 昨晚联合发布了一款名为 TripoSR 的3D 生成模型。这款模型能够在不到1秒的时间内生成高质量的3D 模型,这一创新技术的推出无疑将为3D 建模领域带来革命性的变革。 TripoSR 的推理过程只需要极低...
-
央视财经推出两会AI主播,蚂蚁灵境数字人平台技术支持
还记得杭州亚运会开幕式点燃主火炬环节,让世界惊艳的“数字火炬手”吗?如今,用“同款”技术打造的AI主播在央视财经亮相了! (央视财经客户端上线两会AI主播) 今年两会,央视财经新媒体以总台央视主持人郭若天、孟湛东为原型“复刻”了AI主播——小天、小东。两...
-
Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,...
-
今日AI:多模态大模型Claude3发布;Gorq API开放申请;ChatGPT新增朗读功能;Stability AI发布SD3技术报告
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 🤖📱💼AI应用 Claude3正式...
-
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR
最近,文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮,模型的多模态能力引起广泛关注。 现在,AI 模型在 3D 内容生成方面又有了新突破。 专长于视觉内容生成的 Stability AI 继图片生成(Stable Difussion 3 上线...
-
解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品
Sora刚发布不久,就被逆向工程“解剖”了?! 来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有37页。 他们基于Sora公开技术报告和逆向工程,对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析...
-
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。 但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。 论文地址:h...
-
Llama3将于7月发布!当下处于微调中!
整理 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 据一位熟悉Llama 3人士透露,Meta计划于7月发布Llama 3。据悉,Llama 3的最大版本可能会超过1400亿个参数,超过其前身Llama 2。 Meta希望Llama...
-
探索AI写作的深邃迷宫:困惑度与爆发度的奥秘
大家好,小发猫降重今天来聊聊探索AI写作的深邃迷宫:困惑度与爆发度的奥秘,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:探索AI写作的深邃迷宫:困惑度与爆发度的奥秘 在AI写作的宏大领...
-
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...
-
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。 除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移...
-
大模型的未来:如何推动AIGC技术的进一步发展
1.背景介绍 人工智能(AI 和大数据技术的发展已经进入了一个新的高潮,尤其是自然语言处理(NLP 和计算机视觉(CV 等领域的突破性进展。随着大模型(such as GPT-3, DALL-E, and CLIP 的出现,人工智能生成(AIGC...
-
【AIGC大模型】Sora--首个大型视频生成模型
Sora--首个大型视频生成模型 胡锡进于2024年2月20日认为:台当局怂了 新的改变 世界模拟器 视觉数据转换 视频压缩 时空补丁(Spacetime Laten Patches) 视频生成扩展变压器 算法和模型架构 结语 胡锡...
-
简单聊聊AI绘画中的SD(Stable Diffusion)是什么
聊到AI绘画,基本上就会聊到SD这个概念,毕竟作为开源可以本地部署的AI绘画软件,SD可能是目前的唯一选择,不管是webUI或者ComfyUI,还有国内的很多套壳绘画AI,都是sd作为基础进行二次优化的。那么SD到底是个啥,这篇文章就结合我个人的理解简单跟...
-
万字长文!AIGC 时代数字图像水印的进展与实践 | 新程序员
【导读】数字水印是信息安全领域的新技术,用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理,分为空域和变换域方法。本文介绍了数字图像水印的发展与实践,包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水...
-
UniVG体验入口 百度AI视频生成模型如何使用教程方法指南
UniVG是一款由百度推出的视频生成模型,其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式,以更好地平衡两者之间的关系。 点击前往UniVG体验入口 UniVG项目针对多模态视频生成场景,如影视特效制作和视频内容创作,提供了创新的多条件交叉...
-
京东电商知识图谱与AIGC落地
导读 本文将分享如何将知识图谱应用到电商场景下的 AIGC。 文章将围绕下面五个方面进行分享: 1. 导言 2. 基于领域知识图谱的商品文案生成 3. 基于通用知识图谱的商品文案生成 4. 基于领域知识图谱的 LLM 5. 基于通用知识图谱的...
-
SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴
SORA技术报告解读 文章目录 概要 SORA整体概要 关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么? 1.2 如何处理不同分辨率的训练和推理问题? 2 Scalin...
-
LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训
过去的图像生成模型常被人们诟病人物主要以「白人」为主,而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差,让用户们瞠目结舌。谷歌表示,该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上...
-
中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻
今天,这张图在AI社区热转。 它列举了一众文生视频模型的诞生时间、架构和作者机构。 毫不意外,谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯,全被Sora抢去了。 同时,自曝996作息时间表的OpenAI研究员Jason Wei表示——...
-
理解Stable Diffusion、LoRA、Dreambooth、Hypernetworks、Textual Inversion、Checkpoint
前言 在深度学习和人工智能的领域中,模型生成和调整技术的快速发展为创造性内容的自动化提供了新的可能性。本文将介绍四种重要的模型技术——Stable Diffusion、LoRA、Dreambooth、和Hypernetworks——它...
-
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。 随着影视业失业潮呼声渐起,Sora的诞生也给中国AI行业带来了巨大的焦虑。 360集团创始人周鸿祎认为,Sora模型展现出了超越当前中国同类产品的性能...
-
与人类贴身热舞!人形机器人进阶到街头耍宝,6华人组团出品
注意看,小帅一个转身,卫衣帽子里面居然 空 无 一 头: 好啦,这不是惊悚恐怖片,而是来自UCSD(加州大学圣地亚哥分校)全华人团队的最新研究成果。 他们提出一种特别的全身控制策略(ExBody),能对人形机器人进行全身控制。策略主要训练人形机器人上半...
-
AIGC实战——扩散模型(Diffusion Model)
AIGC实战——扩散模型 0. 前言 1. 去噪扩散概率模型 1.1 Flowers 数据集 1.2 正向扩散过程 1.3 重参数化技巧 1.4 扩散规划 1.5 逆向扩散过程 2. U-Net 去噪模型 2.1 U-Net 架构 2.2...
-
LeCun怒斥Sora是世界模型,自回归LLM太简化了
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。 Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。 英伟达高级研究科学家 Jim Fa...
-
AI版权之战:Stability AI、Midjourney、Runway和DeviantArt等公司纷纷采取行动
艺术家们正与提供AI图像和视频生成器及其机器学习(ML)模型的公司进行一场激烈的版权之战。这场战斗近日出现了新进展,引发了广泛关注。在这场法律大战中,Stability AI、Midjourney、Runway和DeviantArt等公司纷纷采取行动,试图...
-
“媲美”Sam Altman的“中国AI教父”,为什么被骂的如此惨烈?
几天前,美国OpenAI公司发布视频生成模型Sora的新闻引发全球关注,话题热度只增不减。尽管目前国内还没有类似的视频生成模型出现,但以此为素材的付费教程和体验接口却应接不暇。做AI教程内容的博主林林总总,各式各样,其中最为出圈的,当属AI自媒体博主李一舟...
-
【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法
近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulP...
-
NUS尤洋团队开发扩散模型p-diff 像Sora一样直接打入AI底层
新加坡国立大学尤洋教授团队联合其他机构开发的p-diff扩散模型在AI领域引起热议。这项模型能以44倍的速度生成神经网络参数,得到了深度学习领域的重要人物LeCun的点赞。该模型的研发结合了自编码器的设计,通过正向和反向过程学习参数的分布,生成高质量的神经...
-
谷歌AI新星转投Pika:视频生成Lumiere一作,担任创始科学家
视频生成进展如火如荼,Pika迎来一位大将—— 谷歌研究员Omer Bar-Tal,担任Pika创始科学家。 一个月前,还在谷歌以共同一作的身份发布视频生成模型Lumiere,效果十分惊艳。 当时网友表示:谷歌加入视频生成战局,又有好戏可看了。 St...
-
图像生成发展起源:从VAE、扩散模型DDPM、DETR到ViT、Swin transformer
前言 2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、...
-
【AIGC】Stable Diffusion的生成参数入门
Stable Diffusion 的生成参数是用来控制图像生成过程的重要设置,下面是一些常见的生成参数及其详解 1、采样器,关于采样器的选择参照作者的上一篇文章 2、采样步数(Sampling Steps)是指在生成图像时模型执行的总步数,每一步都包含了...
-
【白话科普】10分钟从零看懂AI绘画原理
👉腾小云导读 计算机如何生成和真实图片相似的图画?模型是如何听懂我们想要它生成什么并给出对应结果?AIGC 热潮中的 Stable Diffusion、NovelAI、Latent upscale、ControlNet、LoRA等等是...
-
1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布
模型|https://huggingface.co/ByteDance/SDXL-Lightning 论文|https://arxiv.org/abs/2402.13929 1、闪电般的图片生成 生成式 AI 正凭借其根据文本提示(text prom...
-
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。 与之前的版本相比,Stable Diffus...
-
Chrome 获得由 Gemini 提供支持的内置 AI 写作工具
谷歌 Chrome 浏览器今天推出了新的人工智能写作生成器,该工具可以帮助用户写各种文本内容,例如电子邮件、评论、文章等。 据悉,该工具由 Gemini 驱动,Gemini 是 Google 最新的人工智能模型之一。它可以理解用户所在的网站上下文,并提供相...
-
AI图像(AIGC for PIC)大模型实战|Stable Diffusion
AI GC text to pic 图像生成模型 目前随着AIGC模型的火爆,AI内容创作远超人类创造水平和能力,极大了提升了创作空间。 为此我们要接触新鲜事物,用于尝试新技术。 那针对目前火爆的AImodel我们开始进行学习,尝试本地化部署,生成...
-
Stable Diffusion原理详解
Stable Diffusion原理详解 最近AI图像生成异常火爆,听说鹅厂都开始用AI图像生成做前期设定了,小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像,背后离不开Stable Diffusion算法。 S...
-
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因...
-
【AI绘画】硬核解读Stable Diffusion(完整版) 小白必收藏!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 2022年可谓是AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Sta...
-
超越AF2?Iambic、英伟达、加州理工学院开发多尺度深度生成模型,进行状态特异性蛋白质-配体复合物结构预测
由蛋白质和小分子配体形成的结合复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展,但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。 为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达...
-
Sora到底是如何工作的?
译者 | 布加迪 审校 | 重楼 上周OpenAI团队推出了Sora这一大规模视频生成模型,展示了模拟物理世界基本方面的新功能。我关注文本生成视频这个领域已有很长一段时间,我认为这个模型代表了质量方面的突飞猛进。 我在Reddit和Twitter上看到...