-
Animate Anyone体验入口 AI生成动漫图像视频软件工具免费使用地址
Animate Anyone是一款革命性的AI工具,它利用扩散模型的力量,从静态图像生成角色视频。我们专门为角色动画设计了一个新框架,通过ReferenceNet和空间注意力技术来保持复杂外观特征的一致性。此外,我们还引入了高效的姿势指导器和有效的时间建模...
-
AI对决:ChatGPT与文心一言的深度比较
. 个人主页:晓风飞 专栏:数据结构|Linux|C语言 路漫漫其修远兮,吾将上下而求索 文章目录 引言 ChatGPT与文心一言的比较 Chatgpt的看法 文心一言的看法 Copilot的观点 chat...
-
必学AI绘图技巧,如何用Midjourney实现连续性人物的创作,SEED功能
经常使用Midjourney的朋友可能都知道,尽管最新的Midjourney V5版本可以通过自然的语言描述创作出高质量的绘画作品,但却有很大的随机性,即使你输入同样的命令,Midjourney每次输出的结果都会不一样。 下面介绍一下以人物画像为例,我们...
-
Stable Diffusion/Win/本地部署
一、本地部署 Stable Diffusion 前言 目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费,但是上手难...
-
AI视野:智谱AI发布大模型GLM-4;腾讯发布PhotoMaker;GPT Store现多款违规AI女友;Deepfake音视频检测技术亮相CES
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ????大模型动态 智谱AI发布大...
-
OpenAI开源全新解码器和语音识别模型Whisper-v3
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。 据悉,Consistency Decoder可以替代Sta...
-
Stable Diffusion五问
一,什么是Stable diffusion? Stable Diffusion" 是一种基于扩散模型的深度学习框架,用于生成高质量的图像。它是一种生成模型,通过模拟物理扩散过程,从随机噪声中逐步生成详细和结构化的图像。Stable Diffusion因其...
-
Animate Anyone体验入口 AI角色视频动画制作软件工具app免费下载地址
Animate Anyone是一个前沿技术工具,专门用于从静态图像生成角色视频。它结合了扩散模型的强大功能,通过专为角色动画定制的新框架,实现了从图像到视频的高质量转换。Animate Anyone通过ReferenceNet合并详细特征,保持了参考图像中...
-
超越BEVFusion!又快又好的极简BEV融合部署方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在算法开发中,激光雷达-相机3D目标检测遇到了过度拟合问题,这是由于违反了一些基本规则。在数据集构建的数据标注方面,本文参考了理论补充,并认为回归任务预测不应涉及来自...
-
AIGC 技术在淘淘秀场景的探索与实践
本文介绍了AIGC相关领域的爆发式增长,并探讨了淘宝秀秀(AI买家秀 的设计思路和技术方案。文章涵盖了图像生成、仿真形象生成和换背景方案,以及模型流程串联等关键技术。 文章还介绍了淘淘秀的使用流程和遇到的问题及处理方法。最后,文章展望了未来AIGC的发展...
-
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画
文章目录 1. 摘要 2. 引言 3. 算法 3.1 Preliminaries 3.2. Personalized Animation 3.3 Motion Modeling Module 4. 实验 5.限制 6. 结论 论文:...
-
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二...
-
AI视频何时才能跑出一个“Midjourney ”?
文|郝 鑫 编|刘雨琦 AI视频一跃成为“明日之星”,大厂和创业公司们打得热火朝天。 去年12月,Pika的出现仿佛点燃了AI视频赛道的引线,一个月之内冒出了近十家公司,谷歌、阿里、字节、腾讯竞相下场,不断将战事推向了高潮。 “AI视频的Mi...
-
TimePillars:提升200米以上小目标的检测能力
本文经自动驾驶之心公众号授权转载,转载请联系出处。 基于LiDAR点云点3D Object Detection一直是一个很经典的问题,学术界和工业界都提出了各种各样的模型来提高精度、速度和鲁棒性。但因为室外的复杂环境,所以室外点云的Object Det...
-
AIGC之Image2Video(一)| Animate Anyone:从静态图像生成动态视频,可将任意图像角色动画化
近日,阿里发布了Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。 项目地址:https://humanaigc.github.io/animate-anyone/ 论文地址:https://ar...
-
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一...
-
一文读懂 LLM 可观测性
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI 生态领域相关的技术 - LLM (大型语言模型 可观测性 ,本文将继续聚焦在针对 LLM 的可观测性进行解析,使得大家能够了解 LLM 的可观测性的必要性以及其核心的生态体系知...
-
视觉高精地图构建的全面回顾!一起看看无图感知都有哪些落地方案(清华&滴滴)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 近年来,自动驾驶受到越来越多的关注,高精地图成为自动驾驶技术的关键组成部分。这些地图提供了道路网络的复杂细节,并作为车辆定位、导航和决策等关键任务的基本输入。鉴于视觉...
-
2024 年 GenAI 投资将如何改变数据中心
我们经常需要一点动力来帮助我们打破常规,以一种迟到的方式改变自己。对许多人来说,这种火花以新的一年的形式出现,以新的决心为重点。但对于IT组织来说,这种动机将以生成人工智能的形式出现,并需要新的基础设施和投资来支持生成人工智能计划。 根据 TechTa...
-
AI成CES顶流!大模型定义硬件时代来了
作为全球最大的科技盛会,CES(国际消费类电子产品展览会)无疑是观察科技行业变化最好的窗口。 今年也不例外,美国当地时间1月9日~12日,CES 在拉斯维加斯迎来了全球超过150个国家和地区的4000余家参展商,参会者超过13万人,其中就有超过1114家中...
-
Llama 2- Open Foundation and Fine-Tuned Chat Models<2>
3.2 人类反馈强化学习(RLHF) RLHF 是一种模型训练过程,应用于微调的语言模型,以进一步使模型行为与人类偏好和指令遵循保持一致。我们收集代表根据经验采样的人类偏好的数据,人类注释者可以选择他们更喜欢的两个模型输出中的哪一个。这种人类反馈随后用...
-
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.4 -大模型发展历程 之 多模态)
文章大纲 什么是多模态 为什么 Transformer 也是多模态模型的基础架构 视觉 Transformer 和 Text Transformer 如何结合 - contrastive learning 对比学习 stable diffu...
-
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
视频场景图生成(VidSGG)旨在识别视觉场景中的对象并推断它们之间的视觉关系。 该任务不仅需要全面了解分散在整个场景中的每个对象,还需要深入研究它们在时序上的运动和交互。 最近,来自中山大学的研究人员在人工智能顶级期刊IEEE T-IP上发表了一篇论文...
-
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
获取高质量数据,已经成为当前大模型训练的一大瓶颈。 前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。 甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。 一直以来,AI界多位大佬认为「合成数据」...
-
蚂蚁营销推荐场景上的因果纠偏方法
一、因果纠偏的背景 1、偏差的产生 推荐系统里根据收集的数据来训练推荐模型,给用户推荐一个合适的 item,当用户与这个 item 产生交互后,数据又会被收集用于继续训练模型,从而形成一个闭环。但是这个闭环当中可能会存在各种各样的影响因素,因此会产生误差...
-
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用Score Distillation Sampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这样婶儿的: 两分钟后,3D版大功告成: △上,Repaint123(NeRF);下,Repaint123(GS) 新方法名为Repaint...
-
少年侠客【InsCode Stable Diffusion美图活动一期】
少年侠客【InsCode Stable Diffusion美图活动一期】 文章目录 Stable Diffusion 模型在线使用地址 第一张图 第二张图 第三张图 第四张图 第五张图 第六章图 一、InsCode Stable Di...
-
AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略
AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议 、使用方法、案例应用(计算能力/代码能力/看图能力等 之详细攻略 解读:在2022年11月横空出世的ChatGPT,打遍天下无敌手的时候,就知道会有这么一天,...
-
人工智能时代:AIGC的横空出世
?个人主页:聆风吟?系列专栏:数据结构、网络奇遇记?少年有梦不应止于心动,更要付诸行动。 文章目录 ?前言 一. 什么是AIGC? 二. AIGC的主要特征 2.1 文本生成 2.2 图像生成 2.3 语音生成 2.4 视频生成 三...
-
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
一杯奶茶,成为 AIGC+CV 视觉前沿弄潮儿! 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2020...
-
兵马俑跳《科目三》,是我万万没想到的
家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了! 图片 热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。 图片 这到底是怎么一回事? 原来,是有人借助了阿里之前走红的AI技术——AnimateA...
-
首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型
随着ChatGPT的爆红,多模态领域也涌现出一大批可以处理多种模态输入的对话模型,如LLaVA, BLIP-2等等。 为了进一步扩展多模态大模型的区域理解能力,近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、...
-
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳: 就连“大笑”这种语义难理解型的,也能准确定位: 方法名为自适应双分支促进网络(ADPN),由清...
-
专补大模型短板的RAG有哪些新进展?这篇综述讲明白了
大型语言模型(LLMs)已经成为我们生活和工作的一部分,它们以惊人的多功能性和智能化改变了我们与信息的互动方式。 然而,尽管它们的能力令人印象深刻,但它们并非无懈可击。这些模型可能会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏...
-
文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费
“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。 几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣。...
-
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造
在过去短短两年内,随着诸如LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。 然而,与图片生成相比,视频生成仍存...
-
Copilot插件:开启AI编程新篇章
人不走空 ?个人主页:人不走空 ?系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 ?个人主页:人不走空 ?系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,...
-
AI视野:自定义ChatGPT商店下周上线;小冰克隆人正式上线;美图大模型上线;普林斯顿大学提出GEO;英伟达发布文生图模型TrailBlazer
新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 自定义ChatGPT商店下周上线 OpenAI宣布将上线自定义GPT商店,用户可以将自己开发的自定义ChatGPT助手进行分享的平台。这一商店的功能类似于苹果的App...
-
Discord Midjourney 安装使⽤教程(AI绘画)
安装步骤: 1.注册Discord账号 2.进⼊Midjourney社区创作 3.创建⾃⼰服务器 安装教程: 1.注册Discord账号 账号注册的方式: 注册地址: //账号注册地址https://discord.c...
-
大模型中幻觉缓解技术的综合调查
大型语言模型(LLMs)是具有大量参数和数据的深度神经网络,能够在自然语言处理(NLP)领域实现多种任务,如文本理解和生成。近年来,随着计算能力和数据规模的提升,LLMs取得了令人瞩目的进展,如GPT-4、BART、T5等,展现了强大的泛化能力和创造力。...
-
ReactAgent官网体验入口 AI自动生成React代码工具app免费下载地址
ReactAgent是一个基于GPT- 4 语言模型的实验性自动化代理,专门用于生成和组合React组件。它使用React、TailwindCSS、Typescript、Radix UI、Shandcn UI和OpenAI API构建,遵循原子设计原则以提...
-
HandRefiner:解决AI生图手部畸形难题
HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面,目前的图像生成模型已经非常出色,但是在生成人类手部的图像时常常会出现问题,例如手指数量不对或者手形怪异。 为了解决这个问题,HandRefiner提出了一种条件修补方法,可以在...
-
人工智能利用深度学习技术增强高级驾驶辅助系统(ADAS)
译者 | 李睿 审校 | 重楼 人工智能和机器学习利用深度学习技术的优势,使高级驾驶辅助系统(ADAS 发生了重大变革。ADAS在很大程度上依赖深度学习来分析和解释从各种传感器获得的大量数据。摄像头、激光雷达(光探测和测距 、雷达和超声波传感器都是传感器...
-
【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成
目录 一. 项目概述 问题: 解决: 二. 方法详解 a 整体结构 b 自主题注意力 三. 文本控制的动漫角色驱动图像生成的结果 四. 文本控制的自然图像驱动图像生成的结果 五. 姿势控制角色驱动图像生成的结果 2023年的最后一...
-
使用 Stable Diffusion Img2Img 生成、放大、模糊和增强
在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion...
-
将 GitHub Copilot 与 ChatGPT 进行较量
最紧迫的问题是:哪种人工智能辅助代码生成最适合当今的开发人员?与以代码为中心的王牌 Copilot 一起工作是否会更好?还是 ChatGPT 的灵活性和多才多艺的方法使其占据了上风?这是专家与全能选手的对决,我们即将投入其中! 让我们深入探讨这场人工智能...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...