-
使用PyTorch实现去噪扩散模型
在深入研究去噪扩散概率模型(DDPM 如何工作的细节之前,让我们先看看生成式人工智能的一些发展,也就是DDPM的一些基础研究。 VAE VAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进...
-
本地部署Stable Diffusion教程,亲测可以安装成功
系列文章目录 Stable Diffusion界面参数及模型使用 谷歌Colab云端部署Stable Diffusion 进行绘图 文章目录 系列文章目录 前言 一、Stable Diffusion是什么? 二、安装前的准备 1...
-
文心一格: AIGC简介及文心一格简单使用
文章目录 @[toc] 一、AIGC 二、AI作画 三、Prompt 四、文心一格 1.文心一格小程序 2.使用方法 3.使用小程序进行AI绘图 六、未来发展 小结 其他 一、AIGC AIGC(AI Generat...
-
2024 AIGC 应用层十大趋势;iPhone 遭史上最复杂攻击!丨 RTE 开发者日报 Vol.119
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的...
-
Stable Diffusion这样的文本-图像生成模型有记忆吗?
Stable Diffusion扩散模型作为生成高质量图像的先进模型,却伴随着对训练数据的记忆化倾向,引发了隐私和安全性的担忧。AIGCer分享一篇分析该现象的文章,通过两个案例研究深入挖掘了文本复制现象,旨在为未来生成模型的改进提供重要的指导。 基于扩...
-
OpenAI又一神器!Whisper 语音转文字手把手教程
语音转文字在许多不同领域都有着广泛的应用。以下是一些例子: 1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制...
-
stable diffusion模型讲解
AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有惊人视觉效果的图像,其背后的运行机制显得十分神秘与神奇,但确实影响了人类创造艺术的方式。 AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有...
-
AIGC实战——自回归模型(Autoregressive Model)
AIGC实战——自回归模型 0. 前言 1. 长短期记忆网络基本原理 2. Recipes 数据集 3. 处理文本数据 3.1 文本与图像数据处理的差异 3.2 文本数据处理步骤 4. 构建 LSTM 模型 4.1 模型架构 4.2 LS...
-
人工智能可以像人类一样拥有创造力吗?
创造力是人类的一种独特的能力,它使我们能够创造出新颖、有价值、有意义的作品,如艺术、文学、科学、技术等。创造力也是人类社会的一种重要的驱动力,它促进了文化、经济、教育等领域的发展和进步。创造力到底是什么?它是如何产生的?它又如何被评估和提升的?这些问题一...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
AI平台:通义万相_AI创意作画_AI绘画_人工智能-阿里云
通义万相_AI创意作画_AI绘画_人工智能-阿里云 探索发现创意作画应用广场交流群通义官网登录/注册 一个不断进化的人工智能艺术创作大模型新手教程创意作画图片加载失败,请点击刷新156****7704...
-
AI平台:豆包 - 你的 AI 朋友
豆包 - 你的 AI 朋友创建 AI 智能体发现 AI 智能体对话新对话豆包😄 👋 嘿,你好,我是你的新朋友豆包!初次见面很开心。我呢,可以回答你的各种问题,给你工作学习上提供帮助,还能随时陪你聊天。嗯,你想问点什么呢?AI 图片生成一句话即可生成图片,支...
-
文心一言是中文版的ChatGPT?多角度分析猜测文心一言到底是什么?
文心一言是中文版的ChatGPT?多角度分析/猜测文心一言到底是什么! ChatGPT爆火网络,一时间风靡不断。 AI替代人类工作的传言四起 宣布ChatGPT类似产品的公司股价大涨,这到底是什么? 国产的类似产品到底到了什么程度? 让我们一起...
-
专补大模型短板的RAG有哪些新进展?这篇综述讲明白了
大型语言模型(LLMs)已经成为我们生活和工作的一部分,它们以惊人的多功能性和智能化改变了我们与信息的互动方式。 然而,尽管它们的能力令人印象深刻,但它们并非无懈可击。这些模型可能会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏...
-
文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费
“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。 几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣。...
-
迷你AI模型TinyLlama发布:高性能、仅637MB
经过一番期待,TinyLlama项目发布了一款引人注目的开源模型。该项目于去年9月启动,开发人员致力于在数万亿标记上训练一款小型模型。在经历了一些辛勤工作和一些挫折之后,TinyLlama团队如今发布了这个模型。这个模型有着10亿个参数,大约在训练数据上进...
-
Anthropic 承诺不对客户数据进行 AI 训练
Anthropic 承诺不会对付费服务的客户数据进行 AI 模型训练,这是该开发者 Claude 商业服务条款的更新内容。 自今年1月生效,条款中明确指出,Anthropic 的商业客户将拥有使用其 AI 模型生成的所有输出。“在这些条款下,Claude...
-
Stable Diffusion 系列教程 - 3 模型下载和LORA模型的小白入门
首先,一个比较广泛的模型下载地址为:Civitai Models | Discover Free Stable Diffusion Models 黄框是一些过滤器,比如checkpoints可以理解为比如把1.5版本的SD模型拷贝一份后交叉识别新的画...
-
Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
Meta AI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。 这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。这些虚拟人物不仅在视觉上非常逼真,而且能够准确地反映出对话中的手...
-
AIGC入门系列1:感性的认识扩散模型
1、序言 大家好,欢迎来到AI手工星的频道,我是专注AI领域的手工星。AIGC已经成为AI又一个非常爆火的领域,并且与之前的AI模型不同,AIGC更适合普通人使用,我们不仅可以与chatgpt对话,也能通过绘画模型生成想要的图片。很多朋友都想去深入的了解...
-
如何制作正能量励志语录短视频保姆级教程: AIGC生成脚本+ elevenlabs AI声音克隆+AI生图+PikaLabs生短视频+Pexels素材+剪映视频剪辑实操全流程演示
课程场景:适合口才不好,文笔不好,不愿意出镜的相关人员学习,经常演讲但是没有时间做口播做录制的老板、讲师和专家,学完本课,不管您是谁,您都将轻松简单的可以开始您的Vlog或者自媒体账号的IP打造之路。 文章目录 一、本课程学习收获 二...
-
Stable Diffusion (持续更新)
引言 本文的目的为记录stable diffusion的风格迁移,采用diffusers example中的text_to_image和textual_inversion目录 2023.7.11 收集了6张水墨画风格的图片,采用textual_...
-
MidReal AI更新Beta版本 官网上线推荐小说页面
AI小说生成工具MidReal AI最新更新了Beta版本,不仅更新了模型,还增加了许多新功能。新模型生成的内容更有逻辑,更连贯。 同时,官网上线了小说展厅,用户可以在官网上查看推荐的小说,比在Discord上阅读更加舒适。此外,还增加了新功能,比如使用“...
-
最强开源大模型?Llama 2论文解读
标题 简介 模型预训练 预训练设置 硬件资源与碳排放 模型评估 模型微调 有监督微调 基于人工反馈的强化学习(RLHF) 人类偏好数据的收集 奖励模型 迭代微调过程 多轮对话控制 RLHF 结果 模型回答的安全性 一直...
-
AIGC初探:提示工程 Prompt Engineering
简介 提升工程是什么 提示工程(Prompt Engineering)是人工智能领域中的一个概念,特别是在自然语言处理(NLP)领域中。它是一种通过设计和优化输入提示来提高AI模型表现的方法。 对于基于转换器的大型语言模型(如OpenAI的GPT...
-
AIGC产业研究报告2023——视频生成篇
易观:今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIG...
-
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其...
-
清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能
12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。 VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型
昨天,一篇系统性地研究了GPT-4为什么会「降智」的论文,引发了AI圈的广泛讨论。 随着大家对GPT-4使用得越来越频繁,用户每过一段时间都会集中反应,GPT-4好像又变笨了。 图片 最近的情况是,如果用户不小心和GPT-4说现在是12月份,GPT-4的...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。 幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员...
-
ChatGPT变笨新解释:世界被AI改变,与训练时不同了
对于ChatGPT变笨原因,学术界又有了一种新解释。 加州大学圣克鲁兹分校一项研究指出: 论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。 也有学者从另一个角度指出,大模型训练...
-
AI秒出图!StableDiffusion Automatic1111正式支持Tensorrt
秒级出图的AI绘画终于支持Automatic1111。 今天在AI绘画的开源平台Automatic1111上发布了Tensorrt项目,项目地址是 https://github.com/AUTOMATIC1111/stable-diffusion-we...
-
win10部署NovelAI绘画,Stable Diffusion,Chilloutmix,实现txt2img,img2img(含调参)
文章目录 1、Stable Diffusion是什么 2、深度学习环境搭建 3、Stable Diffusion环境搭建(可跳过) 4、Stable Diffusion WebUI环境搭建(主要) 5、NovelAI模型的修改与调参 6、Chi...
-
AI 绘图:MidJourney 的提示语句(Prompt)怎么写?
这篇文章主要总结了在 AI 绘画中,使用 MidJourney 时提示语句 Prompt 的写法。 1、基本 Prompt 写法 完整的 Prompt 可以分为三个部分:[Image Prompts][Text Prompt][Parameters]...
-
(9.1更新弃用)AI绘画stable diffusion SDXL 1.0 refiner 插件
弃用说明:这可能是最短命的插件了,automatic1111的1.6版本中,已经作为原生集成部件支持了,所以不需要再独立安装了)。尽管已经有开源支持者对automatic1111提出过违反GPL协议的问题。但对于伸手党来说,还是很喜欢这种做法的。 之...
-
盘古智能体(Pangu-Agent)的五个创新点
随着大规模语言模型(Large Language Model,LLM)的发展和应用,人工智能领域出现了一种新的研究方向,即基于LLM的自主智能体(LLM-based Autonomous Agent)。这种智能体利用LLM的强大的表示能力和生成能力,可以...
-
OpenAI员工:提示词工程技能被夸大,学会和人打交道更重要
12月29日消息,作为提示词工程师,也就是聊天机器人ChatGPT等工具背后引导人工智能模型生成最佳输出的专家,你可能会获得颇为丰厚的报酬。然而OpenAI的一名员工表示,这项技能并不像看起来那么神奇。 本周早些时候,OpenAI的开发者倡导者洛根·基...
-
一份保姆级的Stable Diffusion部署教程,开启你的炼丹之路 | 京东云技术团队
市面上有很多可以被用于AI绘画的应用,例如DALL-E、Midjourney、NovelAI等,他们的大部分都依托云端服务器运行,一部分还需要支付会员费用来购买更多出图的额度。在2022年8月,一款叫做Stable Diffusion的应用,通过算法迭代将...
-
数据闭环!DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 北大王选计算机研究所的最新工作,提出了DrivingGaussian,一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景,首先使用增量静态3D高斯对整个...
-
嵌入和矢量数据库实操指南
译者 | 布加迪 审校 | 重楼 这场革命的核心是矢量数据库概念,这一突破性发展正在重塑我们处理复杂数据的方式。与传统的关系数据库不同,这种数据库具有管理和处理高维矢量数据的独特功能,这种数据是许多AI 和机器学习应用所固有的。随着我们更深入研究先进AI...
-
关于【Stable-Diffusion WEBUI】方方面面研究(内容索引)
文章目录 (零)前言 (0.1)我的相关文章索引 (0.2)本篇内容阅读提示 (一)绘图 (1.1)模型 (1.2)绘图方式(文生图) (1.3)插件:可选附加网络(LoRA插件 (Additional networks) (1.4)插件...
-
【扩散模型Diffusion Model系列】0-从VAE开始(隐变量模型、KL散度、最大化似然与AIGC的关系)
VAE VAE(Variational AutoEncoder ,变分自编码器,是一种无监督学习算法,被用于压缩、特征提取和生成式任务。相比于GAN(Generative Adversarial Network ,VAE在数学上有着更加良好的性质,有利...
-
llama.cpp Mac版本llama
骆驼.cpp 路线图/宣言/ ggml 纯C/C++中LLaMA模型的推理 热点话题: 简单的网络聊天示例:#1998 k-quants 现在支持 64 的超级块大小 super-block size of 64::#2001 新...
-
得物大模型平台,业务效果提升实践
一、背景 得物大模型训练与推理平台上线几个月后,我们与公司内部超过 10 个业务领域展开了全面的合作。在一些关键业务指标方面,取得了显著的成效,例如: 效率相关部门的合作,多维度打标总正确率取得 2 倍以上提升。利用大模型开辟了新的业务,提升了效...
-
在 Apple Silicon Mac 上部署 StableDiffusion 的分步指南,释放 Apple Silicon 芯片及其神经引擎的全部潜力
任何使用AI模型生成图像的服务都在涌现。这些服务中的大多数都提供基于积分的定价系统,您可以在其中购买积分以用于服务,并且每项服务都有自己的每张图片积分等级。另一种选择是直接在您自己的机器上部署文本到图像模型,这样可以避免任何使用成本,除了操作机器的成本。事...
-
打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 图片 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 图片 如此惊人的图片实时生成速度,便是来自UC伯克利、...
-
AI视野:Pika1.0正式向所有人开放;阿里开源文生3D模型;Midjourney V6涉嫌侵权;谷歌推出新AI SDK
新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 Pika1.0正式向所有人开放 Pika1.0官方宣布正式向所有人开放网页版本试用资格,每个用户都可免费体验该创意视频制作平台。该版本以文生成视频为特色,提供3秒视频快速...
-
单张4090,1秒100张二次元小姐姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学...