-
如何免费访问和使用Gemini API?
Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本,获得几乎完美的答案。 我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数,包括文本生成和图像理解。 Gemini A...
-
Stable Diffusion【ControlNet】:改善画质细节的tile模型
大家好,我是程序员晓晓。 在ControlNet中,有一个模型叫做Tile, 翻译成中文为"瓷砖,瓦片"。在SD Web UI工具中经常翻译为“分块”,它的主要作用是在保持图片整体布局的基础上给照片添加细节。基于这个特性,经常结合各种插件做图片的精细放大...
-
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略 目录 使用 PyTorch FSDP 微调 Llama 2 70B 引言 FSDP 工作流 使用的硬件 微调 LLa...
-
Stable Diffusion结构解析-以图像生成图像(图生图,img2img)
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习...
-
Docker部署Stable-Diffusion-webui
前排提示:如果不想折腾,可直接跳到最后获取封装好的容器,一键运行 :D 前言 乘上AI生成的快车,一同看看沿途的风景。 启一个miniconda容器 docker run -itd -v 宿主机内SD项目路径:/tmp --gpus all --...
-
19|Whisper+ChatGPT:请AI代你听播客
今天,我们的课程开始进入一个新的主题了,那就是语音识别。过去几周我们介绍的 ChatGPT 虽然很强大,但是只能接受文本的输入。而在现实生活中,很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版,所以这个时候,我们就需要一个能够将语音内容转换成...
-
Midjourney小白上手教程,3分钟学会AI绘画!
一、前言 1.1 为什么要学AI绘画? 2023年可以成为“AI元年”,随着人工智能飞跃发展,各行各业开始拥抱AI,其中设计、传媒、游戏行业与AI最好的结合方式便是AI绘画,以Midjourney为代表的AI绘画不仅能提升设计者的工作效率,还间接降低了...
-
Midjourney 中 /show 与 Job ID
Midjourney 提供了多种指令和工具,帮助用户在使用过程中更高效地管理和创作图像。其中,/show 指令是一个非常有用的功能,允许用户操作特定的图像生成任务。 使用 /show 指令 /show 指令可以与独特的作...
-
AIGC工具
1. 图转文 BLIP:输入图片,生成对图片的描述,用于制作训练模型的数据集工具 GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-tr...
-
我用Stable Diffusion做电商!
如果你要开淘宝网店,那么在淘宝网页上展示的商品就要漂亮精致,紧紧抓住消费者的心♥!我们可以借助AI作图工具,简单地代替请模特特地搞拍摄的过程啦!这里介绍很简单的利用AI绘画局部逐渐美化女装商品展示图的方法。 我是运营网店的女装店主,我没有钱请模特了。...
-
【AIGC】Diffusers:训练扩散模型
前言 无条件图像生成是扩散模型的一种流行应用,它生成的图像看起来像用于训练的数据集中的图像。通常,通过在特定数据集上微调预训练模型来获得最佳结果。你可以在HUB找到很多这样的模型,但如果你找不到你喜欢的模型,你可以随时训练自己的模型! 本教程将教您如何...
-
Stable Diffusion结构解析-以图像生成图像!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习...
-
AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录
涉及面广:多模态生成模型——MLLM ( 目前集中在视觉语言模型——VLM)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。 持续更新:对于已经完成解读的会附上链接(有的会在一些场景做尝试,也会附上链接供大家快速参考结果...
-
20240131在WIN10下配置whisper
20240131在WIN10下配置whisper 2024/1/31 18:25 首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】800¥ 2、请正确安装好NVIDIA最新的545版本的驱动程序...
-
实战whisper:本地化部署通用语音识别模型
前言 Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 这里呢,我将给出我的一些代码,来帮助你尽快实现【语音转文字】的服务部署...
-
20240131在ubuntu20.04.6下使用whisper不同模式的比对
20240131在ubuntu20.04.6下使用whisper不同模式的比对 2024/1/31 16:07 首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】 2、请正确安装好NVIDIA最新...
-
从0开始用 PyTorch 构建完整的 NeRF
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在解释代码之前,首先对NeRF(神经辐射场)的原理与含义进行简单回顾。而NeRF论文中是这样解释NeRF算法流程的: “我们提出了一个当前最优的方法,应用于复杂场景下合成新视图的任务,具体的实现原理是...
-
2023-12-12 AIGC-AI工具的基本工作原理
摘要: 2023-12-12 AIGC-AI工具的基本工作原理 AI工具的基本工作原理 AI工具的基本工作原理涉及到一系列复杂的技术和算法。这些原理可以根据不同类型的AI工具进行概括,包括机器学习、自然语言处理、图像识别等。以下是一些关键的A...
-
stable diffusion 使用 faceswaplab插件生成证件照
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一.生成证件照 1.1 下载好需要使用的ckpt 模型和lora 1.2 输入以下提示词 1.3 手动调整画面比例,设置每次生成的图片数 1.4 点击Fac...
-
stable diffusion如何确保每张图的面部一致?
可以使用roop插件,确定好脸部图片后,使用roop固定,然后生成的所有图片都使用同一张脸。 这款插件的功能简单粗暴:一键换脸。 如图所示: 任意上传一张脸部清晰的图片,点击启用。 在其他提示词不变的情况下,Stable Diffu...
-
20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下?
20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下? 2024/1/26 21:19 问GTX1080模式使用large该如何配置呢? 这个问题没有完成,可能需要使用使用显存更大的显卡了! 比如G...
-
详解“小而优”的大语言模型Zephyr 7B
Zephyr是Hugging Face发布的一系列大语言模型,使用蒸馏监督微调(dSFT 在更庞大的模型上进行训练,显著提高了任务准确性。 2023年是属于大语言模型(LLM 和开源的一年。许多初创公司和企业开放了模型和权重的源代码,以应对ChatGPT...
-
【书籍】强化学习第二版(英文版电子版下载、github源码)-附copilot翻译的中英文目录...
Python代码:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction 英文原版书籍下载:http://incompleteideas.net/bo...
-
使用Transformer 模型进行时间序列预测的Pytorch代码示例
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。 数据集 这里我们直接使用kaggle中的 Store...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
高效底座模型LLaMA
论文标题:LLaMA: Open and Efficient Foundation Language Models 论文链接:https://arxiv.org/abs/2302.13971 论文来源:Meta AI 一、概述 大型语...
-
保姆级教程:从0到1搭建Stable Diffusion XL完整工作流进行AI绘画
Rocky Ding 公众号:WeThinkIn 写在前面 【人人都是算法专家】栏目专注于分享Rocky在AI行业中对业务/竞赛/研究/产品维度的思考与感悟。欢迎大家一起交流学习? 大家好...
-
stable diffusion实践操作-提示词
系列文章目录 stable diffusion实践操作 stable diffusion实践操作-提示词-人物属性stable diffusion实践操作-提示词-人物服饰stable diffusion实践操作-提示词-整体环境stable dif...
-
AI文本生图模型Stable Diffusion部分模型叠加效果
兄弟们,最近有个烦恼,就是找图有点费事,干脆自己部署个文本生图模型Stable Diffusion,虽然机器性能慢,但是效果还可以,先和大家截图分享下,后面将映射ai.shenjian.online供大家免费使用 1. 效果预览 2. 主模...
-
stable diffusion 人物高级提示词(三)动作、表情、眼神
一、动作 中文 英文 站立 Standing 走路 Walking 身体前倾 Leaning Forward 鞠躬 Bowing 战斗姿势 Fighting Stance 单腿站立 Standing on One Leg...
-
AI绘画Midjourney绘画提示词Prompt大全
一、Midjourney绘画工具 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款...
-
什么是diffusion model? 它为什么好用?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 简介 NCSN (Noise Conditional Score Networks)来自于宋飏博士发表在 NeurIPS2019 上面的文章“Generative Modeling by Estima...
-
世界顶尖多模态大模型开源!又是零一万物,又是李开复
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。 模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。 同属Yi系列,同样具有两个版本...
-
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一、什么是Stable Diffusion(SD) 二、Stable Diffusion的组成 三、生...
-
商业生态重塑进行时,百度AIGC锚定确定性生意增长
AIGC浪潮席卷之下,品牌营销该如何乘风而上,在充满不确定性的未来中收获确定性新增量? 近日,首届「iBrandi Festival品创·全球品牌节」·论坛在京举行,众多行业嘉宾围绕“品牌力量Brand Power”展开深度探讨,百度品牌营销业务部负责人...
-
Video-LLaMA 论文精读
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型 引言 ...
-
Stable Diffusion 源码解析(1)
参考1:https://blog.csdn.net/Eric_1993/article/details/129393890 参考2:https://zhuanlan.zhihu.com/p/613337342 1.StableDiff...
-
小扎All in 开源AGI:正训练Llama 3,年底将有35万块H100
小扎宣布新目标:All in 开源AGI。 不错,小扎又All in了,正是OpenAI谷歌必争之地。 不过在AGI之前,着重强调了是Open Sourse(开源)的。 图片 此举受到不少好评,一如此前LIama系列大模型开源之时。 图片 图片 不过此次...
-
如何使用ChatGPT + Midjourney批量生成图片
我们都知道,视觉内容对于一个内容创作者来说非常重要。但是,对于没有设计技能的人来说,制作视觉内容可能是一项很困难的任务。不过,随着人工智能技术的不断进步,我们可以使用一些AI工具来帮助我们创建视觉内容,例如使用ChatGPT和Midjourney批量生成图...
-
我用 midjourney 创作的那些好看的图片
下面这些是个人的midjourney v5的关键词,各种类型都有 抽象画 One piece of original artwork from 1998 , in the style of confucian ideology, pop art-in...
-
推荐一家GPU平台部署Stable Diffusion
最近一年,扩散模型太火了,已经成为重要的生产力工具,在AI研究领域也不断有新的工作出现,成为产业界和学术界的热点。 本文将在趋动云平台部署扩散模型中广受关注的stable-diffusion-webui项目,手把手教程! 有需要算力跑模型的小伙伴,可以...
-
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
Data Augmentation Approaches for Source Code Models: A Survey 写在最前面 对nlp领域其他方向的启发 英文版: 论文名片 论文总结 一个有意思的表 1.背景Background...
-
SDXL 1.0出图效果直逼Midjourney!手把手教你快速体验!
介绍 最近,Stability AI正式推出了全新的SDXL 1.0版本。经过我的实际测试,与之前的1.5版本相比,XL的效果有了巨大的提升,可以说是全方位的超越。不仅在理解提示词方面表现出色,而且图片的构图、颜色渲染和画面细腻程度都有了很大的进步,实际...
-
AI绘画的技巧与实践
1.三个不错的AI绘画平台 最近,AI绘画非常流行,只要输入一些关键词(prompt脚本),就可以AI帮你绘画出精美的图画,真的很有意思。 在百度上随便搜一下,就能搜出各种乱七八糟的AI绘画平台,哪些平台比较值得推荐呢?小灰为大家推荐三个很好用的AI...
-
AI绘画指南:在CentOS7中安装Stable Diffusion WebUI
一、安装GPU驱动 1.1 购买云服务器 在腾讯云选购一台GPU型的服务器(最好的境外的,境外的服务器后面关于镜像加速的步骤都可以跳过) 购买成功之后腾讯的站内信会发送初始的密码给你,登录成功后会自动帮我们安装相关的驱动,提示整个过程大概需要20分...
-
Whisper与ChatGPT联手,轻松实现音频转录文本
目录 前言 一、Whisper简介 二、Whisper可用的模型和语言 三、开源 Whisper 本地转录 3.1、安装pytube库 3.2、下载音频MP4文件 3.3、安装 Whisper 库 四、在线 Whisper API 转录...
-
最佳Midjourney动漫相关风格提示词,值得收藏
先补充概念,后面慢慢补图片咯 动漫艺术家 下面是一些最伟大的艺术家的名单 Hayao Miyazaki, Co-founder of Studio Ghibli(宫崎骏,吉卜力工作室的共同创始人) Eiichiro Oda, One Piece(...
-
Stable Diffusion的模型选择,采样器选择,关键词
一、Stable Diffusion的模型选择: 模型下载地址:https://civitai.com/,需要科学上网。 Deliberate:全能模型,prompt越详细生成的图片质量越好 Realistic Vision:现实模型,生成仿真式图...
-
碎片笔记|AIGC核心技术综述
前言:AIGC全称为AI-Generated Content,直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的...
-
Stable Diffusion AI绘画系列【19】:呆萌可爱的12生肖风【Q版,3D】
《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ ?感谢小伙伴们点赞、关注! 《------往期经典推荐----...