-
【AI绘画Stable Diffusion】高清图像放大+面部修复+一键抠图,谈谈你可能不知道的优化技巧!
一提起后期处理,我猜你可能立马想到的就是图像放大。 今天,我要向你展示的后期处理手法,以及优化技巧。 图片放大算法 如果你常用的是秋叶大佬的整合包,那么你对"R-ESRGAN 4x+"和"R-ESRGAN 4x+ Anime6B"应该不会陌生。...
-
获取Github Copilot的Token
可以在线提取出Github Copilot插件的Token,这样的话就可以把Token拿来做别的用处了,比如共享给其他人 Github Copilot是一款由GitHub和OpenAI合作开发的人工智能编程助手。它利用机器学习和自然语言处理技术,能够根据用...
-
【AIGC】Controlnet:基于扩散模型的文生图的可控性
前言 controlnet可以让stable diffusion的生图变得可控。 文章连接:https://arxiv.org/pdf/2302.05543.pdf 摘要 冻结了stable diffusion的预训练模型并重用它的预训练...
-
200亿「书生·浦语2.0」正式开源!数推性能比肩ChatGPT,200K超长上下文完美召回
就在今天,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学,正式发布新一代大语言模型书⽣·浦语2.0(InternLM2)。 Github:https://github.com/InternLM/InternLM HuggingFace:https...
-
语音识别whisper的介绍、安装、错误记录
介绍 Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 论文链接:https://arxiv.org/abs/2212.04...
-
AI绘画指南:在CentOS7中安装Stable Diffusion WebUI
一、安装GPU驱动 1.1 购买云服务器 在腾讯云选购一台GPU型的服务器(最好的境外的,境外的服务器后面关于镜像加速的步骤都可以跳过) 购买成功之后腾讯的站内信会发送初始的密码给你,登录成功后会自动帮我们安装相关的驱动,提示整个过程大概需要20分...
-
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行
在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 无需专用 GPU 即可在笔记本电...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper
1 faster-whisper介绍 faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率...
-
复现问题记录 | Stable Diffusion(LDM) (in python3)(一)
复现 环境 代码 util.py 测试 Text-to-Image 直接使用网页生成 记录复现LDM遇到的问题 环境 conda env create -f environment.yaml 根据environment.ya...
-
Compo官网体验入口 AI生成网页设计开发工具软件在线免费试用地址
Compo是一个革命性的基于AI组件驱动技术的开源工具,能够让用户通过简单的文本指令快速创建、设计和开发网页组件。这个工具的目标用户群体是那些需要快速整合AI功能到他们的网页或应用中的开发者、设计师和企业。 点击前往Compo官网体验入口 为什么选择Co...
-
大型语言模型检索增强生成利器——向量搜索引擎
译者 | 朱先忠 审校 | 重楼 简介 随着大型语言模型(LLM)席卷全球,向量搜索引擎也紧随其后。同时,向量数据库也构成大型语言模型长期记忆系统的基础。 通过有效的算法找到相关信息并使其作为上下文传递给语言模型,向量搜索引擎可以提供超出训练截止值的最...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
文生图Stable-diffusion-webui环境搭建
想自己生成AI美女吗?跟我一起下来搭建Stable-diffusion-v1-5进行文生图、图生图吧。 该webui支持Mac/Linux/Windows环境,这里以windows环境为例。前提是你已经在本机搭建好了GPU运行环境,建议6G以上GPU,...
-
Whisper与ChatGPT联手,轻松实现音频转录文本
目录 前言 一、Whisper简介 二、Whisper可用的模型和语言 三、开源 Whisper 本地转录 3.1、安装pytube库 3.2、下载音频MP4文件 3.3、安装 Whisper 库 四、在线 Whisper API 转录...
-
【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
前言 IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。 摘要 通过文本提示词生成的图像,往往需要设置复杂的提示...
-
Stable Diffusion生成图片的参数查看与抹除方法
查看图片的生成参数 1、打开Stable Diffusion WebUI,点击Tab菜单中的【图像信息/PNG Info】,不同版本的WebUI可能显示的文字或略有不同。 2、在左侧选择本地的一张图片,如果是Stable Diffusion...
-
Stable Diffusion WebUI Linux系统部署
1.简单说明 因为有AIGC方面的需要,所以研究了一下大火的stable diffusion,我自己之前没有部署这个的经验,所以基本是从0开始研究,在网上搜了各种教程一步一步的终于在服务器上成功运行了Stable Diffusion WebUI ,以此...
-
基于ChatGPT的代码解释神器:GPT Academic、GitHub Copilot
(个人推荐使用第二个GitHub Copilot) 1. GPT 学术优化 (GPT Academic 工具 简介 GPT Academic是什么 为ChatGPT/GLM提供实用化交互界面,特别优化论文阅读/润色/写作体验,模块化设计,支持自定...
-
如何部署一个chat copilot服务
微软提供了前后端代码,允许在本地部署一个chat copilot服务,这样就可以通过用脚本发请求的方式自动去提问和截取回答。 其实部署服务的过程挺简单的,按照这个教程一步一步走就可以,以下以linux为例 首先clone chat copilot的re...
-
stable-diffusion-webui安装教程windows10
stable-diffusion-webui安装教程windows10 安装python 3.10.6 安装cuda 配置环境 修改界面语言 本教程提及的文件都在:https://share.weiyun.com/S9QZe9cb,请自行...
-
Stable Diffusion云服务器部署完整版教程
Stable Diffusion云服务器部署完整版教程 2023年07月04日 22:30 3607浏览 · 18喜欢 · 22评论...
-
Stable Diffusion/Win/本地部署
一、本地部署 Stable Diffusion 前言 目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费,但是上手难...
-
无需翻墙|Stable Diffusion WebUI 安装|AI绘画
前言 最近终于有机会从围墙里往外看,了解到外面的世界已经有了天翻地覆的变化,感叹万千,笔者在本地mac,windows,linux,docker部署了不下20遍后,整理出来的linux极简避坑安装方案,供大家参考学习。 注 系统:linux 用...
-
Stable Diffusion VAE:改善图像质量的原理、选型与使用指南
VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器...
-
好用且免费的CodeWhisperer,给1024程序员节送礼来了
国庆期间没有胆量去人从众的景点,关在家里刷手机时意外在亚马逊的User Group公众号上发现了CodeWhisperer这么个好东西(bu yao qian),以后撸代码也可以提高生产力(fang yang mo yu)了,这还不赶紧上手试一...
-
腾讯最新AI工具PhotoMaker:上传图片即可生成多样化风格个人照片
腾讯最新推出的AI照片生成工具PhotoMaker引发了不少关注,该应用利用强化学习(RL)技术,只要上传照片就可以生成多种风格的个人照片,无需进行额外的LoRA训练,用户可以迅速进行定制。 PhotoMaker还具有多样的功能,包括混合不同人物特征生成全...
-
用 llama.cpp 跑通 mixtral MoE 模型
这里是 用 llama.cpp 跑通 mixtral MoE 模型 视频的笔记哦。 主要命令 安装 huggingface_hub: pip install huggingface_hub -U 下载模型 huggingface-cli down...
-
GitHub正式发布Copilot Chat,开放给所有用户使用
功能特性 Copilot Chat是一款以编程为中心的聊天机器人,类似于ChatGPT。它由GPT-4提供支持,开发者可以使用自然语言向其提问,获取实时的编程指导,例如解释概念、检测漏洞或编写单元测试。 使用范围 最初,Copilot Chat 为...
-
百度文心一言可以完胜ChatGPT的4点可能性
文心一言,百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。但说实话,很多人拿他与ChatGPT相对比,结果我就不说了。今天,我通过个人的感受来说一下,如果百度文心一言想要...
-
上下文工程:基于 Github Copilot 的实时能力分析与思考
上个月在计划为 AutoDev 添加多语言支持时候,发现 GitHub Copilot 的插件功能是语言无关的(通过 plugin.xml 分析),便想研究一下它是如何使用 TreeSitter 的。可惜的是,直到最近才有空,研究一下它是如何实现的。...
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...
-
Stable diffusion 简介
Stable diffusion 是 CompVis、Stability AI、LAION、Runway 等公司研发的一个文生图模型,将 AI 图像生成提高到了全新高度,其效果和影响不亚于 Open AI 发布 ChatGPT。Stable diffusi...
-
Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了
这一次,Yann LeCun 首次跻身「百变大咖」。身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你,一身古装在故宫门前打卡留念…… 就连本人也出来转发并喊话,「左下角这幅文艺复兴时期的画,是我的最爱。」 性感女神寡姐身穿紫色巫师服注视着远方,还可...
-
aigc 提示词
目录 女孩 一个例子: 反向提示词: 人物反向提示词 提示词技巧 知乎参考: 女孩 1girl, solo, smile, realistic, grin, looking at viewer, brown eyes, brown h...
-
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。 这种方法可以让任何基于文字提示的生成模型(比如文生图、文生3D等),通过一组参照图片来学习对应的视觉属性共性和变化的文本提示分布。...
-
OpenAI开源全新解码器和语音识别模型Whisper-v3
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。 据悉,Consistency Decoder可以替代Sta...
-
本地部署github上的stable diffuion,轻松玩转ai绘画(新手小白也能懂)
你也想自己生成上面这样好看的图片吗?废话不多说,跟着博主,按步骤来,做完你也就可以了,而且无任何限制,懂得都懂!? 目录 第一步:准备VPN 第二步:安装Python 第三步:安装Pycharm 第四步:安装Git 第五步:注册GitHub账...
-
开源语音超分辨率AI模型Resemble Enhance 可有效去除噪音杂音
Resemble Enhance是一款令人印象深刻的语音处理技术,专为将嘈杂的音频转换为清晰有力的语音而设计。该模型不仅能够去除音频中的各种噪声和杂音,还能够恢复音频失真并扩展音频带宽,使得原本的声音听起来更加清晰和自然。 项目地址:https://gi...
-
Linux云端部署stable diffusion保姆级教程——基于腾讯云,ubuntu系统
#本教程也参考了其他教程,这个是整合版,带#的是注释,不带#的就是命令,需要一行一行复制,然后按回车执行 #最好选择境外Linux,网络环境好,境内需要魔法,下面开始—— #从控制台登录,最好是OrcaTerm登录,复制比较方便 #第一步下载mini...
-
本地搭建【文档助手】大模型版(LangChain+llama+Streamlit)
概述 本文的文档助手就是:我们上传一个文档,然后在对话框中输入问题,大模型会把问题的答案返回。 安装步骤 先下载代码到本地 LangChain调用llama模型的示例代码:https://github.com/afaqueumer/DocQA(代...
-
Stable Diffusion的模型选择,采样器选择,关键词
一、Stable Diffusion的模型选择: 模型下载地址:https://civitai.com/,需要科学上网。 Deliberate:全能模型,prompt越详细生成的图片质量越好 Realistic Vision:现实模型,生成仿真式图...
-
鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞
大厂们在整活方面开始卷起来了! 前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗…… 只需上传一张或以上照片,无需额外LoRA训练,就能快速可定制。任何人、任何风格,高保真那种。 于是秒秒钟,LeCun化身钢铁侠...
-
AIGC内容分享(十八):AIGC在天猫商品海报生成上的探索
目录 项目背景 目标拆解 方案调研 ▐ 方案一 SD + Outpainting ▐ 方案二 SD Inpainting + Reference Only ▐ 方案三 基于Reference的Diffusion算法 ▐ ...
-
微软TaskWeaver开源框架:携手数据分析与行业定制,打造顶级Agent解决方案
数据分析一直是现代社会中的重要工具,它帮助我们洞察本质、发现规律并指导决策。然而,数据分析过程往往复杂且费时,因此我们期望存在一个智能助手助力用户直接 “与数据对话 “。得益于大语言模型(LLM)的发展,虚拟助手和 Copilot 等智能 Agent 纷...
-
开源项目Open Interpreter:让AI在操作系统中自我复制
近日,一篇关于AI在操作系统中复制自己的文章引起了广泛关注。通过开源项目Open Interpreter,AI实现了在操作系统级别启动自身副本的雏形。这一创新基于多模态大模型,通过截图分析屏幕内容,生成操作计划,并调用系统接口执行任务。这不仅是对任务执行能...
-
AI绘画Stable Diffusion实战操作: 62个咒语调教-时尚杂志封面
今天来给大家分享,如何用sd简单的咒语输出好看的图片的教程,今天做的是时尚杂志专题,话不多说直入主题。 还不会StableDiffusion的基本操作,推荐看看这篇保姆级教程: AI绘画:Stable Diffusion 终极炼丹宝典:从入门到精通...
-
超越BEVFusion!又快又好的极简BEV融合部署方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在算法开发中,激光雷达-相机3D目标检测遇到了过度拟合问题,这是由于违反了一些基本规则。在数据集构建的数据标注方面,本文参考了理论补充,并认为回归任务预测不应涉及来自...
-
LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙/LLaMA 2
前言 近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇 ,还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节 ...
-
Window本地化部署stable diffusion AI绘图+问题汇总
目录 一、前言 1. 为什么要本地部署 2. 本地化部署要求 3. Stable diffusion WebUI项目简介 二、电脑环境配置 1. 安装anaconda3 2. 在anaconda3中创建虚拟环境 3. 激活环境 4. 安装...