-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
使用AIGC技术提高AI系统效率
1.背景介绍 在AI领域,提高系统效率是一个重要的目标。一种有效的方法是使用人工智能生成(AIGC 技术。在本文中,我们将探讨AIGC技术的背景、核心概念、算法原理、最佳实践、应用场景、工具和资源推荐,以及未来发展趋势和挑战。 1. 背景介绍...
-
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续! 其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion...
-
OpenAI员工自曝996作息表,网友:真正的卷不需要强迫
OpenAI也996,实锤了(doge)。 思维链作者、从谷歌跳槽OpenAI的Jason Wei刚刚分享了自己在OpenAI的一天: [9:00am] 起床[9:30am] 搭乘Waymo前往Mission SF,途中在Tartine买个牛油果吐司[9...
-
Llama深入浅出
前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。 本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入...
-
全网最全Stable Diffusion原理快速上手,模型结构、关键组件、训练预测方式!!!!
手把手教你入门绘图超强的AI绘画程序,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包(文末可获取) 【AIGC】Stable Diffusion的建模思想、训练预测方式快速 在这篇博客中,将会用机器学习入门级描...
-
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraf...
-
stable-diffusion | v1-5-pruned.ckpt和v1-5-pruned-emaonly.ckpt的区别
https://github.com/runwayml/stable-diffusion?tab=readme-ov-file#reference-sampling-script 对于 1.5 模型,其中可能包括四部分:标准模型、文本编码器、VAE...
-
【AIGC】大语言模型
大型语言模型,也叫大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 什么是大型语言模型 大型语言模型(LLM)是指具有数千亿(甚至更多)参数的语言模型,它们是通过在大规模文本数...
-
Groq大模型推理芯片每秒500tokens超越GPU,喊话三年超过英伟达
Groq公司推出的大模型推理芯片以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。该芯片由初创公司Groq研发,其团队成员来自谷歌TPU,包括创始人兼CEO Jonathan Ross,曾设计实现第一代TPU芯片的核心元件。 Groq采...
-
Github Copilot是什么?Ai高效编程!一键远程授权…
GitHub Copilot是一款Ai编程插件,由OpenAi和Github联合推出,目前支持主流的IDE编辑器安装使用,包括JetBrains IDEs、VSCode、Visual Studio、Neovim等。 官方地址:https://gith...
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
有道ai写作,突破免费限制,无限制使用
预览效果 文末提供源码包及apk下载地址 有道ai写作python版 import hashlib import time import json import ssl import base64 import uuid from urlli...
-
机器学习中的十种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。 尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。 线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影 。例子包括...
-
stable-diffusion-webui 界面汉化
本教程通过安装 sd-webui-bilingual-localization 插件来达到汉化目的, 项目地址为:https://github.com/journey-ad/sd-webui-bilingual-localization 一、安装插件...
-
自然语言生成任务中的五种采样方法介绍和Pytorch代码实现
在自然语言生成任务(NLG 中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。 1、Greedy Decoding Greedy Decoding在每个时间步选择当前条件概率最高的词语作为输出,直到...
-
政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成
小伙伴们好,咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。 考虑计算机性能的因素,这次咱们在Colab上进行,Colab您可以理解为在线版的Jupyter Notebook,还不熟悉Jupyter的的小伙伴可以...
-
意外!明星公司 Jasper 裁员;SD进阶教程之混合语法;2份LLM进展必读报告;谷歌Bard支持中文且免费 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? AIGC 领域的当红炸子鸡 Jasper 裁员,转头聚焦AI营销 Jasper是一家美国人工智能公司,乘着 AIGC 的东风迅速崛起,成为AI助手...
-
如何使用MyScale将知识库引入OpenAI的GPT
译者 | 李睿 审校 | 重楼 2023年11月6日,OpenAI公司对外发布了ChatGPT。在这个无代码平台上,专业(或业余 开发人员可以使用工具和提示构建定制的GPT或聊天机器人,有效地改变他们与OpenAI GPT的交互。以前的交互(LangCh...
-
AIGC实战——能量模型(Energy-Based Model)
AIGC实战——能量模型 0. 前言 1. 能量模型 1.1 模型原理 1.2 MNIST 数据集 1.3 能量函数 2. 使用 Langevin 动力学进行采样 2.1 随机梯度 Langevin 动力学 2.2 实现 Langevin...
-
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。 本文的将提供利用AI语音...
-
如何系统的自学Python?通义千问、讯飞星火、文心一言及ChatGPT的回答
如何系统的自学Python?来看看通义千问、讯飞星火、文心一言及ChatGPT的回答. 第一个是马老师的通义千问 系统地自学Python是一个循序渐进的过程,从基础语法到实践项目,再到专业领域的深入学习。下面是一个详细的步骤指南: 了解Pyt...
-
使用LlamaIndex和ChatGPT的无代码检索增强生成(RAG)
检索增强生成(RAG 是使用大型语言模型(LLM 的关键工具。RAG使LLM能够将外部文档合并到它们的响应中,从而更紧密地与用户需求保持一致。这个功能在传统上使用LLM犹豫不决的领域尤其有益,尤其是在事实很重要的时候。 自从ChatGPT和类似的LLM推...
-
训不动Mixtral,要不试试LLaMA-MoE?
深度学习自然语言处理 原创作者:cola 随着各种各样增强版LLaMA的出现,Mixture-of-Expert(MoE 类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处...
-
如何免费访问和使用Gemini API?
Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本,获得几乎完美的答案。 我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数,包括文本生成和图像理解。 Gemini A...
-
学习AI画画
AI画画学习 利用算法进行画画,通过文本或者以图生图等形式生成相应的图像。之前在云端服务器Linux部署过一遍,这里总结一下相关的过程。 常见AI绘画软件使用方式 方式 优势 不足 1 在线版 直接打开浏览器注册即可使用,非常方便 大部...
-
AIGC音视频工具分析和未来创新机会思考
编者按:相较于前两年,2023年音视频行业的使用量增长缓慢,整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新,才能从这种“卷”的状态中脱离出来?LiveVideoStack 2023上海站邀请到了P...
-
MySQL之视图&内连接、外连接、子查询
目录 一、视图 1.1 含义 2.1 视图的基本语法 二、案例 三、思维导图 一、视图 1.1 含义 虚拟表,和普通表一样使用 视图(view)是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行...
-
最新的AIGC相关技术更新
1.腾讯发布PhotoMaker 《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》 作者机构:南开大学&腾讯 PCG ARC 实验室&东京...
-
耗时80小时!超详细的胎教级Stable Diffusion使用教程,看这一篇就够!
大家好,用爷爷都能听懂的方式分享可以落地实操的干货 花了很长时间终于整理好了这份SD的使用教程! 从手把手安装部署,到界面功能讲解,再到实战案例制作,到下载优质模型,每一步都有详细教程 并且用一个又一个的例子展示,让大家不止是枯燥地看,而是看完立刻也...
-
AIGC智能编程:处理大规模项目的速度与安全双保障
AIGC智能编程:大规模项目的扩展性与数据隐私安全解决方案 摘要 在当今大数据时代,处理大规模项目的挑战日益增加,特别是在保障数据隐私和安全的前提下。本文将详细介绍AIGC智能编程在处理大规模项目时的扩展性和数据隐私安全解决方案。通过详细列出相关步骤...
-
近期关于AIGC方面的学习笔记和思路整理
LLM 对于LLM,我现在重点关注在这几个方面: 开源且可私有化部署的代码生成模型: 因为大部分软件企业对于安全都很重视,文档、数据、代码一般都会尽量避免被泄露。所以很难使用类似Copilot或者OpenAI的Bito这种需要连到互联网上的服务。如果...
-
关于LLaMA Tokenizer的一些坑...
使用LLaMA Tokenizer对 jsonl 文件进行分词,并将分词结果保存到 txt 文件中,分词代码如下: import jsonlines import sentencepiece as spm from tqdm import tqdm j...
-
loading stable diffusion model: FileNotFoundError解决方案
本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 大家好,我是水滴~~ 本文主要介绍在安装 stable-diffusion-webui 时出现的 loading stable diffusion model: FileNotFound...
-
扩展说明: 指令微调 Llama 2
这篇博客是一篇来自 Meta AI,关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集,有了它,我们则可以使用自己的指令来微调 Llama 2 基础模型。 目标是构建一个能够基于输入内容来生成指令的模型。这么做背后的逻辑是,模型如此...
-
Stable Diffusion原理详解(附代码实现)
一、前言 回顾AI绘画的历史,GAN(Generative Adversarial Nets)是比较出众的一个。GAN的出现让AI绘画成为可能,当时GAN给AI绘画提供了一种新的思路,现在回顾当时的绘画可以算是相当粗糙。 gan-results....
-
20240202在WIN10下使用fast whisper缺少cudnn_ops_infer64_8.dll
20240202在WIN10下使用fast whisper缺少cudnn_ops_infer64_8.dll 2024/2/2 10:48 https://blog.csdn.net/feinifi/article/details/132548556...
-
【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制
目录 一. 项目概述 二. 方法详解 三. 应用结果 四.个人思考 由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。 今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条...
-
无 N卡 Stable Diffusion WebUI 安装过程记录
目录 前提 过程 准备 Git 初始化 权重文件 模型文件 文件配置(2024-02-15 12:42 更新) 运行 [notice] pip 更新 无 tb-nightly 包 无 xformers 模块 多处爆红 ERROR...
-
一图揽尽全球LLM崛起之路;LLM概念速查清单;DALL·E提示词红宝书·在线版;fast.ai新课带你从零实现Stable Diffusion | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? LLM 崛起之路:全球大语言模型「规模增长」可视化交互图 https://informationisbeautiful.net/visual...
-
驾辰龙跨Llama持Wasm,玩转Yi模型迎新春过大年(上)
大年初一,看着春晚迎新年。今年新年很特别,AI工具添光彩。今天就来感受下最新的AI神器天选组合“WasmEdge+Yi-34B”,只要短短三步,为这个甲辰龙年带来一份九紫离火运的科技感。 环境准备 这次用的算力是OpenBayes提供的英伟达RTX_4...
-
如何使用TensorFlow和Cleanvision检测大堡礁的海星威胁?
澳大利亚的大堡礁美不胜收,是全球最大的珊瑚礁,也是多种多样的海洋生物栖息的家园。不幸的是,珊瑚礁面临蚕食珊瑚的棘冠海星(COTS)的威胁。为了控制COTS爆发,珊瑚礁管理人员使用一种名为Manta Tow勘查的方法,将潜水员拖在船后,目测评估珊瑚礁的各...
-
基于Python实现Midjourney集成到(个人/公司)平台中
目前Midjourney没有对外开放Api,想体验他们的服务只能在discord中进入他们的频道进行体验或者把他们的机器人拉入自己创建的服务器中;而且现在免费的也用不了了,想使用就得订阅。本教程使用midjourney-api这个开源项目,搭建Midjou...
-
Stable Diffusion 笔记一:网络结构拆解
SD由三大组件组成:VAE,CLIP,Unet。 一VAE: VAE是Variational Autoencoder的缩写,中文名变分自编码器,是一种基于深度学习的生成模型。 1潜空间图片与像素图片: 像素图片是正常使用的图片,通常包含主体的物体人...
-
AIGC内容分享(二):全球大模型技术与应用分析
目录 前言 人工智能技术回顾 AIGC近期动态梳理 1. 国内动态 2. 国外动态 3. OpenAI的关键动作 4. AIGC的技术变革 AIGC的关键应用 1. AIGC应用背后的驱动力 2. AIGC的三大原能力 3. AI...
-
AIGC系列之:实时出图的SDXL Turbo模型介绍
原理介绍 StabilityAI在刚刚发布Stable Video Diffusion之后,2023年11月29日又发布了爆炸性模型:SDXL Turbo,SDXL Turbo是在SDXL 1.0的基础上采用新的蒸馏方案,让模型只需要...
-
AI绘画
AI 绘画 智能文生图-API 文档-文档中心-腾讯云 使用HTTP请求直接调用 然后,在你的Controller类中,你可以使用Spring的RestTemplate类来发送HTTP请求。以下是一个简单的示例: import org.springf...
-
llama.cpp中main函数参数
使模型类gpt式交互: ./main -m .\models\llama-2-7b-chat\ggml-model-q4_0.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompt...
-
使用Kohya_ss训练Stable Diffusion Lora
Stable Diffusion模型微调方法 Stable Diffusion主要有 4 种方式:Dreambooth, LoRA, Textual Inversion, Hypernetworks。 Textual Inversion (也称为 Em...