-
GPT-4「变懒」bug被修复,价格暴降80%!OpenAI连更5款新模型,性能狂飙
GPT-4又双叒叕变强了! 今天,OpenAI正式发布了更新版的GPT-4 Turbo——gpt-4-0125-preview。 不仅大幅改善了模型「偷懒」的情况,而且还极大地提升了代码生成的能力。 图片 与此同时,OpenAI还发布了一系列模型和API...
-
AIGC:文生图模型Stable Diffusion
1 Stable Diffusion介绍 Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,它通过LAION-5B子集大量的 512x512 图文模型进行训练,我们只要简单的输入一段文...
-
RAG实战 7 - 使用llama_index实现多模态RAG
LLM之RAG实战(七)| 使用llama_index实现多模态RAG 文章目录 LLM之RAG实战(七)| 使用llama_index实现多模态RAG 一、多模态RAG 二、多模态LLM 三、多模态嵌入 四、多模态索引与检索 五、多...
-
多用户数据检索:LangChain技术指南与案例分析
作者 | 崔皓 审校 | 重楼 摘要 文章探讨了如何确保不同用户数据的隔离,并提供灵活的配置选项以适应各种检索需求。 文章首先介绍了多用户数据检索的背景和挑战,包括数据权限管理、检索系统灵活性和用户体验问题。接着进行了技术分析,特别强调了使用Pinec...
-
迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人思考 图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一;大模型以及多模态的发展又带来了文本和图像统一,使得跨模态端到端成为可能;追求更高级、更全面...
-
AIGC神器CLIP:技术详解及应用示例
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafrit...
-
Video-LLaMA 论文精读
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型 引言 ...
-
stable diffusion为什么能用于文本到图像的生成
推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因 如果你还没有看过它:稳定扩散是一个文本到图像的生成模型,你可以输入...
-
AIGC原理:扩散模型diffusion综述一:面向视觉计算的扩散模型研究进展
论文地址:State of the Art on Diffusion Models for Visual Computing 👉 贴一幅SGM(Score-based Generative Model)的原因是宋飏博士将他2019年提出的SMLD模型和20...
-
番外篇Diffusion&Stable Diffusion扩散模型与稳定扩散模型
文章目录 Diffusion&Stable Diffusion扩散模型与稳定扩散模型 摘要 Abstract Diffusion Model扩散模型 Forward Diffusion Process正向扩散过程 噪声图像的分布...
-
2023-12-30 AIGC-LangChain介绍
摘要: 2023-12-30 AIGC-LangChain介绍 LangChain介绍 1. https://youtu.be/Ix9WIZpArm0?t=353 2. https://www.freecodecamp.org/news/la...
-
Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
文章目录 01 使用 02 Stable Diffusion 的工作原理 The autoencoder (VAE The U-Net The Text-encoder Latent Diffusion 又快又高效的原因 Stable Di...
-
Stable Diffusion扩散模型 + Consistency一致性模型
1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过程(正向) 去噪过程(反向) 总结 优化目标 理论推导 代码解析 2.2 Stable Diffu...
-
Stable Diffusion模型概述
Stable Diffusion 1. Stable Diffusion能做什么? 2. 扩散模型 2.1 正向扩散 2.2 反向扩散 3. 训练如何进行 3.1 反向扩散 3.2 Stable Diffusion模型 3.3 潜在扩散模...
-
大型语言模型检索增强生成利器——向量搜索引擎
译者 | 朱先忠 审校 | 重楼 简介 随着大型语言模型(LLM)席卷全球,向量搜索引擎也紧随其后。同时,向量数据库也构成大型语言模型长期记忆系统的基础。 通过有效的算法找到相关信息并使其作为上下文传递给语言模型,向量搜索引擎可以提供超出训练截止值的最...
-
【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
前言 IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。 摘要 通过文本提示词生成的图像,往往需要设置复杂的提示...
-
鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞
大厂们在整活方面开始卷起来了! 前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗…… 只需上传一张或以上照片,无需额外LoRA训练,就能快速可定制。任何人、任何风格,高保真那种。 于是秒秒钟,LeCun化身钢铁侠...
-
Stable Diffusion的入门介绍和使用教程
Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图...
-
Textual Inversion: 一种精调Stable Diffusion模型的方法
引言 最近的文本到图像Stable Diffusion (SD)模型已经证明了使用文本提示合成新颖场景的前所未有的能力。这些文本到图像的模型提供了通过自然语言指导创作的自由。然而,它们的使用受到用户描述特定或独特场景、艺术创作或新物理产品的能力的限制。...
-
深入浅出讲解Stable Diffusion原理,新手也能看明白
说明 最近一段时间对多模态很感兴趣,尤其是Stable Diffusion,安装了环境,圆了自己艺术家的梦想。看了这方面的一些论文,也给人讲过一些这方面的原理,写了一些文章,具体可以参考我的文章: 北方的郎:图文匹配:Clip模型介绍 北方的郎:VQ...
-
微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动...
-
AI绘图模型不会写字的难题,被阿里AnyText破解了
能准确写汉字的AI绘图工具,终于登场了! 包括中文在内一共支持四种语言,而且还能文字的位置还能任意指定。 从此,人们终于可以和AI绘图模型的“鬼画符”说再见了。 这款名为AnyText的绘图工具来自阿里巴巴,可以按照指定位置精准地向图中加入文字。 此前的绘...
-
LLM之RAG实战(七)| 使用llama_index实现多模态RAG
一、多模态RAG OpenAI开发日上最令人兴奋的发布之一是GPT-4V API(https://platform.openai.com/docs/guides/vision)的发布。GPT-4V是一个多模态模型,可以接收文本/图像,并可以...
-
嵌入和矢量数据库实操指南
译者 | 布加迪 审校 | 重楼 这场革命的核心是矢量数据库概念,这一突破性发展正在重塑我们处理复杂数据的方式。与传统的关系数据库不同,这种数据库具有管理和处理高维矢量数据的独特功能,这种数据是许多AI 和机器学习应用所固有的。随着我们更深入研究先进AI...
-
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言
1.摘要 我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号...
-
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版
可控文生图/定制化文生图 1、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation DreamBooth是一种新的文本到图像扩散模型...
-
stable diffusion实践操作-embedding(TEXTUAL INVERSION)
系列文章目录 本文专门开一节写图生图相关的内容,在看之前,可以同步关注:stable diffusion实践操作 文章目录 系列文章目录 前言 1、embeddding的功能 2、如何去下载(https://civitai.com...
-
UC伯克利DeepMind等联合发布真实世界模拟器,打破虚实边界
真实世界模拟器来啦! 还在发愁训练出的大模型无法适应真实的物理世界吗? AI Agent想要进入我们的生活还有多远的距离? ——UC伯克利、谷歌DeepMind、MIT和阿尔伯塔大学的研究人员告诉你答案。 在NeurlPS 2023上,研究人员将展示他们...
-
扩散模型训练太难?来看看Meta AI最新提出的KNN-Diffusion
原文链接:https://www.techbeat.net/article-info?id=4323 作者:seven_ 最近AIGC社区中有趣的工作可谓是层出不穷,这都得益于扩散模型(Diffusion Models)的成功,扩散模型作为生成式AI...
-
【Video-LLaMA】增强LLM对视频内容的理解
Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...
-
理解DALL·E 2, Stable Diffusion和 Midjourney工作原理
编者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。 本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。 以下是译文,Enj...
-
使用Stable Diffusion进行Ai+艺术设计(以智慧灯杆为例)
目录 一. 安装环境 二. 配置模型 2.1 stable diffusion v1 2.2 运行并测试生成效果 Stable Diffusion 是一种以 CLIP ViT-L/14 文本编码器的(非池化)文本嵌入为条件的潜在扩散...
-
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
2D 扩散模型极大地简化了图像内容的创作流程,2D 设计行业也因此发生了变革。近来,扩散模型已扩展到 3D 创作领域,减少了应用程序(如 VR、AR、机器人技术和游戏等)中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型,生成具有评分蒸馏采样(S...
-
解锁大语言模型“黑匣子”
自从大约10年前深度学习模型开始获得关注以来,人工智能的黑匣子问题就一直存在。但现在我们处于后ChatGPT时代,旧金山初创公司Watchful希望提高大型语言模型的透明度。 Watchful联合创始人兼首席执行官Shayan Mohanty说:“当人...
-
每日学术速递1.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: 今天带来的arXiv上最新发表的3篇文本图像的生成论文。 Subjects: cs.LG、cs.Cv、cs.AI、c...
-
〔006〕Stable Diffusion 之 文本转换(Embedding)和脚本(Script)高级使用 篇
✨ 目录 ▷ 文本转换 / Textual Inversion ▷ 自定义Embedding / Textual Inversion ▷ 脚本 / Script ▷ 脚本 / Prompt matr...
-
使用 LangChain 和 Pinecone 矢量数据库构建自定义问答应用程序
构建自定义聊天机器人,以使用 LangChain、OpenAI 和 PineconeDB 从任何数据源开发问答应用程序 介绍 大型语言模型的出现是我们这个时代最令人兴奋的技术发展之一。它为人工智能领域开辟了无限可能,为各行业的现实问题提供了解决方案。这些...
-
10分钟定制一个「陈天奇GPT」,OpenAI新品大波实测来袭!Sam Altman降维打击,千家AI初创公司入土
OpenAI首届春晚,创业公司屠杀夜。 正如Sam Altman所言:「我们正在孕育新物种,它们正在迅速增殖。」 图片 可以说,基于OpenAI接口构建创业公司,产品忽然就失去了意义。许多初创公司的产品,已经没有了护城河。 杜克大学教授陈怡然表示,照这个...
-
万字长文:Stable Diffusion 保姆级教程
万字长文:Stable Diffusion 保姆级教程 2022年绝对是人工智能爆发的元年,前有 stability.ai 开源 Stable Diffusion 模型,后有 Open AI 发布 ChatGPT,二者都是里程碑式的节点事件,其重要性不...
-
理论+实践详解最热的LLM应用框架LangChain
3.3 Chat 聊天模型是语言模型的一个变体,聊天模型以语言模型为基础,其内部使用语言模型,不再以文本字符串为输入和输出,而是将聊天信息列表为输入和输出,他们提供更加结构化的 API。通过聊天模型可以传递一个或多个消息。LangChain 目前支持四类...
-
AI视野:Stability AI推出Stable3D;阿里云发布通义灵码;OpenAI称ChatGPT意识已觉醒;全球AI网络安全协议签署
???AI应用 Stability AI推出Stable3D以及一键替换图片天空功能 Stability AI宣布推出Stable3D,一款支持文本生成高质量3D模型的新工具。用户可以使用文本、图片或插图来轻松生成3D模型,并在多个3D开发平台上进行编辑。...
-
Jina AI 推出“jina-embeddings-v2”:全球首个8k 开源文本嵌入模型
Jina AI 公布了其第二代文本嵌入模型的最新进展:jina-embeddings-v2。这个最先进的模型是唯一支持8K(8192个token)上下文长度的开源解决方案。这一成就使其在功能和在大规模文本嵌入基准 (MTEB 排行榜上的性能方面与 Ope...
-
与OpenAI竞争?Jina AI推出开源8K文本嵌入模型
10月27日消息,外媒报道称,人工智能公司Jina AI日前宣布推出其第二代文本嵌入模型“Jina-embeddings-v2”。这个开源模型支持8K(8192个token 的上下文长度,使其在大规模文本嵌入基准(MTEB 排行榜和功能方面与OpenA...
-
Datasaur推出LLM实验室,助力企业构建自定义AI应用
San Francisco的AI初创公司Datasaur宣布推出LLM Lab,这是一款全面的工具,旨在帮助企业构建自定义的大型语言模型应用,类似于ChatGPT。LLM Lab可在云端或本地部署,为企业提供构建内部自定义生成式AI应用的起点,同时减少了来...
-
生成式人工智能如何重新定义图像搜索
译者 | 李睿 审校 | 重楼 近几个月来,生成式人工智能凭借其创造独特的文本、声音和图像的能力引起了人们的极大兴趣。但生成式人工智能的力量并不局限于创造新的数据。 生成式人工智能的底层技术(例如Transformer和扩散模型)可以为许多其他应用提供...