-
语音转字幕:Whisper模型的功能和使用
? 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主 ? 擅长领域:全栈工程师、爬虫、ACM算法 ? 公众号:知识浅谈 ?语音转字幕:Whisper模型的功能和使用? 使用到的工具和模型: 公众号 知识浅谈 回复 w...
-
仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM
时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在:比如说在零售场景下中,「提高需求预测准确性」可以有显著降低库存成本并增加收入。 深度学习(DL)模型基本上垄断了「多变量时间序列预测」任务,在各个竞赛、现实应用中的表现都非常好。 与...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
【深度学习】风格迁移,转换,Stable Diffusion,FreeStyle : Free Lunch for Text-guided Style Transfer using Diffusion
论文:https://arxiv.org/abs/2401.15636 代码:https://github.com/FreeStyleFreeLunch/FreeStyle 介绍 生成扩散模型的快速发展极大地推进了风格迁移领域的发展。然而,大多数当...
-
文生图的最新进展:从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning
前言 很明显,OpenAI的首个视频生成模型sora极大程度的提高了大家对文生图、文生视频的热情,也极大的扩展了大家对AIGC的想象力 第一部分(选读 一致性模型Consistency Model 注,本文第一部分最早写在23年11月份的这篇文...
-
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
AGI真的越来越近了! 为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。 去年5月,OpenAI团队发布了一个令人震惊的发现:GPT-4竟可以解释GPT-2的三十万神经元! 网友纷纷惊呼,智慧原来是这...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
不依赖token,字节级模型来了!直接处理二进制数据
最新GPT,不预测token了。 微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)。 通过直接处理原生二进制数据,bGPT将所有输入内容都视为字节序列,从而可以不受限于任何特定的格式或任务。 能预测CPU...
-
不依赖Token,字节级模型来了!直接处理二进制数据
最新GPT,不预测token了。 微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)。 通过直接处理原生二进制数据,bGPT将所有输入内容都视为字节序列,从而可以不受限于任何特定的格式或任务。 能预测CPU...
-
stable diffusion 原理是什么?
“ 这篇文章主要介绍了Stable Diffusion,这是一种用于AI绘画的算法,它是由CompVis和Runway团队在2021年12月提出的“潜在扩散模型”(LDM/Latent Diffusion Model)的变体,基于201...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
论文精读--DALL·E 2
使用CLIP训练好的特征做层级式的依托于文本的图像生成,层级式是指生成小分辨率图片后不断用模型上采样得到高清大图 CLIP将输入的文本变成一个文本特征,然后DALLE2训练一个prior模型,输入是文本特征输出是图像特征,最后把图像特征喂给解码器得到图片...
-
Stable Diffusion原理解析-inpaint修复图片
文章目录 一、背景知识 (一)inpaint概念 (二)图生图(img2img)任务 二、Stable Diffusion中inpaint的两种实现形式 (一)开源的inpaint模型:这种方式必须基于一个已经训练好的unet模型 (二)...
-
DUSt3R官网体验入口 3D重建工具AI应用免费使用下载地址
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种...
-
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。 每个人想要的大模型,是真·智能的那种...... 这不,谷歌团队就做出来了一个强大的「读屏」AI。 研究人员...
-
解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品
Sora刚发布不久,就被逆向工程“解剖”了?! 来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有37页。 他们基于Sora公开技术报告和逆向工程,对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑...
-
简单聊聊AI绘画中的SD(Stable Diffusion)是什么
聊到AI绘画,基本上就会聊到SD这个概念,毕竟作为开源可以本地部署的AI绘画软件,SD可能是目前的唯一选择,不管是webUI或者ComfyUI,还有国内的很多套壳绘画AI,都是sd作为基础进行二次优化的。那么SD到底是个啥,这篇文章就结合我个人的理解简单跟...
-
Stable diffusion webui部署及简单使用
文章目录 前言 一、Stable Diffusion WebUI部署 1.Stable diffusion 2.Linux 上的自动安装步骤如下: 1.安装依赖项: 2.切换到想要安装 WebUI 的目录并执行以下命令: 3.运行 webu...
-
万字长文!AIGC 时代数字图像水印的进展与实践 | 新程序员
【导读】数字水印是信息安全领域的新技术,用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理,分为空域和变换域方法。本文介绍了数字图像水印的发展与实践,包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水...
-
ControlNet作者新作:AI绘画能分图层了,项目未开源就斩获660 Star
“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)! 例如来一句: 可以看到,AI不仅生成了符合prompt的完整图像...
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示: LeCun 图灵奖得主也强烈推荐了该工作! 在最近的一项研究中,Meta...
-
微软37页论文逆向工程Sora,得到了哪些结论?
追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。 在最近的一篇文章中,微软研究院和理海大学的研...
-
京东电商知识图谱与AIGC落地
导读 本文将分享如何将知识图谱应用到电商场景下的 AIGC。 文章将围绕下面五个方面进行分享: 1. 导言 2. 基于领域知识图谱的商品文案生成 3. 基于通用知识图谱的商品文案生成 4. 基于领域知识图谱的 LLM 5. 基于通用知识图谱的...
-
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)! 例如来一句: 头发凌乱的女性,在卧室里。Woman with me...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴
SORA技术报告解读 文章目录 概要 SORA整体概要 关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么? 1.2 如何处理不同分辨率的训练和推理问题? 2 Scalin...
-
陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存
陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法: 它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。 最重要的是,在这个过程中,只需要原来1/6的内存,模型就获得了10倍吞吐量。 除此之外,它还能大大降低训练成本:...
-
英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击...
-
【AI绘画】Stable Diffusion学习——入门教程和模型介绍(二)
一、Web界面 Stable Diffusion Web UI界面参数说明: 二、大模型 Stable Diffusion 模型俗称大模型(Checkpoint),是最重要的模型,有它才可以生成图像,用于确立基本画风。 文件的存放路径:根目录\m...
-
高质量论文中文翻译:Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S
Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录 摘要 介绍 我们的贡献...
-
用扩散模型生成网络参数,LeCun点赞尤洋团队新研究
如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发...
-
打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞
扩散模型,迎来了一项重大新应用—— 像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层! 这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。 具体来说,研究团队提出了一种用于生成神经网络参数的扩散模...
-
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。 最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。 它能够通过单一冻结模型,处理各种视频理解任务。 图片 论文地址:https://a...
-
Stable Diffusion之最全详解图解
Stable Diffusion之最全详解图解 1. Stable Diffusion介绍 1.1 研究背景 1.2 学术名词 2.Stable Diffusion原理解析 2.1 技术架构 2.2 原理介绍 扩散过程 3.1 Diff...
-
补齐Transformer规划短板,田渊栋团队的Searchformer火了
最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。 尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难...
-
【AIGC】基于深度学习的图像生成与增强技术
摘要: 本论文探讨基于深度学习的图像生成与增强技术在图像处理和计算机视觉领域的应用。我们综合分析了主流的深度学习模型,特别是生成对抗网络(GAN)和变分自编码器(VAE)等,并就它们在实际应用中的效果和局限性展开讨论。通过比较实验和案例研究,我们评估了不...
-
图像生成发展起源:从VAE、扩散模型DDPM、DETR到ViT、Swin transformer
前言 2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、...
-
whisper.cpp安装配置
下载代码,代码地址:https://github.com/ggerganov/whisper.cpp 下载模型,现有模型如下,small 模型基本能达到日常的用途,建议下载 small 以上的。下载模型的指令: ./download-ggml-mode...
-
Stable Diffusion——stable diffusion基础原理详解与安装秋叶整合包进行出图测试
前言 在2022年,人工智能创作内容(AIGC)成为了AI领域的热门话题之一。在ChatGPT问世之前,AI绘画以其独特的创意和便捷的创作工具迅速走红,引起了广泛关注。随着一系列以Stable Diffusion、Midjourney、NovelAI等...
-
EfficientViT-SAM:精度不变原地起飞!
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientV...
-
Stable Diffusion原理详解
Stable Diffusion原理详解 最近AI图像生成异常火爆,听说鹅厂都开始用AI图像生成做前期设定了,小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像,背后离不开Stable Diffusion算法。 S...
-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
【AI绘画】Stable Diffusion 保姆级教程,必收藏!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 2022年绝对是人工智能爆发的元年,前有 stability.ai 开源 Stable Diffusion 模型,后...
-
第三章:AIGC框架和应用场景
1.背景介绍 人工智能(AI 和机器学习(ML 技术在过去几年中取得了显著的进展,为许多领域带来了革命性的改变。自动化图像生成(AIGC 是一种使用AI和ML技术自动生成高质量图像的方法。AIGC框架可以应用于许多场景,例如生成艺术作品、设计、广...
-
成功!马斯克官宣首个Neuralink脑机接口人类,意念操控鼠标,全民机器人时代来了?
就在刚刚,马斯克宣布,第一个植入Neuralink的人类患者,已经可以通过思考移动计算机鼠标了! 「进展良好,患者似乎已经完全康复,没有我们所知道的不良影响。患者只需动动脑子,即可在屏幕上移动鼠标。」 此前发布的演示 这个消息太炸裂了。从今天起,人类正...
-
Stable Diffusion涂鸦功能与局部重绘
在 StableDiffusion图生图的面板里,除了图生图(img2img)选卡外,还有局部重绘(Inpaint ,涂鸦(Sketch ,涂鸦重绘(Inpaint Sketch ,上传重绘蒙版(Inpaint Uplaod)、批量处理(B...
-
Llama深入浅出
前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。 本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入...