-
Hugging Face使用Stable diffusion Diffusers Transformers Accelerate Pipelines VAE
Diffusers A library that offers an implementation of various diffusion models, including text-to-image models. 提供不同扩散模型的实现的库,代...
-
人脸识别技术演进:从几何算法到深度学习的深度剖析
本文全面探讨了人脸识别技术的发展历程、关键方法及其应用任务目标,深入分析了从几何特征到深度学习的技术演进。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实...
-
ocr识别原理和场景应用浅析
Labs 导读 日常生活的截图提取、拍照搜题,都用到了文字识别领域占据重要地位的OCR(光学字符识别)技术。 Part 01、 什么是OCR OCR(光学字符识别)是计算机文字识别的一种方法,利用光学技术和计算机技术将印刷或手写在纸张等介质的文...
-
AI内容检测工具之GPTZero,简介并针对Chat GPT,Claude,文心一言进行评测
最近随着ChatGPT火爆,各种大型语言模型都开始飞速发展,并被运用到了各行各业。带来生产力飞速提升的同时,也带来了一些问题。比如一名老师,该如何判断学生提交的作业是否是使用ChatGPT来写的呢? 首先我上篇文章已经介绍了OpenAI自己的方案:北方的...
-
史上最快3D数字人生成器:半小时完成训练,渲染仅需16毫秒,苹果出品
之前要两天才能训练好的数字人,现在只用半小时就能完成了! 到了推理阶段,更是只要16毫秒,就能得到动作流畅、细节到位的场景视频。 而且无需复杂的采样和建模,只要随便拍一段50-100帧的视频就足够了,换算成时间不过几秒钟。 这正是由苹果联合德国马普所推出...
-
LLaMA系列模型
1.LLama 1.1 简介 Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA 2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4...
-
使用 GPT-4 和 Midjourney 建构Tiktok故事
您准备好探索生成AI的奇妙世界,创作出富有吸引力的故事并配以引人入胜的插图了吗?根据我最近使用GPT-4和Midjourney的体验,我成功地使用YiVal构建了一个端到端的叙事,GPT-4用来生成大规模的故事,同时Midjourney创建令人惊叹的插图。...
-
只需一张图片、一句动作指令,Animate124轻松生成3D视频
近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合...
-
专为大模型打造!摩尔线程发布智算加速卡MTT S4000:支持48GB显存
快科技12月19日消息,今天,摩尔线程发布了全新智算加速卡MTT S4000,训推兼顾专为大模型打造,单卡支持48GB显存。 据介绍,MTT S4000采用了第三代MUSA内核,单卡支持48GB显存和768GB/s的显存带宽,FP32性能为25TFLOPs...
-
深度学习之目标检测中的常用算法
随着深度学习的不断发展,深度卷积神经网络在目标检测领域中的应用愈加广泛,现已被应用于农业、交通和医学等众多领域。 与基于特征的传统手工方法相比,基于深度学习的目标检测方法可以学习低级和高级图像特征,有更好的检测精度和泛化能力。 什么是目标检测? 目标检测...
-
DALL·E2(unCLIP)、Stable Diffusion、IS、FID要点总结
DALL·E 1 DALL·E 1可以看成是VQ-VAE和文本经过BPE编码得到的embedding AE(Auto Encoder) encoder decoder结构,AE在生成任务时只会模仿不会创造,所有有了后面的VAE VAE(Var...
-
word2vec作者爆料:seq2seq是我的想法、GloVe抄袭技巧,反击来了
随着 NeurIPS 2023 获奖论文的公布,十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Com...
-
基于onnx模型和onnx runtime推理stable diffusion
直接用diffusers的pipeline: import os from diffusers import OnnxStableDiffusionPipeline, OnnxRuntimeModel from diffusers import DDIM...
-
超详细,AI绘画里你不得不知道的SD算法详解
前言 哈喽,各位小伙伴们大家好,说到AI绘画,可谓是近几年来异军突起,犹如洪水猛兽一般,各种的本土化,商业化。但是相信也有很多朋友跟我一样,对AI绘画的原理一知半解,甚至根本不知道它是怎么工作的。这样只靠着在网上复制粘贴别人的prompt,是没有点...
-
人工智能中的文本分类:技术突破与实战指导
在本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类技术深入理解的全面视角。 关注TechLead,分享A...
-
stable-diffusion-webui(1.2.1版本) win10系统本地电脑部署
在安装stable-diffusion-webui(1.2.1版本 之前需要确认win10本地电脑具有的环境 1.显卡类型:NVIDIA(英伟达) 建议显存高于4G以上,这样512*512的还是可以运行的 2.python(版本必须最好是3.10.6...
-
随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力
CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于: 与LLM大语言模型结合成为视觉多模态大模型; 作为图像生成(Stable Diffusion 、点云生成(Point-E 的condition model,实现image-to-3D; 用于...
-
RayDF:实时渲染!基于射线的三维重建新方法
本文经自动驾驶之心公众号授权转载,转载请联系出处。 图片 论文链接:https://arxiv.org/pdf/2310.19629 代码链接:https://github.com/vLAR-group/RayDF 主页:https://vlar-gro...
-
LLM-SFT,新微调数据集-MWP-Instruct(多步计算 + 一、二元方程),微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)
LLM-SFT 中文大模型微调(LLM-SFT , 支持模型(ChatGLM, LlaMA, Bloom , 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX , 支持(微调, 推理, 测评, 接口 等. 项目...
-
把检测器加进来,YOLOv8部署实战!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0 把检测器加进来 本文是我在学习韩博《CUDA与TensorRT部署实战课程》第六章的课程部分输出的个人学习笔记,欢迎大家一起讨论学习! 1 导出onnx需要注意的地方 不要pip instal...
-
你真的看懂扩散模型(diffusion model)了吗?(从DALL·E 2讲起,GAN、VAE、MAE都有)
本文全网原创于CSDN:落难Coder ,未经允许,不得转载! 扩散模型简单介绍 我们来讲一下什么是扩散模型,如果你不了解一些工作,你可能不清楚它究竟是什么。那么我举两个例子说一下:AI作画(输入一些文字就可以得到与你描述相符的图像)和抖音大火的...
-
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作...
-
【深度学习】AIGC ,ControlNet 论文,原理,训练,部署,实战,教程(三)
文章目录 源码资源下载 Python环境 试玩controlnet 训练 数据准备 选一个Stable diffusion模型 开始训练 第一篇:https://qq742971636.blog.csdn.net/article/...
-
《安富莱嵌入式周报》第307期:开源智能制冷板,Keil MDK6发布时间,编程助手Github Copilot X,Matlab2023,高品质电容式麦DIY
周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版:...
-
StableDiffusion模型发展历史
参考资料: 相应的github和huggingface LDM [github] StableDiffusion v1.1 ~ v1.4 [github] [huggingface] StableDiffusion...
-
DetZero:Waymo 3D检测榜单第一,媲美人工标注!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 本文提出了一套离线3D物体检测算法框架DetZero,通过在 Waymo 公开数据集上进行全面的研究和评估,DetZero可生成连续且完整的物体轨迹序列,并充分利用长时序点云特征显着提升感知结果的质...
-
AIGC时代,大模型微调如何发挥最大作用?
人工智能的快速发展推动了大模型的广泛应用,它们在语言、视觉、语音等领域的应用效果已经越来越好。但是,训练一个大模型需要巨大的计算资源和时间,为了减少这种资源的浪费,微调已经成为一种流行的技术。微调是指在预训练模型的基础上,通过在小数据集上的训练来适应新的任...
-
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像,具有巨大的应用潜力,如...
-
百度搜索内容HTAP表格存储系统
作者 | Chaos 导读 本文主要介绍百度搜索内容存储团队应对海量互联网数据分析计算需求时,在构建HTAP表格存储系统方向上的一些技术思考。 全文4683字,预计阅读时间12分钟。 01 业务背景 百度搜索内容存储团队主...
-
聊一聊大模型 | 京东云技术团队
事情还得从ChatGPT说起。 2022年12月OpenAI发布了自然语言生成模型ChatGPT,一个可以基于用户输入文本自动生成回答的人工智能体。它有着赶超人类的自然对话程度以及逆天的学识。一时间引爆了整个人工智能界,各大巨头也纷纷跟进发布了自家的大模...
-
Kumo.AI推出全新预测性AI平台 引入了类似SQL的预测性查询语言
近年来,技术的快速发展已经改变了企业的业务模式,人工智能成为全球范围内的核心讨论话题。在这一背景下,Kumo.AI宣布推出了一款全新的预测性AI平台,引入了类似SQL的预测性查询语言。相较于生成式AI,预测性AI更专注于基于当前数据预测未来趋势,能够处理更...
-
在少样本学习中,用SetFit进行文本分类
译者 | 陈峻 审校 | 重楼 在本文中,我将向您介绍“少样本(Few-shot)学习”的相关概念,并重点讨论被广泛应用于文本分类的SetFit方法。 传统的机器学习(ML) 在监督(Supervised)机器学习中,大量数据集被用于模型训练,以便...
-
【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型
文章目录 一、背景 二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择 三、效果 四、思考 论文:Learning Transferabl...
-
材质界的ImageNet,大规模6维材质实拍数据库OpenSVBRDF发布
在计算图形学领域,材质外观刻画了真实物体与光线之间的复杂物理交互,通常可表达为随空间位置变化的双向反射分布函数(Spatially-Varying Bidirectional Reflectance Distribution Function,缩写为 S...
-
Stable Diffusion搭建全过程记录,生成自己的专属艺术照
引言 最近硅星人多次报道过 AI 图片生成技术,提到过 DALL·E、Midjourney、DALL·E mini(现用名 Craiyon)、Imagen、TikTok AI绿幕等知名产品。实际上,Stable Diffusion 有着强大的生成...
-
使用gradio部署自己的AI应用 AI对话 和 AI绘画
gradio部署自己的 AI应用 AI对话(chatglm) 和 AI绘画(stable diffusion) 前言 提前准备: 开始 1,飞浆操作 2,部署 对话 和 绘画 3,natapp操作 4,api方式启动sd和glm 5,编写gr...
-
用diffuser代码方式打造Ai作画流水线(1)
背景: stablediffusion已经成为作画人的标配,通过sd的ps插件,或者通过SD webui就可以快速的构建出一套属于自己的Ai作画环境。这种可视化的界面确实方便也是更好艺术家个代码工程师协同合作的模式,可视化界面方便艺术家创造,需要...
-
CART算法解密:从原理到Python实现
本文深入探讨了CART(分类与回归树)算法的核心原理、实现方法以及应用场景。文章首先介绍了决策树的基础知识,然后详细解析了CART算法的工作机制,包括特征选择和树的构建。接着,通过Python和PyTorch的实例代码展示了CART算法在实际问题中的应用。...
-
吴恩达AIGC《How Diffusion Models Work》笔记
1. Introduction Midjourney,Stable Diffusion,DALL-E等产品能够仅通过Prompt就能够生成图像。本课程将介绍这些应用背后算法的原理。 课程地址:https://learn.deeplearning...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
【Stable Diffusion】FID、CLIP、cfg-scales都是什么
在stable-diffusion 仓库中,是这样评价模型的。 Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7....
-
探索AIGC人工智能(Midjourney篇)(三)
文章目录 Midjourney出图如何转高清图 Midjourney生成3D质感图标 Midjourney生成微信表情包 MJ设置Niji5漫画模式 Midjourney探索美食摄影的奇妙之旅 Midjourney蛋糕创意设计 M...
-
动手做个mini智能助理--数据准备(2)
背景: 这部分会介绍如何准备自己的数据,利用chatgpt的self-instruct的方式批量的生成平行语料对。chatgpt有超强的生成能力,并且chatgpt的生成结果有经过harmless、种族歧视、不和法规的过审过滤。所以我们可以考虑是...
-
LLaMA-7B微调记录
Alpaca(https://github.com/tatsu-lab/stanford_alpaca)在70亿参数的LLaMA-7B上进行微调,通过52k指令数据(https://github.com/tatsu-lab/stanford_alpaca/...
-
部署lawyer-llama
Git - Downloading PackageGit - Downloading PackageGit - Downloading Package 下载git,wget需要下载一下 (GNU Wget 1.21.4 for Windows), Wi...
-
【深度学习 AIGC】stable diffusion webUI 使用过程,参数设置,教程,使用方法
文章目录 docker快速启动 vae .ckpt或者.safetensors CFG指数/CFG Scale 面部修复/Restore faces Refiner Tiled VAE Clip Skip prompt提示词怎么写 roop U...
-
Golang 与 OpenCV库:如何实现人脸识别?
在Go语言中,要实现人脸识别,通常需要使用OpenCV库。一个常用的Go语言OpenCV绑定是gocv。以下是一个基本的人脸识别的示例代码: 首先,您需要安装gocv库: go get -u gocv.io/x/gocv 接下来,以下是一个使用gocv和...
-
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)
文章目录 LLaMA大模型及其衍生模型 1. LLaMA 2. stanford_alpaca 3. ChatDoctor 4. alpaca-lora 5. Chinese-LLaMA-Alpaca 6. BELLE 大模型综述 A Su...
-
stable-diffusion 预训练模型汇总
目前各个github上各个库比较杂乱,故此做些整理方便查询 Stable UnCLIP 2.1 New stable diffusion finetune (Stable unCLIP 2.1, Hugging Face at 768x768 re...
-
【文生图系列】 Stable Diffusion v1复现教程
文章目录 Stable Diffusion v1 环境配置 权重下载 txt2img bug 超参数 Diffusers 参考 Stable Diffusion v1 stable diffusion是一个潜在的文本到图像...