提取器 - AIGC资讯

数据挖掘中的神经网络与深度学习

标题：数据挖掘中的神经网络与深度学习：探索智能分析的前沿随着信息技术的飞速发展，数据已成为21世纪最宝贵的资源之一。如何从海量、复杂的数据中挖掘出有价值的信息，成为企业决策、科学研究乃至日常生活的重要课题。在这一背景下，数据挖掘技术应运而生，其中，神经网络...

AIGC 2025-06-21 大数据

897阅读

探索无限创意：基于C++的Stable Diffusion图像生成库

探索无限创意：基于C++的Stable Diffusion图像生成库 axodox-machinelearning This repository contains a C++ ONNX implementation of StableDiffus...

AIGC 2024-10-03 人工智能

1414阅读

大模型之二十七-语音识别Whisper实例浅析

Whisper简介 Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其...

AIGC 2024-09-05 人工智能

2707阅读

Stable Diffusion绘画 | ControlNet应用-Lineart(线稿)：轻轻松松画线稿

Lineart(线稿专门用来提取线稿的算法。适合对漫画图片进行提取线稿：不同的预处理器： lineart_standard：适合各种类型的画面 lineart_realistic：适合用于真人图片的线稿提取 lineart_coar...

AIGC 2024-09-03 人工智能

1699阅读

AIGC前沿 | LivePortrait

0. 资源链接论文超链接: LivePortrait 项目: https://github.com/KwaiVGI/LivePortrait 1. 背景动机现有AIGC存在的问题随着智能手机和其他录制设备的普及，人们越来越频繁地...

人工智能 2024-08-14 人工智能

1062阅读

论文研读｜以真实图像为参考依据的AIGC检测

前言：这篇文章介绍几篇AIGC检测的相关工作，均是以真实图像的特征作为标准进行检测。目录 Detecting Generated Images by Real Images Only (202311 arXiv Let Real...

大数据 2024-07-13 人工智能

1101阅读

文献研读｜AIGC溯源场景及研究进展

前言：本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。相关文章：针对文生图模型的AIGC检测论文研读，参见此篇文章。如下图所示，在AIGC生成阶段，有4种溯源场景： 1）生成模型溯源训练数据 2）微调模型溯源预训练模型 3）AI...

生成式AI 2024-07-04 人工智能

1387阅读

论文研读｜针对文生图模型的AIGC检测

前言：人工智能生成内容的鉴别（AIGC检测）算是当前的研究热点之一，本篇文章介绍几篇针对文生图模型的 AIGC 检测相关工作。相关文章：AIGC溯源相关研究详见此篇文章目录 1. Towards Universal Fake...

AIGC 2024-07-03 人工智能

1446阅读

每日AIGC最新进展(28)：鹏城实验室提出连贯的故事生成框架StoryImager、浙大强化学习提升扩散模型生成质量算法PXPO、谷歌提出生成中文/日文/韩文字符的扩散模型

Diffusion Models专栏文章汇总：入门与实战 StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion...

AIGC 2024-06-25 人工智能

840阅读

AI画连环画角色更一致了！人物之间的复杂互动也能处理｜中山大学&联想团队出品

让AI画漫画角色保持一致的新研究来了! 创作的连环画效果belike: 频繁切换主体、人物之间复杂的互动也能保持角色一致性: 上述效果来自AutoStudio，是一个由中山大学和联想团队联合提出的无需训练的多智能体协同框架。 AutoStudio采用基...

大数据 2024-06-16 人工智能

991阅读

实时局部建图的深入思考 | MapTR继往开来的18篇论文剖析！

本文经自动驾驶之心公众号授权转载，转载请联系出处。实时局部建图领域自从端到端方案MapTR(2023.1 [1]问世后已经又涌现出非常多优秀的工作,基本是在MapTR基本框架的基础上进行一系列改进,包括原班人马的升级作品MapTRv2(2023.8 ...

人工智能 2024-06-04 人工智能

1641阅读

Stable Diffusion高级教程 - 图生图(img2img)模式

前言现在终于可以介绍 Stable Diffusion 除了文生图 (txt2img 之外最重要的功能：图生图 (img2img 。顾名思义，除了根据正向和反向提示词之外，还需要基于一张图片生成图。这个模式下功能很多我们挨个说 img2img 图...

生成式AI 2024-06-04 人工智能

886阅读

CVPR'24 Oral | 一览纯稀疏点云检测器SAFDNet的前世今生！

写在前面&笔者的个人理解 3D点云物体检测对自动驾驶感知至关重要，如何高效地从稀疏点云数据中学习特征表示是3D点云物体检测面临的一个关键挑战。我们在本文中将会介绍团队发表在NeurIPS 2023的HEDNet和CVPR 2024的SAFDNet...

人工智能 2024-05-17 人工智能

980阅读

牛津大学最新！Mickey：3D中的2D图像匹配SOTA！(CVPR'24)

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面项目链接：https://nianticlabs.github.io/mickey/ 给定两张图像，可以通过建立图像间的对应关系来估计它们之间的相机相对姿态。通常，这些对应关系是二维到二维的...

AIGC 2024-04-23 人工智能

845阅读

Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

Meta AI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。为了克服这些限制，研究人员提出了MA-LMM，...

生成式AI 2024-04-12 人工智能

1134阅读

标题：探索AI绘画：使用深度学习生成艺术

正文：随着计算机技术的发展，人工智能在各个领域取得了显著的成果。通过训练深度学习模型，AI可以学习大量的艺术作品，从而生成具有独特风格和创意的新作品。本文将介绍如何使用Python和TensorFlow实现一个简单的AI绘画程序。...

生成式AI 2024-04-09 人工智能

864阅读

谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档（VRDs）中，高效信息提取(IE 的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然...

生成式AI 2024-04-08 人工智能

814阅读

RV融合性能拉爆！RCBEVDet：Radar也有春天，最新SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息，这种方法因无法精确捕获深度信息和在恶劣天...

人工智能 2024-04-02 人工智能

985阅读

两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

广阔的战场，风暴兵在奔跑…… prompt：Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频（text-to-video）模型，尽管 AI 生成...

生成式AI 2024-03-27 人工智能

820阅读

清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星

在自然语言处理中，有很多信息其实是重复的。如果能将提示词进行有效地压缩，某种程度上也相当于扩大了模型支持上下文的长度。现有的信息熵方法是通过删除某些词或短语来减少这种冗余。然而，作为依据的信息熵仅仅考虑了文本的单向上下文，进而可能会遗漏对于压缩至关...

生成式AI 2024-03-25 人工智能

913阅读

小红书多模态团队建立新「扩散模型」：解码脑电波，高清还原人眼所见

近些年，研究人员们对探索大脑如何解读视觉信息，并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文，通过扩散模型重建视觉影像，给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么，并且帮你画了出来。第一行：人眼所见画面，第二...

人工智能 2024-03-19 人工智能

1294阅读

优于所有方法！HIMap：端到端矢量化HD地图构建

本文经自动驾驶之心公众号授权转载，转载请联系出处。矢量化高清（HD）地图构建需要预测地图元素的类别和点坐标（例如道路边界、车道分隔带、人行横道等）。现有技术的方法主要基于点级表示学习，用于回归精确的点坐标。然而，这种pipeline在获得elemen...

AIGC 2024-03-19 人工智能

882阅读

淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案

近几个月，随着基于Stable Diffusion的相关技术发展，基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中，人像定制化是指：给定任务角色（参考图），通过提示词控制生成多样新的图像，并且图像...

AIGC 2024-03-18 人工智能

946阅读

网页小说采集与下载全攻略

随着网络文学的繁荣，越来越多的人喜欢在网上阅读小说。然而，网络的不稳定性以及版权问题时常让读者面临无法持续阅读或内容被删除的困境。因此，学会如何采集和下载网页小说成为了许多读者的迫切需求。本文将详细介绍网页小说的采集与下载方法，帮助读者轻松获取喜欢的小说资...

大数据 2024-03-14 大数据

9074阅读

AIGC学习笔记——CLIP详解加推理

clip论文地址：https://arxiv.org/pdf/2103.00020.pdf clip代码地址：https://github.com/openai/CLIP 小辉问：能不能解释一下zero-shot? 小G答：零次学习（Zero...

大数据 2024-03-13 人工智能

1197阅读

1.3ms耗时！清华最新开源移动端神经网络架构 RepViT

论文地址：https://arxiv.org/abs/2307.09283 代码地址：https://github.com/THU-MIG/RepViT 可以看出，RepViT 相比于其它主流的移动端 ViT 架构确实时很优异。接下来让我们来看下本工...

AIGC 2024-03-11 人工智能

1019阅读

Sora还没开源，但这家国产AIGC视频公司已经靠还原现实赚钱了

最近AIGC的落地，又有了一些热议和争论。在金沙江创投主管合伙人朱啸虎的爆款采访中，他表达了对自研大模型商业闭环的悲观，但又坚定地表示非常看好应用，“我信仰AGI，但我信仰应用啊，信仰能马上商业化的。” 在他的犀利表达中，一家应用公司意外走红。它就是A...

人工智能 2024-03-11 人工智能

818阅读

万字长文！AIGC 时代数字图像水印的进展与实践 | 新程序员

【导读】数字水印是信息安全领域的新技术，用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理，分为空域和变换域方法。本文介绍了数字图像水印的发展与实践，包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水...

大数据 2024-03-02 人工智能

1453阅读

如何使用TensorFlow和Cleanvision检测大堡礁的海星威胁？

澳大利亚的大堡礁美不胜收，是全球最大的珊瑚礁，也是多种多样的海洋生物栖息的家园。不幸的是，珊瑚礁面临蚕食珊瑚的棘冠海星（COTS）的威胁。为了控制COTS爆发，珊瑚礁管理人员使用一种名为Manta Tow勘查的方法，将潜水员拖在船后，目测评估珊瑚礁的各...

生成式AI 2024-02-17 人工智能

1431阅读

【AIGC】Diffusers:加载管道、模型和调度程序

前言拥有一种使用扩散系统进行推理的简单方法对于?扩散器至关重要。扩散系统通常由多个组件组成，例如参数化模型、分词器和调度器，它们以复杂的方式进行交互。这就是为什么我们设计了 DiffusionPipeline，将整个扩散系统的复杂性包装成一个易于使用的...

人工智能 2024-02-10 人工智能

1659阅读

AI破译2000年前「上古卷轴」登Nature头版！21岁计算机天才，谷歌华人工程师共获大奖

2000年前碳化的古卷轴，如今成功被AI破译！背后三人团队还拿下70万美元大奖！ AI在考古领域的重大进步，甚至登上了今天Nature的头版。要说这件事的起源，还得追溯到公元79年一次火山爆发，直接将一座珍藏古老的纸莎草卷轴——Herculaneu...

人工智能 2024-02-06 人工智能

799阅读

【AI绘画】stable diffusion原理解读，通俗易懂，直接喂到你嘴里！！！

手把手教你入门绘图超强的AI绘画，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新保姆级教程资料包（文末可获取）文章目录一、前言（可跳过）二、stable diffusion 1.clip 2...

AIGC 2024-02-04 人工智能

1099阅读

FaceChain-FACT怎么使用零成本AI人像生成工具使用方法教程指南

FaceChain-FACT是一款领先的零成本人像生成工具，无需用户训练LoRA模型，仅需用户提供一张照片即可生成定制人像。相比其他商业应用，我们的生成速度提升了 100 倍，支持秒级图像生成。我们集成了基于Transformer的人脸特征提取器，其结构类...

AIGC 2024-02-02 人工智能

945阅读

南大周志华团队8年力作！「学件」系统解决机器学习复用难题，「模型融合」涌现科研新范式

HuggingFace是目前最火热的机器学习开源社区，汇集30万个不同的机器学习模型，有超过10万个应用可供用户访问和使用。如果HuggingFace上这30万个模型，可以自由组合，共同完成新的学习任务，那会是一种什么样的画面？其实在HuggingF...

大数据 2024-01-31 人工智能

1019阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，并提供...

大数据 2024-01-27 人工智能

1212阅读

AIGC内容分享(三十五)：AIGC赋能的“秒鸭相机”到底有多强？

目录 01-FaceChain算法简介 02-FaceChain-FACT算法简介 03-FaceChain算法流程 04-FaceChain-FACT算法流程 05-FaceChain算法应用场景 06-FaceChain环境搭建与运...

AIGC 2024-01-25 人工智能

882阅读

迈向分割的大一统！OMG-Seg：一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一；大模型以及多模态的发展又带来了文本和图像统一，使得跨模态端到端成为可能；追求更高级、更全面...

生成式AI 2024-01-24 人工智能

1175阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，...

AIGC 2024-01-18 人工智能

1204阅读

【Stable diffusion inpaiting】训练自己数据集

https://github.com/advimman/lama/tree/7dee0e4a3cf5f73f86a820674bf471454f52b74f prepare your data: 1 Create masks named as `[...

大数据 2024-01-18 人工智能

871阅读

【stable diffusion原理解读通俗易懂，史诗级万字爆肝长文，喂到你嘴里】

文章目录一、前言（可跳过）二、stable diffusion 1.clip 2.diffusion model forward diffusion （前向扩散）逆向扩散（reverse diffusion）采样图阶段小结 3....

人工智能 2024-01-16 人工智能

871阅读

AI人像生成零成本图像处理软件下载地址 FaceChain-FACT官网体验入口

FaceChain-FACT是一个创新的零成本人像生成工具，为用户提供了一种简便、高效的方式来生成定制化的人像。这款工具的特点是用户无需训练LoRA模型，只需提供一张照片，FaceChain-FACT就能迅速生成定制人像。它集成了基于Transformer...

人工智能 2024-01-16 人工智能

1102阅读

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单...

生成式AI 2024-01-16 人工智能

825阅读

WAIC2023| AIGC究竟在向善还是向恶而行？

目录一、常见图像篡改技术二、传统篡改图像检测方法 2.1、基于光源和噪声的拼接图像篡改检测方法 2.2、基于马尔科夫特征的检测方法三、基于深度学习的图像篡改检测方法 3.1、基于Fisher编码和SVM模型的方法 3.2、基于...

AIGC 2024-01-15 人工智能

995阅读

【AI绘画】探索艺术与技术的融合：AI绘画的新前景

AI绘画的新前景 1.AI绘画是把双刃剑 2.AI绘画的应用场景 3.AI绘画的技术 4.结语随着人工智能（AI）技术的快速发展，AI绘画成为了艺术创作领域中备受关注的话题。传统的艺术创作方式受到了AI技术的冲击，为艺术家和观...

AIGC 2024-01-02 人工智能

927阅读

谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐

谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作，提出了一种名为PixelLLM的智能模型，旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发，尤其是婴儿描述其视觉环境的方式，包括手势、指向和命名。 Pix...

生成式AI 2023-12-19 人工智能

891阅读

AIGC系列之：CLIP和OpenCLIP

目录模型背景 CLIP模型介绍相关资料原理和方法 Image Encoder Text Encoder 对比学习预训练 Zero Shot预测优势和劣势总结 OpenClip模型介绍相关资料原理结果用法...

人工智能 2023-12-17 人工智能

3150阅读

Stable Diffusion入门笔记（自用）

学习视频：20分钟搞懂Prompt与参数设置，你的AI绘画“咒语”学明白了吗？ | 零基础入门Stable Diffusion·保姆级新手教程 | Prompt关键词教学_哔哩哔哩_bilibili 1.图片提示词模板 2.权重（提示词）...

生成式AI 2023-12-11 人工智能

1016阅读

RangePerception：Range View3D检测新思路！

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection 论文链接：htt...

大数据 2023-12-07 人工智能

809阅读

腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

在多模态大型语言模型（MLLMs）领域取得显著进展的同时，尽管在输入端多模态理解方面取得了显著进展，但在多模态内容生成领域仍存在明显的空白。为填补这一空白，腾讯人工智能实验室与悉尼大学联手推出了GPT4Video，这是一个统一的多模态框架，赋予大型语言模型...

大数据 2023-12-07 人工智能

969阅读

【AIGC】【AI绘画】controlNet介绍（原理+使用）

文章目录安装教程 1.环境安装 2. 下载预训练的模型文件 3.运行（生成可视化界面） 1、ControlNet：AI绘画 1.1、ControlNet的本质是文生图(txt2img 2.2、预处理器 & 模型选择 1.3、参...

大数据 2023-11-30 人工智能

1741阅读