对比学习 - AIGC资讯

自监督学习：让ai从无标签数据中自主学习

标题：自监督学习：让AI从无标签数据中自主学习在人工智能的浩瀚宇宙中，监督学习曾长期占据主导地位，它依赖于大量标注精确的数据来训练模型，从而实现高精度的预测或分类任务。然而，随着数据量的爆炸式增长和标注成本的高昂，人们开始探索如何在缺乏明确标签的情况下，让...

人工智能 2025-08-02 人工智能

882阅读

自监督学习：减少对标注数据的依赖

自监督学习：减少对标注数据的依赖在人工智能和机器学习的广阔领域中，数据标注一直是一个核心而复杂的环节。传统的监督学习方法依赖于大量经过精心标注的数据来训练模型，然而，高质量的标注数据往往稀缺且成本高昂。为了解决这一问题，自监督学习作为一种新兴范式，正逐渐...

AIGC 2025-06-26 人工智能

901阅读

【记录贴 | 持续更新】搜广推/aigc 面试题记录

目录 nlp/搜广推 transformer结构？位置编码的作用？解释 self-attention？ attention中 /√(d_k 的作用是什么？解释Multi-Head Attention？ FeedForward的作用...

AIGC 2024-09-28 人工智能

1858阅读

#Datawhale X 魔搭 AI 夏令营# AIGC文生图 Task2

1. 什么是AI生图一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何生成符合语义的图片。通俗来说，AI生图模型获得图片生成能力主要是通过学习图...

大数据 2024-09-10 人工智能

920阅读

LongLLaMA：扩展上下文处理能力的大型语言模型

LongLLaMA：扩展上下文处理能力的大型语言模型 long_llamaLongLLaMA is a large language model capable of handling long contexts. It is based on Ope...

人工智能 2024-09-04 人工智能

1035阅读

AIGC大模型产品经理高频面试大揭秘‼️

近期有十几个学生在面试大模型产品经理（薪资还可以，详情见下图），根据他们面试（包括1-4面）中出现高频大于3次的问题汇总如下，一共32道题目（有答案）。 29.讲讲T5和Bart的区别，讲讲Bart的DAE任务 T5（Text-to-Text Tr...

人工智能 2024-08-31 人工智能

1143阅读

ECCV2024 | 小成本微调CLIP大模型！CLAP开源来袭：零样本和少样本训练有救了！

论文链接：https://arxiv.org/pdf/2311.16445 代码链接：https://github.com/YichaoCai1/CLAP 亮点直击解耦潜在内容和风格因素：本文提出了一种通过对比学习和数据增强，从因果角度微...

人工智能 2024-08-27 人工智能

1308阅读

Stable Diffusion 使用详解（2）---- 图生图原理，操作，参数

目录背景图生图原理基本原理 1. 扩散模型基础 2. 图生图的具体流程 3. 关键技术点 4. 应用实例 CLIP 原理 1.基本概念 2. 核心特点使用及参数随机种子重绘幅度图像宽高采样方法 1. DPM（...

AIGC 2024-08-04 人工智能

1147阅读

论文研读｜以真实图像为参考依据的AIGC检测

前言：这篇文章介绍几篇AIGC检测的相关工作，均是以真实图像的特征作为标准进行检测。目录 Detecting Generated Images by Real Images Only (202311 arXiv Let Real...

大数据 2024-07-13 人工智能

1104阅读

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化！

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化！文章目录 0 论文工作 1 论文方法 2 效果 0 论文工作这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案...

大数据 2024-07-06 人工智能

942阅读

文献研读｜AIGC溯源场景及研究进展

前言：本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。相关文章：针对文生图模型的AIGC检测论文研读，参见此篇文章。如下图所示，在AIGC生成阶段，有4种溯源场景： 1）生成模型溯源训练数据 2）微调模型溯源预训练模型 3）AI...

生成式AI 2024-07-04 人工智能

1387阅读

AIGC 011-SAM第一个图像分割大模型-分割一切！

AIGC 011-SAM第一个图像分割大模型-分割一切！文章目录 0 论文工作 1论文方法 2 效果 0 论文工作这篇论文介绍了 Segment Anything (SA 项目，这是一个全新的图像分割任务、模...

人工智能 2024-07-03 人工智能

853阅读

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

嵌入模型是大型语言模型检索增强生成(RAG 的关键组成部分。它们对知识库和用户编写的查询进行编码。使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而，寻找或训练这样的嵌入模型往往是一项困难的任务，因为领域内的数据通常是稀缺的。但...

大数据 2024-07-02 人工智能

876阅读

stable diffusion 1.x 模型训练概述

本文主要介绍sd发展的第一阶段版本的模型架构和一些微调训练方法，后续版本SDXL，LCM 版本再写文章继续介绍 SD 1.x 版本模型结构 autoencoder(VAE ：encoder将图像压缩到latent空间，而decoder将latent解码...

生成式AI 2024-06-25 人工智能

1138阅读

Stable Diffusion原理

一、Diffusion扩散理论 1.1、 Diffusion Model（扩散模型） Diffusion扩散模型分为两个阶段：前向过程 + 反向过程前向过程：不断往输入图片中添加高斯噪声来破坏图像反向过程：使用一系列马尔可夫链逐步将噪声还原...

AIGC 2024-06-14 人工智能

1084阅读

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

在过去的几年里，Transformer架构在自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习中取得了显著的成就，几乎成为了AI领域的主导技术。然而，虽然Transformer架构及其众多变体在实践中取得了巨大成功，但其设计大多是基于经验的，...

人工智能 2024-06-06 人工智能

795阅读

时间序列分析的表示学习时代来了？

表示学习作为深度学习中的核心，近期越来越多的被应用到了时间序列领域中，时间序列分析的表示学习时代已经来了。本文为大家带来了2020年以来顶会的5篇时间序列表示学习相关的核心工作梳理。 1.Unsupervised Scalable Representa...

大数据 2024-06-03 人工智能

863阅读

如何将大型语言模型（LLM）转换为嵌入模型

译者 | 李睿审校 | 重楼实验证明，LLM2Vec模型在嵌入任务上具有更好的性能，它可以为组织开辟新的场所，并以非常低的成本快速创建专门的嵌入模型。嵌入模型已经成为大型语言模型(LLM 应用的重要组成部分，可以实现检测文本相似度、信息检索和聚类...

大数据 2024-05-30 人工智能

899阅读

百度推荐资源冷启动实践

一、内容冷启动概念及挑战百度 feed 推荐是一个月活数亿的综合信息流推荐平台。该平台涵盖了图文、视频、动态、小程序、问答等多种内容类型。它不仅提供类似于单列或双列的点选式推荐，还包括视频沉浸式等多种推荐形式。同时，推荐系统是一个多利益方的系统，不仅...

人工智能 2024-05-20 人工智能

1086阅读

Paper Digest | 基于原型学习的实体图谱预训练跨域推荐框架

可以看到，通过映射得到对应item相关的entity后，基于图谱推理流程，我们可以得到许多和映射得到的entity相关的高阶信息，如苹果这个公司有手机产品，而手机这类产品相关的公司有三星等，从而可以潜在的拉近和其他相关实体（如三星生产的手机等）间的关系。...

生成式AI 2024-05-11 人工智能

1002阅读

综述170篇「自监督学习」推荐算法，港大发布SSL4Rec：代码、资料库全面开源！

推荐系统对于应对信息过载挑战至关重要，它们根据用户的个人偏好提供定制化推荐。近年来深度学习技术极大地推动了推荐系统的发展，提升了对用户行为和偏好的洞察力。然而，由于数据稀疏性的问题，传统的监督学习方法在实际应用中面临挑战，这限制了它们有效学习用户表示的...

大数据 2024-05-09 人工智能

799阅读

超越BEVFormer！CR3DT：RV融合助力3D检测&跟踪新SOTA（ETH）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法（CR3DT）。基于激光雷达的方法已经为这一领域奠定了一个高标准，但是其高算力、高成本的缺陷制约了...

生成式AI 2024-04-24 人工智能

989阅读

基于因果推断的推荐系统：回顾和前瞻

本次分享的主题为基于因果推断的推荐系统，回顾过去的相关工作，并提出本方向的未来展望。为什么在推荐系统中需要使用因果推断技术？现有的研究工作用因果推断来解决三类问题（参见 Gao et al.的 TOIS 2023 论文 Causal Inference...

人工智能 2024-04-12 人工智能

1118阅读

AIGC-Stable Diffusion发展及原理总结

目录一. AIGC介绍 1. 介绍 2. AIGC商业化方向 3. AIGC是技术集合 4. AIGC发展三要素 4.1 数据 4.2 算力 4.3 算法 4.3.1 多模态模型CLIP 4.3.2 图像生成模型二. Stable...

生成式AI 2024-04-10 人工智能

1193阅读

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未...

大数据 2024-04-08 人工智能

956阅读

CLIP-BEVFormer：显式监督BEVFormer结构，提升长尾检测性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解目前，在整个自动驾驶系统当中，感知模块扮演了其中至关重要的角色，行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后，才能让自动驾驶系统中的下游规控模块做...

大数据 2024-03-26 人工智能

1230阅读

文生图的基石CLIP模型的发展综述

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里...

AIGC 2024-03-22 人工智能

1035阅读

华为天才少年谢凌曦：关于视觉识别领域发展的个人观点！

本文经自动驾驶之心公众号授权转载，转载请联系出处。最近，我参加了几个高强度的学术活动，包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流，我产生了许多想法，千头万绪，便希望把它们整理下来，供自己和同行们参考。当然，受限于...

AIGC 2024-03-20 人工智能

778阅读

Stable Diffusion——文生图界面参数讲解与提示词使用技巧

Clip终止层数什么是Clip CLIP（Contrastive Language-Image Pretraining）是由OpenAI于2021年开发的一种语言图像对比预训练模型。其独特之处在于，CLIP模型中的图像和文本嵌入共享相同的潜在...

AIGC 2024-03-15 人工智能

1706阅读

AIGC学习笔记——CLIP详解加推理

clip论文地址：https://arxiv.org/pdf/2103.00020.pdf clip代码地址：https://github.com/openai/CLIP 小辉问：能不能解释一下zero-shot? 小G答：零次学习（Zero...

大数据 2024-03-13 人工智能

1199阅读

怒斥Sora之后，LeCun放出「视觉世界模型」论文，揭示AI学习物理世界的关键

Sora 的发布让整个 AI 领域为之狂欢，但 LeCun 是个例外。面对 OpenAI 源源不断放出的 Sora 生成视频，LeCun 热衷于寻找其中的失误：归根结底，LeCun 针对的不是 Sora，而是 OpenAI 从 ChatGPT 到...

人工智能 2024-03-05 人工智能

871阅读

VideoPrism官网体验入口 AI视频理解编码器使用介绍

VideoPrism是一个通用的视频编码模型，可在各种视频理解任务上取得领先的性能，包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样，包含 3600 万高质量的视频-文本对，以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...

AIGC 2024-02-26 人工智能

866阅读

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。图片论文地址：https://a...

大数据 2024-02-26 人工智能

889阅读

AIGC音视频工具分析和未来创新机会思考

编者按：相较于前两年，2023年音视频行业的使用量增长缓慢，整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新，才能从这种“卷”的状态中脱离出来？LiveVideoStack 2023上海站邀请到了P...

人工智能 2024-02-18 人工智能

943阅读

AIGC：使用变分自编码器VAE实现MINIST手写数字生成

1 变分自编码器介绍变分自编码器（Variational Autoencoders，VAE）是一种生成模型，用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器（Autoencoder）的扩展，自编码器是一种用于将输入数据压缩为低维表示并再...

AIGC 2024-02-16 人工智能

1045阅读

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM （目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。持续更新：对于已经完成解读的会附上链接（有的会在一些场景做尝试，也会附上链接供大家快速参考结果...

大数据 2024-02-10 人工智能

1424阅读

AI绘画Stable Diffusion原理之扩散模型DDPM

前言传送门： stable diffusion：Git｜论文 stable-diffusion-webui：Git Google Colab Notebook部署stable-diffusion-webui：Git kaggle...

人工智能 2024-02-08 人工智能

1006阅读

【多模态】13、Vision-Language 模型在视觉任务中的调研

文章目录一、简介二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集三、迁移学习 3.1 使用 prompt tunin...

生成式AI 2024-02-05 人工智能

1174阅读

图感知对比学习提升多变量时间序列分类效果

今天给大家介绍一篇AAAI 2024中，由新加坡科技研究局（A*STAR）和新加坡南洋理工大学联合发表的时间序列分类工作，通过图感知对比学习改善多变量时间序列分类，取得了非常显著的效果提升。图片论文标题：Graph-Aware Contrasting...

大数据 2024-02-04 人工智能

1103阅读

击败OpenAI，权重、数据、代码全开源，能完美复现的嵌入模型Nomic Embed来了

一周前，OpenAI 给广大用户发放福利，在下场修复 GPT-4 变懒的问题后，还顺道上新了 5 个新模型，其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道，嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使...

AIGC 2024-02-04 人工智能

1197阅读

大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」

大模型的预训练需要耗费巨量的计算资源和数据，因而预训练模型的参数也正成为各大机构重点保护的核心竞争力和资产。然而，不同于传统的软件知识产权保护可以通过比对源代码来确认是否存在代码盗用，对预训练模型参数盗用的判断存在以下两方面的新问题： 1）预训练模型的...

生成式AI 2024-02-03 人工智能

916阅读

年龄两岁，教龄一年半：婴儿AI训练师登上Science

在公开采访中，图灵奖得主 Yann LeCun 多次提到，现在的 AI 模型和人类婴儿相比，学习效率实在是太低了。那么，如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西，它能学到什么？最近，Science 杂志上的一篇论文进行了初步尝试。研究发现，...

大数据 2024-02-02 人工智能

823阅读

Stable Diffusion（SD）核心基础知识——（文生图、图生图）

文章目录一、Stable Diffusion核心基础原理（一）Stable Diffusion模型工作流程（二）Stable Diffusion模型核心基础原理（三）Stable Diffusion的训练过程（四）其他主流生成式模型...

生成式AI 2024-02-01 人工智能

1724阅读

ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（三）

文章目录 ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（三） Text-to-Text 模型 ChatGPT LaMDA PEER Meta AI Speech f...

生成式AI 2024-01-31 人工智能

965阅读

一文教会你使用AI绘画利器Stable Diffusion！这可能是CSDN最全的AI绘画使用教程，建议收藏！

大家好，我是程序员晓晓随着 stable-diffusion 的开源，让更多人有机会直接参与到 AI 绘画的创作中，相关的教程也如雨后春笋般的出现。可是目前我看到的教程同质性较高，通常只能称作为"使用流程讲解"，但是通常没有对其原理和逻辑进行深入说明。...

AIGC 2024-01-28 人工智能

1926阅读

[论文精读] 自条件图像生成 - 【恺明大神新作，AIGC 新基准】

论文导读: 论文背景: 2023年8月，AI大神何恺明在个人网站宣布，2024年将加入MIT担任教职，回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文，论文一作本科毕业于清华姚班，二作为MIT电气工程与计算机科学系教授，今年的斯...

生成式AI 2024-01-23 人工智能

1017阅读

DALL·E 2 论文阅读笔记

《Hierarchical Text-Conditional Image Generation with CLIP Latents》 Paper: https://cdn.openai.com/papers/dall-e-2.pdf Proj...

人工智能 2024-01-23 人工智能

1049阅读

爆肝整理全网最全最新AI生成算法【Stable Diffusion｜Diffusion Model｜DallE2｜CLIP｜VAE｜VQGAN】原理解析

1、生成模型首先回顾一下生成模型要解决的问题：如上图所示，给定两组数据z和x，其中z服从已知的简单先验分布π(z （通常是高斯分布），x服从复杂的分布p(x （即训练数据代表的分布），现在我们想要找到一个变换函数f，它能建立一种z到x的映射f:z...

生成式AI 2024-01-23 人工智能

1505阅读

AI绘画与多模态原理解析：从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM

前言终于开写本CV多模态系列的核心主题：stable diffusion相关的了，为何执着于想写这个stable diffusion呢，源于三点去年stable diffusion和midjourney很火的时候，就想写，因为经常被刷屏，但那会时...

生成式AI 2024-01-19 人工智能

3044阅读

20源代码模型的数据增强方法：克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】

Data Augmentation Approaches for Source Code Models: A Survey 写在最前面对nlp领域其他方向的启发英文版：论文名片论文总结一个有意思的表 1.背景Background...

大数据 2024-01-18 人工智能

965阅读