-
万字长文|LLM大模型基础入门(非常详细)从入门到精通系列之:(三)Transformer 架构
...
-
黎曼猜想突破作者首次公开讲解,陶哲轩送上总结
昨天,有关试证黎曼猜想的新研究又一次引爆了数学圈。 MIT 数学教授 Larry Guth 和牛津大学数学研究所教授、2022 菲尔兹奖得主 James Maynard 撰写论文《New large value estimates for Dirichl...
-
可解释性人工智能:解释复杂的AI/ML模型
译者 | 李睿 审校 | 重楼 人工智能(AI 和机器学习(ML 模型如今变得越来越复杂,这些模型产生的输出是黑盒——无法向利益相关者解释。可解释性人工智能(XAI)旨在通过让利益相关者理解这些模型的工作方式来解决这一问题,确保他们理解这些模型实际上是如...
-
PVTransformer: 可扩展3D检测的点到体素Transformer
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接:https://arxiv.org...
-
如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人理解 自动驾驶的基础任务之一是三维目标检测,而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合,又或者是毫米波雷达和相机融合,其最主要的目的就是...
-
3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战
本文经自动驾驶之心公众号授权转载,转载请联系出处。 作为点集合的点云有望在3D重建、工业检测和机器人操作中,在获取和生成物体的三维(3D)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获取的...
-
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10...
-
政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成
小伙伴们好,咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。 考虑计算机性能的因素,这次咱们在Colab上进行,Colab您可以理解为在线版的Jupyter Notebook,还不熟悉Jupyter的的小伙伴可以...
-
AIGC实战——能量模型(Energy-Based Model)
AIGC实战——能量模型 0. 前言 1. 能量模型 1.1 模型原理 1.2 MNIST 数据集 1.3 能量函数 2. 使用 Langevin 动力学进行采样 2.1 随机梯度 Langevin 动力学 2.2 实现 Langevin...
-
AIGC:使用变分自编码器VAE实现MINIST手写数字生成
1 变分自编码器介绍 变分自编码器(Variational Autoencoders,VAE)是一种生成模型,用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器(Autoencoder)的扩展,自编码器是一种用于将输入数据压缩为低维表示并再...
-
【书籍】强化学习第二版(英文版电子版下载、github源码)-附copilot翻译的中英文目录...
Python代码:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction 英文原版书籍下载:http://incompleteideas.net/bo...
-
CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列
CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer 内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet...
-
Video-LLaMA 论文精读
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型 引言 ...
-
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二...
-
突破Pytorch核心点,CNN !!!
哈喽,我是小壮! 创建卷积神经网络(CNN),很多初学者不太熟悉,今儿咱们来大概说说,给一个完整的案例进行说明。 CNN 用于图像分类、目标检测、图像生成等任务。它的关键思想是通过卷积层和池化层来自动提取图像的特征,并通过全连接层进行分类。 原理 1.卷...
-
DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes...
-
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言
1.摘要 我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号...
-
StableVideo:使用Stable Diffusion生成连续无闪烁的视频
使用Stable Diffusion生成视频一直是人们的研究目标,但是我们遇到的最大问题是视频帧和帧之间的闪烁,但是最新的论文则着力解决这个问题。 本文总结了Chai等人的论文《StableVideo: Text-driven consistency -...
-
21Dak攻击:计算机顶会PLDI‘23 针对语义依附代码模型的对抗攻击方法:Destroyer篡改输入程序,Finder寻找关键特征,Merger关键特征注入【网安AIGC专题11.22】
Discrete Adversarial Attack to Models of Code 写在最前面 一些对关系抽取和事件抽取相关的启发和思考 摘要 总结与展望 课堂讨论 研究背景与意义 对抗攻击 针对代码模型的对抗攻击 Semanti...
-
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
Active Code Learning: Benchmarking Sample-Efficient Training of Code Models 写在最前面 论文名片 先验知识的补充 主动学习 采样函数 benchmark基准和base...