-
AI大牛karpathy点赞SEAL榜单,LLM评估的状况过去是非常糟糕的!
lmsys.org的一个严肃的竞争对手已经加入了对LLMs(大型语言模型)评估的讨论中:SEAL Leaderboards——对领先前沿模型进行的私密、专家评估。 SEAL Leaderboards的设计原则: ?私密 + 无法被利用。在评估上不会过度拟...
-
Yolov10:详解、部署、应用一站式齐全!
一、前言 在过去的几年里,YOLOs由于其在计算成本和检测性能之间的有效平衡,已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等,取得了显著进展。然而,依赖非极大值抑制(NMS)进行后处理阻碍了YOLO的...
-
西浦、利物浦大学提出:点云数据增强首个全面综述
本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在读博士,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。 本文是对发表于模式识别领域顶刊Pattern Recognition 2024的...
-
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达...
-
效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 标注之殇 静态物体检测(Static object detection,SOD),包括交通信号灯、导向牌和交通锥,大多数算法是数据驱动深度神经网络,需要大量的训练数据。现在的做法通常是对大量的训练样本...
-
恐怖谷!哥大华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
此前,人形机器人Ameca「大梦初醒」的神情,已让许多人感受到了真正的「恐惧」。 随着ChatGPT横空出世,得到加持的人形机器人虽擅长语言交流,但是在非语言交流,特别是面部表情,还差得很远。 未来,如果人类真的要生活在一个充满机器人的世界之中,机器...
-
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
广阔的战场,风暴兵在奔跑…… prompt:Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成...
-
拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造
去年 5 月,动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽,我们可以改变并合成自己想要的图像,比如下图中让一头狮子转头并张嘴。 实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已...
-
来客推商城系统采集插件:电子商务新助手
随着互联网技术的不断发展,电子商务领域也在不断创新与进化。作为这一时代浪潮下的产物之一,“来客推商城系统采集插件”应运而生,旨在为各类电商企业提供更便捷、更高效的数据采集与分析工具。本文将详细探讨这款插件的功能特点、应用价值及其对电子商务领域的影响。一、来...
-
StableDrag官网体验入口 AI图像处理编辑操作方法指南教程
StableDrag是一种基于点的图像编辑框架,专门解决现有拖拽方法存在的不准确点跟踪和运动监督不完整的问题。该工具设计了一种判别式点跟踪方法和基于置信度的潜在增强策略,以提高长距离操作的稳定性,并确保编辑过程中优化的潜在表示质量。经过广泛的定性实验和Dr...
-
药物开发现代化之路:应用AI技术的经验和教训
发现并加快药物开发是笔大买卖,这个行业的运营成本很高,因此利用AI方法优化整个流程就成了这一快速发展行业中的首要考量因素。 德勤公司发现,其关注的全球20强生物制药企业中,去年新药开发的平均成本上涨了15%(增长数字为2.98亿美元),总额来到约23亿...
-
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法—— 直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。 图片 论文地址:https://arxiv.org/abs/2401.0188...
-
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。 目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另...
-
把图像视为外语,快手、北大多模态大模型媲美DALLE-3
当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快...
-
重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型
无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」: 或是「一只戴着 VR 眼镜的猫」: 就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。 这是港大与清华大学联合 3D 生成明星...
-
Llama 2: Open Foundation and Fine-Tuned Chat Models
文章目录 TL;DR Introduction 背景 本文方案 实现方式 预训练 预训练数据 训练细节 训练硬件支持 预训练碳足迹 微调 SFT SFT 训练细节 RLHF 人类偏好数据收集 奖励模型 迭代式微调(RLHF) 拒...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。 传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。 与此相反,在日常生活中,我们最常见...
-
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。 这种方法可以让任何基于文字提示的生成模型(比如文生图、文生3D等),通过一组参照图片来学习对应的视觉属性共性和变化的文本提示分布。...
-
AIGC之Image2Video(一)| Animate Anyone:从静态图像生成动态视频,可将任意图像角色动画化
近日,阿里发布了Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。 项目地址:https://humanaigc.github.io/animate-anyone/ 论文地址:https://ar...
-
顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成逼真表情与动作
当你和朋友隔着冷冰冰的手机屏幕聊天时,你得猜猜对方的语气。当 Ta 发语音时,你的脑海中还能浮现出 Ta 的表情甚至动作。如果能视频通话显然是最好的,但在实际情况下并不能随时拨打视频。 如果你正在与一个远程朋友聊天,不是通过冰冷的屏幕文字,也不是缺乏表情...
-
面部图像修复突破性AI方法Dual-Pivot Tuning 实现人脸模糊变高清
图像修复一直是一个备受研究者关注的复杂挑战,其主要目标是在维持降质输入的感知质量的同时,创建视觉上吸引人且自然的图像。在没有有关主题或降质的信息的情况下(盲目恢复),了解自然图像范围至关重要。为了恢复面部图像,必须在确保输出保留个体独特面部特征之前包含身份...
-
AI论文范文:AIGC中的图像转视频技术研究
声明: ⚠️本文由智元兔AI写作大师生成,仅供学习参考智元兔-官网|一站式AI服务平台|AI论文写作|免费论文扩写、翻译、降重神器 1 引言 1.1 AIGC技术背景介绍 1.2 图像转视频技术的重要性与应用场景 1.3 研究动机与目标 2...
-
打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 图片 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 图片 如此惊人的图片实时生成速度,便是来自UC伯克利、...
-
单张4090,1秒100张二次元小姐姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学...
-
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图...
-
What the DAAM: Interpreting Stable Diffusion Using Cross Attention
What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading Raphael Tang, Comcast Applied AI, ACL2023 b...
-
230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响
前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。 11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4...
-
Stable Diffusion - 扩展 Roop 换脸 (Face Swapping) 插件的配置与使用
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131856141 官网:GitHub - roop,参考论文:Ro...
-
用过GPT-4 Turbo以后,我们再也回不去了
昨天,很多人彻夜未眠 —— 全球科技圈都把目光聚焦在了美国旧金山。 短短 45 分钟时间里,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。 OpenAI 在本周...
-
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
AI黑盒如何才能解? 神经网络模型在训练的时,会有些ReLU节点「死亡」,也就是永远输出0,不再有用。 它们往往会被被删除或者忽略。 恰好赶上了模糊了生与死的界限的节日——万圣节,所以这是探索那些「死节点」的好时机。 对于大多数图像生成模型来说,会输出正...
-
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
国内大模型创业公司,正在技术前沿创造新的记录。 10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token。 这相当于让大模型一次处理约 35 万个汉字,长度...