-
年龄两岁,教龄一年半:婴儿AI训练师登上Science
在公开采访中,图灵奖得主 Yann LeCun 多次提到,现在的 AI 模型和人类婴儿相比,学习效率实在是太低了。那么,如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西,它能学到什么? 最近,Science 杂志上的一篇论文进行了初步尝试。研究发现,...
-
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。 目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另...
-
关于推荐系统,有六大让人震惊的“秘密”
推荐系统自1992 年代诞生以来, 到2024 年的今天已经有32 年的发展历程。在这几十年的发展历程中,各个互联网和科技公司上线过数以百万计的推荐系统模型。尽管推荐系统经历过 2012 到 2014 年的发展低潮,但很快就被后起之秀快手和字节跳动一改颓...
-
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4...
-
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
How Effective Are Neural Networks for Fixing Security Vulnerabilities 写在最前面 摘要 贡献 发现 介绍 背景:漏洞修复需求和Java漏洞修复方向 动机 方法 贡献...
-
最强开源多模态生成模型MM-Interleaved:首创特征同步器
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。 最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科...
-
Depth Anything:释放大规模无标注数据的深度估计
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年1月论文“Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data“,来自香港大学、字节、浙江实验室和浙江大学。 这项...
-
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。 近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...
-
大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增
大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。 一般来讲,这些模型压缩技术可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝...
-
把图像视为外语,快手、北大多模态大模型媲美DALLE-3
当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快...
-
微软开发新型大模型压缩方法SliceGPT
SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达25%的模型参数(包括嵌入)。 这意味着使用SLICE...
-
GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板
当你让大模型写一首「莎士比亚十四行诗」,并以严格的韵律「ABAB CDCD EFEF GG」执行。 同时,诗中还要包含提供的3个词。 对于这么高难度的创作题,LLM在收到指令后,并不一定能够按要求做出这首诗。 正所谓,人各有所长,LLM也是如此,仅凭单...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
# ext-to-speech|tts|voice-cloning|AIGC|多模态#【有图文部署】GPT-SoVits:上线一周就获得了4.1k star!效果炸裂的开源跨语言音色克隆模型!
一周前,RVC变声器创始人(GitHub昵称:RVC-Boss)发布了一款新项目,名为GPT-SoVITS。这个项目一上线就受到了互联网大佬和博主的好评推荐,仅仅在不到一周的时间里,就已经在GitHub上积累了4.1k Star。 据说,该项目是RVC-...
-
推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历
去年12月,CMU和普林斯顿的2位研究者发布了Mamba架构,瞬间引起AI社区震动! 结果,这篇被众人看好有望「颠覆Transformer霸权」的论文,今天竟曝出疑似被顶会拒收?! 今早,康奈尔大学副教授Sasha Rush最先发现,这篇有望成为奠基之作...
-
NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜
近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。 在NeurIPS会议总共接受的3586篇论文之中,除去6篇获奖论文,其他论文也同样优秀和具有潜力,甚至有可能预示着下一个AI领域的新突破...
-
Mamba论文为什么没被ICLR接收?AI社区沸腾了
基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。 2023年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」,它是一种选择性状态空间模型( selective state s...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
「think step by step」还不够,让模型「think more steps」更有用
如今,大型语言模型(LLM)及其高级提示策略的出现,标志着对语言模型的研究取得了重大进展,尤其是在经典的 NLP 任务中。这其中一个关键的创新是思维链(CoT)提示技术,该技术因其在多步骤问题解决中的能力而闻名。这项技术遵循了人类的顺序推理,在各种挑战中...
-
Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法 插件的配置与使用
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131918652 Paper and GitHub:...
-
买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
「xx,去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中,很多家庭成员都不免被支使干这种活儿。甚至有时候,宠物狗也难以幸免。但人总有支使不动的时候,宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。 最近,纽约大学、Meta 研发出...
-
GPT与文心一言大模型的比较与展望
目录 前言 1 GPT和文心一言简介 2 GPT和文心一言的技术原理和基础架构 3 GPT和文心一言的模型规模和参数数量 4 GPT和文心一言的语言理解表现 5 展望GPT和文心一言未来的发展 5.1 技术改进 5.2 应用扩展 结语...
-
DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2
自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要集中于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。 开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域...
-
2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈
本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。 以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。 如需查看其他热门论文,欢迎移步saibo...
-
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...
-
Code Llama: Open Foundation Models for Code
本文是LLM系列文章,针对《Code Llama: Open Foundation Models for Code》的翻译。 Code Llama:代码的开放基础模型 摘要 1 引言 2 Code Llama:专业化Llama2用于代码 3...
-
针对特定领域较小的语言模型是否与较大的模型同样有效?
经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs f...
-
AIGC内容分享(二十):「AI视频生成」技术核心基础知识和模型应用
目录 何为AI视频? 一、技术发展概况 二、代表模型及应用 三、仍存在许多技术难点 何为AI视频? 「AI视频」通常指的是由人工智能(AI)技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质...
-
英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大
昨天,Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天,英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下,在 10...
-
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
选自 HuggingFace 博客 编译:赵阳 专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。 早些时候,有人爆料...
-
【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM
文章目录 一、Intruduction 二、Segment Anything Task 三、Segment Anything Model 四、Segment Anything Data Engine 五、Segment Anything Dat...
-
OpenVoice官网体验入口 开源AI语音克隆技术在线使用教程指南
OpenVoice是一款开源的语音克隆技术,专门设计用于准确地克隆参考音色,并生成多种语言和口音的语音。它的特点在于能够灵活控制语音风格,如情感、口音等参数,以及节奏、停顿和语调等。此外,OpenVoice实现了零样本跨语言语音克隆,即在没有将生成语音和参...
-
AIGC学习笔记(1)——AI大模型提示词工程师
文章目录 AI大模型提示词工程师 1 Prompt工程之原理 1.1 AIGC的发展和产业前景 前言 AIGC时代的到来 发展趋势和应用展望 1.2 大模型的类型和特点 大模型的对比 上手 特点 1.3 大模型技术原理和发展 成语...
-
GPT-SoVITS体验入口地址 AI语音克隆软件分享
GPT-SoVITS是一个强大的语音转换软件。该产品具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能,可用于语音转换、语音合成、语音处理等场景。GPT-SoVITS的体验下载入口在哪呢,这里我们来看GPT-SoVITS的官方体验入口。 &...
-
GPT-SoVITS体验入口 AI声音克隆工具软件免费下载地址
GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI工具。它提供了零样本TTS、少样本TTS、跨语言支持等功能,并且支持英语、日语和中文。GPT-SoVITS-WebUI提供了一系列集成工具,包括语音伴奏分离、自动训练集分割、中...
-
Stable Diffusion扩散模型 + Consistency一致性模型
1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过程(正向) 去噪过程(反向) 总结 优化目标 理论推导 代码解析 2.2 Stable Diffu...
-
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting
Lag-Llama: Towards Foundation Models for Time Series Forecasting 摘要 本文提出Lag-Llama,在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取...
-
杰克逊跳舞秒变3D机器人!阿里又出新活儿,视频任何人可替换
这究竟是怎么回事? 原来啊,阿里又整出新活儿—— MotionShop,能将视频中的人物角色替换成3D形象,同时又不改变其他场景和人物。 比如,打工仔小猪打太极。 看到这有人已经迫不及待了。目前已在ModelScope社区开放试玩。 还有人建议说在Hu...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
OpenAI开源全新解码器和语音识别模型Whisper-v3
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。 据悉,Consistency Decoder可以替代Sta...
-
广义人工智能时代:通往通用人工智能(AGI)之路
人工智能(AI 将于2024年进一步改进,大型语言模型有望进一步发展。 2023年对于人工智能和生成式人工智能来说是激动人心的一年,特别是那些采用大型语言模型(LLM 架构的人工智能,比如来自开放人工智能(GPT 4 、Anthropic(Claud...
-
AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用
大家好,我是猫先生,AI技术爱好者与深耕者!! 2022年是AIGC(生成式AI)元年!从这一年开始,可谓是百家争鸣,各种技术层出不穷,再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众...
-
Speaking AI官网体验入口 AI声音克隆工具软件网页版app免费使用地址
Speaking AI是一款利用先进大语言模型技术实现文本到语音转换的工具。它不仅能以自然的情感进行对话,还实现了零样本语音克隆,能够捕捉并复制独特的音调、音高和调节。这一突破性技术让语音克隆听起来更加自然,是个人创作和娱乐场景的理想选择。 点击前往Sp...
-
可协助 AI 语言模型改善自我纠错能力,谷歌推出 BIG-Bench Mistake 数据集
IT之家 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。 谷歌研究人员表示,由于...
-
AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里
随手在网络上发布的一张照片,能暴露多少信息? 外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战,网友提供照片,他来猜测照片的具体拍摄地,有些照片甚至还能猜到具体的航班细节。 是不是细思极恐? 但「照片挑战」也同样抚慰了很多人心中的遗憾,...
-
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。 在使用大型语言模型(LLM...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
OpenVoice 官网体验入口 AI语音克隆软件app免费下载地址
OpenVoice是一个开源的语音克隆技术平台,能够准确克隆参考音色,生成包含多种语言和口音的语音。它的核心功能在于能够灵活控制语音风格,如情感、口音、节奏、停顿和语调等参数。此外,OpenVoice实现了零样本跨语言语音克隆,这意味着生成的语音和参考语音...
-
GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型
昨天,一篇系统性地研究了GPT-4为什么会「降智」的论文,引发了AI圈的广泛讨论。 随着大家对GPT-4使用得越来越频繁,用户每过一段时间都会集中反应,GPT-4好像又变笨了。 图片 最近的情况是,如果用户不小心和GPT-4说现在是12月份,GPT-4的...