零样本第3页 - AIGC资讯

图领域首个通用框架来了！入选ICLR'24 Spotlight，任意数据集、分类问题都可搞定

能不能有一种通用的图模型—— 它既能够根据分子结构预测毒性，又能够给出社交网络的朋友推荐？或者既能预测不同作者的论文引用，还可以发现基因网络中的人类衰老机制？你还真别说，被ICLR 2024接收为Spotlight的“One for All（OFA）...

生成式AI 2024-02-04 人工智能

894阅读

年龄两岁，教龄一年半：婴儿AI训练师登上Science

在公开采访中，图灵奖得主 Yann LeCun 多次提到，现在的 AI 模型和人类婴儿相比，学习效率实在是太低了。那么，如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西，它能学到什么？最近，Science 杂志上的一篇论文进行了初步尝试。研究发现，...

大数据 2024-02-02 人工智能

823阅读

GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评

近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用GPT对答案进行评分，但存在着不准确和主观性的问题。另...

大数据 2024-02-02 人工智能

979阅读

关于推荐系统，有六大让人震惊的“秘密”

推荐系统自1992 年代诞生以来, 到2024 年的今天已经有32 年的发展历程。在这几十年的发展历程中，各个互联网和科技公司上线过数以百万计的推荐系统模型。尽管推荐系统经历过 2012 到 2014 年的发展低潮，但很快就被后起之秀快手和字节跳动一改颓...

人工智能 2024-02-02 人工智能

1104阅读

赶超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太强了

去年 4 月，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA（Large Language and Vision Assistant）。尽管 LLaVA 是用一个小的多模态指令数据集训练的，却在一些样本上展示了与 GPT-4...

大数据 2024-02-01 人工智能

889阅读

【网安AIGC专题10.19】论文6（顶会ISSTA 2023）：提出新Java漏洞自动修复数据集：数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会

How Effective Are Neural Networks for Fixing Security Vulnerabilities 写在最前面摘要贡献发现介绍背景：漏洞修复需求和Java漏洞修复方向动机方法贡献...

AIGC 2024-02-01 人工智能

1264阅读

最强开源多模态生成模型MM-Interleaved：首创特征同步器

想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科...

AIGC 2024-02-01 人工智能

943阅读

Depth Anything：释放大规模无标注数据的深度估计

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年1月论文“Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data“，来自香港大学、字节、浙江实验室和浙江大学。这项...

AIGC 2024-02-01 人工智能

924阅读

多模态LLM多到看不过来？先看这26个SOTA模型吧

当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...

生成式AI 2024-01-31 人工智能

831阅读

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

大型语言模型（LLM）通常拥有数十亿的参数，用了数万亿 token 的数据进行训练，这样的模型训练、部署成本都非常高。因此，人们经常用各种模型压缩技术来减少它们的计算需求。一般来讲，这些模型压缩技术可以分为四类：蒸馏、张量分解（包括低秩因式分解）、剪枝...

AIGC 2024-01-30 人工智能

797阅读

把图像视为外语，快手、北大多模态大模型媲美DALLE-3

当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展，能够理解和生成复杂的文本内容。但你是否想过，如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上，就可以轻松理解海量的图像与视频，并辅助创作图文并茂的内容。近期，来自快...

大数据 2024-01-30 人工智能

881阅读

微软开发新型大模型压缩方法SliceGPT

SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT，可以在保持99%，99%，和90%零样本任务性能的同时，将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达25%的模型参数（包括嵌入）。这意味着使用SLICE...

人工智能 2024-01-29 人工智能

802阅读

GPT-4准确率最高飙升64%！斯坦福OpenAI重磅研究：全新Meta-Prompting方法让LLM当老板

当你让大模型写一首「莎士比亚十四行诗」，并以严格的韵律「ABAB CDCD EFEF GG」执行。同时，诗中还要包含提供的3个词。对于这么高难度的创作题，LLM在收到指令后，并不一定能够按要求做出这首诗。正所谓，人各有所长，LLM也是如此，仅凭单...

大数据 2024-01-29 人工智能

921阅读

通义千问视觉语言模型Qwen-VL在线体验入口阿里云AI在线使用入口

Qwen-VL是阿里云推出的通用型视觉语言模型，具备强大的视觉理解和多模态推理能力。采用 Transformer 结构，以 7B 参数规模进行预训练，支持 448x448 分辨率，能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...

生成式AI 2024-01-29 人工智能

1151阅读

# ext-to-speech|tts|voice-cloning|AIGC|多模态#【有图文部署】GPT-SoVits：上线一周就获得了4.1k star！效果炸裂的开源跨语言音色克隆模型！

一周前，RVC变声器创始人（GitHub昵称：RVC-Boss）发布了一款新项目，名为GPT-SoVITS。这个项目一上线就受到了互联网大佬和博主的好评推荐，仅仅在不到一周的时间里，就已经在GitHub上积累了4.1k Star。据说，该项目是RVC-...

大数据 2024-01-29 人工智能

3223阅读

推翻Transformer奠基之作疑被拒收，ICLR评审遭质疑！网友大呼黑幕，LeCun自曝类似经历

去年12月，CMU和普林斯顿的2位研究者发布了Mamba架构，瞬间引起AI社区震动！结果，这篇被众人看好有望「颠覆Transformer霸权」的论文，今天竟曝出疑似被顶会拒收？！今早，康奈尔大学副教授Sasha Rush最先发现，这篇有望成为奠基之作...

AIGC 2024-01-26 人工智能

863阅读

NeurIPS 2023精选回顾：大模型最火，清华ToT思维树上榜

近日，作为美国前十的科技博客，Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。在NeurIPS会议总共接受的3586篇论文之中，除去6篇获奖论文，其他论文也同样优秀和具有潜力，甚至有可能预示着下一个AI领域的新突破...

大数据 2024-01-26 人工智能

900阅读

Mamba论文为什么没被ICLR接收？AI社区沸腾了

基于 Mamba 的创新正不断涌现，但原论文却被 ICLR 放到了「待定区」。 2023年，Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」，它是一种选择性状态空间模型（ selective state s...

生成式AI 2024-01-26 人工智能

869阅读

拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型，首提时空架构，时长史诗级延长

爆肝7个月，谷歌祭出了AI视频大模型Lumiere，直接改变了游戏规则!全新架构让视频时长和一致性全面飞升，时长直接碾压Gen-2和Pika。 AI视频赛道上，谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型，是个大规模视频扩散模...

人工智能 2024-01-25 人工智能

861阅读

拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型！首提时空架构，时长史诗级延长

AI视频赛道上，谷歌又再次放出王炸级更新！这个名为Google Lumiere的模型，是个大规模视频扩散模型，彻底改变了AI视频的游戏规则。跟其他模型不同，Lumiere凭借最先进的时空U-Net架构，在一次一致的通道中生成整个视频。具体来说，现有...

生成式AI 2024-01-25 人工智能

887阅读

「think step by step」还不够，让模型「think more steps」更有用

如今，大型语言模型（LLM）及其高级提示策略的出现，标志着对语言模型的研究取得了重大进展，尤其是在经典的 NLP 任务中。这其中一个关键的创新是思维链（CoT）提示技术，该技术因其在多步骤问题解决中的能力而闻名。这项技术遵循了人类的顺序推理，在各种挑战中...

人工智能 2024-01-25 人工智能

765阅读

Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法插件的配置与使用

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://blog.csdn.net/caroline_wendy/article/details/131918652 Paper and GitHub：...

生成式AI 2024-01-24 人工智能

1788阅读

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

「xx，去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中，很多家庭成员都不免被支使干这种活儿。甚至有时候，宠物狗也难以幸免。但人总有支使不动的时候，宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近，纽约大学、Meta 研发出...

AIGC 2024-01-24 人工智能

833阅读

GPT与文心一言大模型的比较与展望

目录前言 1 GPT和文心一言简介 2 GPT和文心一言的技术原理和基础架构 3 GPT和文心一言的模型规模和参数数量 4 GPT和文心一言的语言理解表现 5 展望GPT和文心一言未来的发展 5.1 技术改进 5.2 应用扩展结语...

生成式AI 2024-01-24 人工智能

1180阅读

DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

自从 LLaMA 被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对 LLM 缩放规律的深入探索。开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域...

大数据 2024-01-24 人工智能

1695阅读

2024年1月11日最热AI论文Top5：开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈

本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。以下内容由赛博马良-「AI论文解读达人」智能体生成，人工整理排版。「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。如需查看其他热门论文，欢迎移步saibo...

人工智能 2024-01-23 人工智能

1009阅读

纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息，但机器人和 VR 头社等设备却往往没有这样的「配置」，往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计（MDE）。近日，一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...

人工智能 2024-01-23 人工智能

865阅读

Code Llama: Open Foundation Models for Code

本文是LLM系列文章，针对《Code Llama: Open Foundation Models for Code》的翻译。 Code Llama：代码的开放基础模型摘要 1 引言 2 Code Llama：专业化Llama2用于代码 3...

人工智能 2024-01-23 人工智能

1048阅读

针对特定领域较小的语言模型是否与较大的模型同样有效?

经过2023年的发展，大语言模型展示出了非常大的潜力，训练越来越大的模型成为有效性评估的一个关键指标，论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs f...

AIGC 2024-01-22 人工智能

821阅读

AIGC内容分享(二十)：「AI视频生成」技术核心基础知识和模型应用

目录何为AI视频？一、技术发展概况二、代表模型及应用三、仍存在许多技术难点何为AI视频？「AI视频」通常指的是由人工智能（AI）技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质...

人工智能 2024-01-22 人工智能

2790阅读

英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

昨天，Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天，英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下，在 10...

人工智能 2024-01-22 人工智能

886阅读

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译:赵阳专家混合（MoE）是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。早些时候，有人爆料...

生成式AI 2024-01-21 人工智能

1828阅读

【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

文章目录一、Intruduction 二、Segment Anything Task 三、Segment Anything Model 四、Segment Anything Data Engine 五、Segment Anything Dat...

大数据 2024-01-20 人工智能

2148阅读

OpenVoice官网体验入口开源AI语音克隆技术在线使用教程指南

OpenVoice是一款开源的语音克隆技术，专门设计用于准确地克隆参考音色，并生成多种语言和口音的语音。它的特点在于能够灵活控制语音风格，如情感、口音等参数，以及节奏、停顿和语调等。此外，OpenVoice实现了零样本跨语言语音克隆，即在没有将生成语音和参...

人工智能 2024-01-19 人工智能

1031阅读

AIGC学习笔记（1）——AI大模型提示词工程师

文章目录 AI大模型提示词工程师 1 Prompt工程之原理 1.1 AIGC的发展和产业前景前言 AIGC时代的到来发展趋势和应用展望 1.2 大模型的类型和特点大模型的对比上手特点 1.3 大模型技术原理和发展成语...

生成式AI 2024-01-18 人工智能

1780阅读

GPT-SoVITS体验入口地址 AI语音克隆软件分享

GPT-SoVITS是一个强大的语音转换软件。该产品具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能，可用于语音转换、语音合成、语音处理等场景。GPT-SoVITS的体验下载入口在哪呢，这里我们来看GPT-SoVITS的官方体验入口。 &...

大数据 2024-01-18 人工智能

2110阅读

GPT-SoVITS体验入口 AI声音克隆工具软件免费下载地址

GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI工具。它提供了零样本TTS、少样本TTS、跨语言支持等功能，并且支持英语、日语和中文。GPT-SoVITS-WebUI提供了一系列集成工具，包括语音伴奏分离、自动训练集分割、中...

AIGC 2024-01-18 人工智能

2777阅读

Stable Diffusion扩散模型 + Consistency一致性模型

1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过程（正向）去噪过程（反向）总结优化目标理论推导代码解析 2.2 Stable Diffu...

人工智能 2024-01-17 人工智能

1409阅读

【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama: Towards Foundation Models for Time Series Forecasting 摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取...

生成式AI 2024-01-17 人工智能

1194阅读

杰克逊跳舞秒变3D机器人！阿里又出新活儿，视频任何人可替换

这究竟是怎么回事？原来啊，阿里又整出新活儿—— MotionShop，能将视频中的人物角色替换成3D形象，同时又不改变其他场景和人物。比如，打工仔小猪打太极。看到这有人已经迫不及待了。目前已在ModelScope社区开放试玩。还有人建议说在Hu...

生成式AI 2024-01-17 人工智能

865阅读

ReSimAD：如何在没有真实数据的情况下，提升感知模型的泛化性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解自动驾驶车辆传感器层面的域变化是很普遍的现象，例如在不同场景和位置的自动驾驶车辆，处在不同光照、天气条件下的自动驾驶车辆，搭载了不同传感器设备的自动驾驶车辆，上述这些...

大数据 2024-01-17 人工智能

947阅读

OpenAI开源全新解码器和语音识别模型Whisper-v3

在11月7日OpenAI的首届开发者大会上，除了推出一系列重磅产品之外，还开源了两款产品，全新解码器Consistency Decoder（一致性解码器）和最新语音识别模型Whisper v3。据悉，Consistency Decoder可以替代Sta...

人工智能 2024-01-16 人工智能

1345阅读

广义人工智能时代：通往通用人工智能（AGI）之路

人工智能(AI 将于2024年进一步改进，大型语言模型有望进一步发展。 2023年对于人工智能和生成式人工智能来说是激动人心的一年，特别是那些采用大型语言模型(LLM 架构的人工智能，比如来自开放人工智能(GPT 4 、Anthropic(Claud...

AIGC 2024-01-16 人工智能

923阅读

AIGC｜一文梳理「AI视频生成」技术核心基础知识和模型应用

大家好，我是猫先生，AI技术爱好者与深耕者！！ 2022年是AIGC（生成式AI）元年！从这一年开始，可谓是百家争鸣，各种技术层出不穷，再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众...

人工智能 2024-01-16 人工智能

2149阅读

Speaking AI官网体验入口 AI声音克隆工具软件网页版app免费使用地址

Speaking AI是一款利用先进大语言模型技术实现文本到语音转换的工具。它不仅能以自然的情感进行对话，还实现了零样本语音克隆，能够捕捉并复制独特的音调、音高和调节。这一突破性技术让语音克隆听起来更加自然，是个人创作和娱乐场景的理想选择。点击前往Sp...

人工智能 2024-01-15 人工智能

1582阅读

可协助 AI 语言模型改善自我纠错能力，谷歌推出 BIG-Bench Mistake 数据集

IT之家 1 月 15 日消息，谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集，并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。谷歌研究人员表示，由于...

人工智能 2024-01-15 人工智能

745阅读

AI看图猜位置，准确率超90%！斯坦福最新PIGEON模型：40%预测误差不到25公里

随手在网络上发布的一张照片，能暴露多少信息？外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战，网友提供照片，他来猜测照片的具体拍摄地，有些照片甚至还能猜到具体的航班细节。是不是细思极恐？但「照片挑战」也同样抚慰了很多人心中的遗憾，...

生成式AI 2024-01-15 人工智能

1019阅读

看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术，多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像，效果堪比 PS 大神抓着你的手助你 P 图。在使用大型语言模型（LLM...

AIGC 2024-01-06 人工智能

831阅读

这是GPT-4变笨的新解释

变笨的本质是知识没进脑子。自发布以来，曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关，前段时间的「变懒」传闻就更搞笑了，有人测出只要告诉 GPT-4「现在...

人工智能 2024-01-02 人工智能

787阅读

OpenVoice 官网体验入口 AI语音克隆软件app免费下载地址

OpenVoice是一个开源的语音克隆技术平台，能够准确克隆参考音色，生成包含多种语言和口音的语音。它的核心功能在于能够灵活控制语音风格，如情感、口音、节奏、停顿和语调等参数。此外，OpenVoice实现了零样本跨语言语音克隆，这意味着生成的语音和参考语音...

人工智能 2024-01-02 人工智能

1394阅读