零样本 - AIGC资讯

元学习（meta-learning）：让ai学会“如何学习”

标题：元学习：让AI学会“如何学习”的革命性突破在人工智能（AI）领域，每一次技术的飞跃都预示着人类智慧边界的拓展。近年来，一个名为“元学习”（Meta-Learning）的概念悄然兴起，它不仅挑战了我们对AI传统学习模式的认知，更为AI赋予了前所未有的自...

大数据 2025-07-24 人工智能

702阅读

Llama 3.1 技术研究报告-3

四、后训练我们通过对预训练检查点进⾏多轮后训练，或在预训练检查点的基础上与⼈类反馈（Ouyang等⼈，2022年；Rafailov等⼈，2024年）对⻬模型，以产⽣对⻬的Llama 3模型。每⼀轮后训练包括监督式微调（SFT）和直接偏好优化（DPO；...

人工智能 2024-10-02 人工智能

1581阅读

单GPU一分钟生成16K高清图像！新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件

论文链接：https://arxiv.org/pdf/2409.02097 Git链接：https://lv-linfusion.github.io/ 亮点直击本文研究了Mamba的非因果和归一化感知版本，并提出了一种新颖的线性注意力机制...

人工智能 2024-09-23 人工智能

1083阅读

Lag-Llama：时间序列大模型开源了！

之前我们介绍过TimeGPT，它是第一个时间序列的大模型，具有零样本推理、异常检测等能力。TimeGPT引发了对时间序列基础模型的更多研究，但是它是一个专有模型，只能通过API访问。如今，终于出现一个用于时间序列预测的开源大模型：Lag-Llama...

人工智能 2024-09-23 人工智能

1238阅读

速通LLaMA1：《LLaMA: Open and Efficient Foundation Language Models》全文解读

文章目录论文总览 1. 创新点和突破点 2. 技术实现与算法创新 3. 架构升级 4. 概念补充 SwiGLU激活函数 AdamW 5. 总结 Abstract Introduction Approach Pre-training...

人工智能 2024-09-18 人工智能

1389阅读

AI写作进阶运用思维链CoT让AI写出来的东西更有“人味儿“

嗨，大家好，我是大象。 AI 写作今年可谓是大放光芒，从年初的 AI 自动摘要生成工具到年中的 AI 情感分析引擎，再到现在备受推崇的 AI 故事创作助手，一次次让 AI 写作成为众人热议的焦点。大家惊叹 AI 写作的神奇能力，也或多或少开始担忧...

人工智能 2024-09-12 人工智能

1260阅读

AuraFlow：超越Stable Diffusion 3，开源文生图模型的未来之星

前沿科技速递? 开源创新先锋fal.ai携手社区顶尖开发者，震撼发布AuraFlow v0.1——全球首个完全开源的大型整流流文本到图像生成模型，开启文生图领域新篇章！极致开源精神：AuraFlow v0.1作为对Stable Diffusion...

生成式AI 2024-09-12 人工智能

1255阅读

Meta最新SAM2模型开源直接封神

2024年7月29日，Meta在官网发布SAM2开源消息：segment-anything-2 开源地址：https://github.com/facebookresearch/segment-anything-2 paper：sam-2-seg...

大数据 2024-08-31 人工智能

1688阅读

GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTION

文章目录题目摘要引言方法实验消融研究题目 Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目论文地址：https://arxiv.org/abs/2310.03668 摘要大...

生成式AI 2024-08-23 人工智能

995阅读

超逼真AI生成电影来了！《泰坦尼克号》AI重生！浙大&阿里发布MovieDreamer，纯AI生成电影引爆热议！

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而，这些方法往往无法对复杂的叙事进行建模，也无法在较长时间内保持角色的一致性，而这对于电影等长篇视频制作至关重要。对此，浙大&阿里发布了一种新颖的分层框架MovieDreamer，它将自回归...

生成式AI 2024-08-18 人工智能

1014阅读

多语言声音克隆，CosyVoice模型最强部署

CosyVoice是由阿里通义实验室开源的一款多语言语音理解模型，它主要聚焦于高质量的语音合成，能够生成自然且逼真的语音。 CosyVoice模型经过超过15万小时的数据训练，支持中文、英语、日语、粤语和韩语多种语言的合成，且在多语言语音生成、零样本语音...

大数据 2024-08-17 人工智能

4446阅读

Llama 8B搜索100次超越GPT-4o！推理+搜索即可提升性能，新「Scaling Law」诞生？

【新智元导读】最近的论文表明，LLM等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅8B的Llama3.1模型搜索100次，即可在Python代码生成任务上达到GPT-4o同等水平。强化学习先驱、加拿大阿尔伯塔大学...

人工智能 2024-08-15 人工智能

862阅读

一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

当炒作出了「泼天的流量」，已经没人关心产品厉不厉害了。最近，OpenAI 的秘密项目「Q*」一直受到了圈内人士的广泛关注。上个月，以它为前身、代号为「草莓（Strawberry）」的项目又被曝光了。据推测，该项目能够提供高级推理能力。最近几天，关于这个...

生成式AI 2024-08-14 人工智能

915阅读

GPT-4o模仿人类声音，诡异尖叫引OpenAI研究员恐慌！32页技术报告出炉

【新智元导读】五颗草莓到底指什么?盼了一天一夜，OpenAI只发来一份32页安全报告。报告揭露:在少数情况下，GPT-4o会模仿你的声音说话，或者忽然大叫起来……事情变得有趣了。昨天奥特曼率众人搞了一波「草莓暗示」的大阵仗，全网都在翘首以盼OpenAI的...

AIGC 2024-08-09 人工智能

852阅读

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

随着GPT-4o、Gemini等多模态大模型的出现，对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别，使用精心标注的数据集能带来显著的性能提升，同时大幅减少所需的训练数据量。但目前多数模型的数据处理流程严重依赖于人工筛选，不仅...

AIGC 2024-08-08 人工智能

983阅读

从炒菜到缝针！斯坦福炒虾团队打造自主「AI达芬奇」，苦练神指当外科医生

【新智元导读】斯坦福炒虾机器人作者，又出新作了!通过模仿学习，达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是，以上动作全部都是它自主完成的。斯坦福炒虾机器人作者，又出新作了。这次，机器人不是给我们炒饭了，而是给我们做外科手...

大数据 2024-07-31 人工智能

850阅读

【AIGC调研系列】InternVL开源多模态模型与GPT-4V的性能对比

InternVL和GPT-4V都是多模态模型，但它们在性能、参数量以及应用领域上有所不同。 InternVL是一个开源的多模态模型，其参数量为60亿，覆盖了图像/视频分类、检索等关键任务，并在32个视觉-语言基准测试中展现了卓越性能[2]。InternV...

大数据 2024-07-15 人工智能

1569阅读

AIGC 011-SAM第一个图像分割大模型-分割一切！

AIGC 011-SAM第一个图像分割大模型-分割一切！文章目录 0 论文工作 1论文方法 2 效果 0 论文工作这篇论文介绍了 Segment Anything (SA 项目，这是一个全新的图像分割任务、模...

人工智能 2024-07-03 人工智能

785阅读

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

【新智元导读】刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonn...

生成式AI 2024-06-16 人工智能

855阅读

【论文精读】DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents

文章目录一、前言（一）DALLE2 简介（二）DALLE2和DALLE的对比（三）相关模型推出时间二、文章概要（一）标题（二）摘要（三）引言（四）模型架构三、方法（一）图像生成的相关工作（二）diffusion...

大数据 2024-06-15 人工智能

1123阅读

使用 GitHub Copilot 进行提示工程简介

了解使用 GitHub Copilot 创建有效提示的要点。探索将编码注释转化为精确、可操作的代码的技术，从而增强您的开发工作流程。学习目标学完本模块后，您将能够：制作有效的提示来优化 GitHub Copilot 的性能，...

AIGC 2024-06-14 人工智能

1075阅读

Stable Diffusion原理

一、Diffusion扩散理论 1.1、 Diffusion Model（扩散模型） Diffusion扩散模型分为两个阶段：前向过程 + 反向过程前向过程：不断往输入图片中添加高斯噪声来破坏图像反向过程：使用一系列马尔可夫链逐步将噪声还原...

AIGC 2024-06-14 人工智能

1018阅读

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

在过去的几年里，Transformer架构在自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习中取得了显著的成就，几乎成为了AI领域的主导技术。然而，虽然Transformer架构及其众多变体在实践中取得了巨大成功，但其设计大多是基于经验的，...

人工智能 2024-06-06 人工智能

736阅读

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环调用CLIP，无需额外训练就有效分割无数概念。包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR 2024接收，并开源了代码。团队提出名为CLIP as RNN（简称CaR）的新技...

大数据 2024-06-05 人工智能

843阅读

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览

1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 扩散...

生成式AI 2024-06-05 人工智能

1053阅读

微软ML Copilot框架释放机器学习能力

摘要：大模型席卷而来，通过大量算法模型训练推理，能根据人类输入指令产生图文，其背后是大量深度神经网络模型在做运算，这一过程称之为机器学习，本文从微软语言大模型出发，详解利用大型语言模型（Large Language Models, LLMs）解决实际机器学...

人工智能 2024-06-04 人工智能

756阅读

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

时空预测技术，迎来ChatGPT时刻。时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得...

大数据 2024-06-03 人工智能

774阅读

港大&百度发布首个智慧城市大模型UrbanGPT，助力时空预测技术突破

香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT，该模型在时空预测技术领域引发了重大突破。时空预测技术的重要性日益凸显，不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。然而，由于城市数据不足，传统的时空预测模型在精确预测方面受到了限制。U...

大数据 2024-06-02 人工智能

760阅读

每天都看模型评分，但你真的了解吗？OpenAI研究员最新博客，一文读懂LLM评估

上周六，OpenAI研究院Jason Wei在个人网站上发表了一篇博客，讨论了他眼中「成功的语言模型评估」应该具备哪些因素，并总结出了阻碍好的评估在NLP社区获得关注的「七宗罪」。 Jason Wei在最近的斯坦福NLP研讨会上展示了这篇文章，Open...

生成式AI 2024-05-30 人工智能

820阅读

适应多形态多任务，最强开源机器人学习系统「八爪鱼」诞生

在机器人学习方面，一种常用方法是收集针对特定机器人和任务的数据集，然后用其来训练策略。但是，如果使用这种方法来从头开始学习，每一个任务都需要收集足够数据，并且所得策略的泛化能力通常也不佳。原理上讲，从其它机器人和任务收集的经验能提供可能的解决方案，能让...

生成式AI 2024-05-28 人工智能

815阅读

Shortened LLaMA：针对大语言模型的简单深度剪枝法

? CSDN 叶庭云：https://yetingyun.blog.csdn.net/ 论文标题 & 发表会议：Shortened LLaMA: A Simple Depth Pruning for Large Language Model...

生成式AI 2024-05-27 人工智能

967阅读

CVPR 2024 | 图像超分、图像恢复汇总！用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder 超分辨率（SR）和图像生成是计算...

生成式AI 2024-05-26 人工智能

1574阅读

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

目标跟踪 1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking 多目标跟踪（Multiple Object Tracking，MOT）是计算...

AIGC 2024-05-26 人工智能

1281阅读

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解随着大型语言模型（LLM）的发展，它们与3D空间数据（3D LLM）之间的集成取得了快速进展，为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...

AIGC 2024-05-21 人工智能

818阅读

谷歌数学版Gemini解开奥赛难题，堪比人类数学家！

四个月的迭代，让Gemini 1.5 Pro成为了全球最强的LLM（几乎）。谷歌I/O发布会上，劈柴宣布了Gemini 1.5 Pro一系列升级，包括支持更长上下文200k，超过35种语言。与此同时，新成员Gemini 1.5 Flash推出，设计...

AIGC 2024-05-20 人工智能

824阅读

识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源

大模型带来的生命科学领域突破，刚刚再传新进展。来自清华系，使用大模型实现了单细胞身份识别，同时模型LangCell也正式对外开源。它不仅可以准确识别细胞身份，还具有很强的零样本分析能力，论文已被ICML 2024录⽤。 LangCell的数据集中包...

生成式AI 2024-05-16 人工智能

845阅读

微软让MoE长出多个头，大幅提升专家激活率

混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是...

人工智能 2024-05-14 人工智能

878阅读

AI手机，活成产业“摇钱树”

早几年出现的折叠屏没能拯救颓势的手机市场，直接证据就是去年全球出货量依旧拉胯，同比下滑3.2%至11.7亿部，为近十年来最低。好在Q4出现了些许回暖，全球和中国市场分别有8.5%和1.2%的同比增幅，尤其是后者，在连续同比下降10个季度后首次转正。很难...

生成式AI 2024-05-11 人工智能

729阅读

港大开源图基础大模型OpenGraph 增强图学习泛化能力

香港大学数据智能实验室主任黄超团队开发了一款名为 OpenGraph 的图基础大模型，专注于在多种图数据集上进行零样本预测。该模型通过学习通用的图结构模式，仅通过前向传播即可对全新数据进行预测，有效缓解了图学习领域的数据饥荒问题。关键特点: 强泛化能...

大数据 2024-05-09 人工智能

767阅读

港大开源图基础大模型OpenGraph: 强泛化能力，前向传播预测全新数据

图学习领域的数据饥荒问题，又有能缓解的新花活了！ OpenGraph，一个基于图的基础模型，专门用于在多种图数据集上进行零样本预测。背后是港大数据智能实验室的主任Chao Huang团队，他们还针对图模型提出了提示调整技术，以提高模型对新任务的适应性。...

生成式AI 2024-05-09 人工智能

766阅读

瑜伽球上遛「狗」！入选英伟达十大项目之一的Eureka有了新突破

机器狗在瑜伽球上稳稳当当的行走，平衡力那是相当的好：各种场景都能拿捏，不管是平坦的人行道、还是充满挑战的草坪都能 hold 住：甚至是研究人员踢了一脚瑜伽球，机器狗也不会歪倒：给气球放气机器狗也能保持平衡：上述展示都是 1 倍速，没有经过...

生成式AI 2024-05-06 人工智能

755阅读

苹果新产品明晚10点发布；曝iPhone 17 Slim新机型；昆仑万维净亏损1.87亿元；智谱AI正研发类“Sora”产品

出品 | 51CTO技术栈（微信号：blog51cto）一、商业圈 1.“AI教母”李飞飞首次创业，瞄准空间智能李飞飞，著名华裔计算机科学家，因其在人工智能领域的卓越贡献而被誉为“AI教母”。根据国外媒体消息，李飞飞正在致力于她的首次创业——一家名为...

人工智能 2024-05-06 人工智能

729阅读

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作...

人工智能 2024-05-06 人工智能

738阅读

还在YOLO-World？DetCLIPv3出手！性能大幅度超出一众SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成...

AIGC 2024-04-30 人工智能

904阅读

AI视频生成工具ID-Animator：可保持角色一致生成视频动画

近年来，生成具有指定身份的高保真人类视频引起了广泛关注。然而，现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。研究提出了一种名为 ID-Animator 的零样本人类视频生成方法，可以在无需...

大数据 2024-04-25 人工智能

834阅读

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

要说 ChatGPT 拉开了大模型竞赛的序幕，那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中，苹果似乎掀起的水花不是很大。不过，苹果最新放出的论文，我们看到其在开源领域做出的贡献。近日，苹果发布了 OpenELM，共四种变...

生成式AI 2024-04-25 人工智能

814阅读

AI刘强东007带货，背后大模型也就10亿参数，京东：我家数字人平均水平

京东创始人刘强东啊，他昨天又加班了。准确来说，是他的AI数字人形象“采销东哥”，昨晚开启了自己生涯第四场直播。这次东哥干的是图书采销工作。与上两次直播不同，这一回直播间不仅有了数字人助理，还有多机位切换等展现方式。与此同时，和留言区及屏幕前观众的互...

AIGC 2024-04-25 人工智能

736阅读

EMNLP 2023｜利用LLM合成数据训练模型有哪些坑？

大家好，我是HxShine 今天我们将介绍EMNLP2023的一篇大模型（LLMs）生成文本分类任务合成数据的文章，标题是《Synthetic Data Generation with Large Language Models for Text Cla...

AIGC 2024-04-21 人工智能

939阅读

蚂蚁集团等发布开源大模型知识抽取框架OneKE

蚂蚁集团和浙江大学合作开发了一个名为 OneKE 的开源大模型知识抽取框架。该框架旨在帮助处理信息抽取、文本数据结构化和知识图谱构建等任务，为研究人员和开发者提供有力工具。这个框架的作用是从海量数据中提取结构化知识，构建高质量的知识图谱，并建立知识要素之...

大数据 2024-04-21 人工智能

925阅读

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差...

AIGC 2024-04-20 人工智能

986阅读