arxiv 第6页 - AIGC资讯

Kernel-CF：推荐系统的最优召回策略

作者 | 汪昊审校 | 重楼推荐系统自诞生以来广受关注，尤其是互联网领域，推荐系统已经成为了给企业下金蛋的白鹅。我们来算一笔账，假设我们公司推荐产品的日 PV 是500 万，推荐系统让用户点击率提升了1%, 也就是一天增加了5 万 PV。Google...

AIGC 2024-02-29 人工智能

823阅读

苹果十年造车梦碎！2000人大裁员或转岗AI，烧光近百亿美元引马斯克狂喜

苹果十年造车，彻底梦碎——泰坦计划终结！也就是说，这十年里苹果投的数十亿美元，彻底打了水漂。就在刚刚，这一消息在苹果内部传开了，员工错愕。摆在2000名员工面前的命运，是要么转岗，要么走人。而苹果押注的下一个风口，就是生成式AI。据悉，许多特...

生成式AI 2024-02-28 人工智能

817阅读

OpenAI：纽约时报雇黑客攻击我

堂堂AI巨头，怎么就被一家报纸雇黑客攻击了？《纽约时报》诉OpenAI侵犯版权索赔数十亿美元案最新进展：在最新提交的法庭文件中，OpenAI声称《纽约时报》花钱找黑客攻击ChatGPT，人为制造侵权结果。使用欺骗性手段进行数万次尝试，才得到高度异常...

生成式AI 2024-02-28 人工智能

799阅读

谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

Sora 问世才不到两个星期，谷歌的世界模型也来了，能力看起来更强大：它生成的虚拟世界「自主可控」。刚刚，谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境（Genie，Generative Interactive Environments）。G...

生成式AI 2024-02-27 人工智能

872阅读

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

模型如 ChatGPT 依赖于基于人类反馈的强化学习（RLHF），这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF 面临着成本高昂、难以优化等问题，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的...

AIGC 2024-02-27 人工智能

846阅读

“谷歌版Sora”被嘲画质好糊，但在世界模拟器上又前进了一步

谷歌110亿参数Genie，用来打造交互虚拟世界，它来了！划重点：不受视频监督训练；只用给它单张图像，就能提示生成可玩的2D虚拟世界；这个交互式的虚拟世界还自主可控。但令人撇嘴的点，就是Genie最后出的效果，画质太糊了。像这样：或者这样：...

人工智能 2024-02-27 人工智能

895阅读

自动驾驶与轨迹预测看这一篇就够了！

本文经自动驾驶之心公众号授权转载，转载请联系出处。轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...

生成式AI 2024-02-27 人工智能

887阅读

8/8/6/3的Mamba论文，最终还是被ICLR 2024拒了，网友：悬着的心终于死了

几天前，ICLR 2024 的最终接收结果出来了。大家应该还记得，Mamba 被 ICLR 2024 大会 Decision Pending（待定）的消息在 1 月份引发过一波社区热议。当时，多位领域内的研究者分析，Decision Pending...

人工智能 2024-02-26 人工智能

788阅读

逻辑推理大翻车！GPT-4、Gemini被曝重大缺陷，LLM严重降智

近期，谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时，前提信息的呈现顺序对其表现具有决定性影响。在逻辑推理和数学问题中，前提按照逻辑自然顺序排列时，模型表现更佳。对于大型语言模型，改变前提叙述顺序会导致性能大幅下降，尤其是在添...

AIGC 2024-02-26 人工智能

900阅读

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发...

AIGC 2024-02-26 人工智能

793阅读

「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

在普渡大学数字孪生实验室的最新成果中，研究人员引入了一种革命性的技术——利用大型语言模型（LLM）为自动驾驶汽车提供智能指令解析能力。该技术的核心为Talk2Drive框架，旨在通过理解人类的自然语言来控制自动驾驶汽车，从而实现了一种前所未有的人车交互...

AIGC 2024-02-26 人工智能

908阅读

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法

近日，阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型，可以从简单的图片描述中生成高质量的提示词，从而使文生图模型能够生成更美观的图像。BeautifulP...

大数据 2024-02-26 人工智能

892阅读

YOLO不死！YOLOv9出炉：性能速度SOTA~

本文经自动驾驶之心公众号授权转载，转载请联系出处。如今的深度学习方法专注于设计最适合的目标函数，以使模型的预测结果与实际情况最接近。同时，必须设计一个合适的架构，以便为预测获取足够的信息。现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换...

人工智能 2024-02-26 人工智能

915阅读

打入AI底层！NUS尤洋团队用扩散模型构建神经网络参数，LeCun点赞

扩散模型，迎来了一项重大新应用—— 像Sora生成视频一样，给神经网络生成参数，直接打入了AI的底层！这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。具体来说，研究团队提出了一种用于生成神经网络参数的扩散模...

AIGC 2024-02-26 人工智能

797阅读

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora...

人工智能 2024-02-26 人工智能

745阅读

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

模型｜https://huggingface.co/ByteDance/SDXL-Lightning 论文｜https://arxiv.org/abs/2402.13929 1、闪电般的图片生成生成式 AI 正凭借其根据文本提示（text prom...

AIGC 2024-02-23 人工智能

867阅读

鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接：https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...

生成式AI 2024-02-23 人工智能

889阅读

Stable Diffusion 3震撼发布，采用Sora同源技术，文字终于不乱码了

继 OpenAI 的 Sora 连续一周霸屏后，昨晚，生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示，这是他们最强大的文生图模型。与之前的版本相比，Stable Diffus...

生成式AI 2024-02-23 人工智能

808阅读

Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

足足酝酿一年之多，相比上一代一共进化了三大能力。来，直接上效果！首先，是开挂的文字渲染能力。且看这黑板上的粉笔字： Go Big or Go Home （不成功便成仁），这个倒是杀气腾腾啊～路牌、公交灯牌的霓虹效果：还有刺绣上“勾”得快要看...

大数据 2024-02-23 人工智能

835阅读

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。现在，2024 年的第一个月已经过去...

AIGC 2024-02-22 人工智能

1004阅读

Latent Diffusion Models / Stable Diffusion（LDM）

High-Resolution Image Synthesis with Latent Diffusion Models（CVPR 2022）https://arxiv.org/abs/2112.10752latent-diffusionstable-di...

人工智能 2024-02-22 人工智能

1070阅读

出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT

虽然已经发布近一周时间，OpenAI 视频生成大模型 Sora 的影响仍在继续！其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文《Scalable Diffusion...

人工智能 2024-02-21 人工智能

816阅读

被字节辟谣的中文版Sora，究竟厉害在哪里？

撰稿 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）近日，市场有消息称，在Sora引爆文生视频赛道之前，国内的字节跳动也推出了一款新型视频模型Boximator，与Gen-2、Pink1.0等既有模型相比，Boximator的独特...

生成式AI 2024-02-21 人工智能

863阅读

谷歌AI推出ScreenAI：用于UI和信息图解读的视觉语言模型

划重点: ⭐️ Google AI 团队提出了 ScreenAI，这是一个视觉语言模型，可以全面理解 UI 和信息图。 ⭐️ ScreenAI 在多个任务上表现出色，包括图形问答（QA），元素注释，摘要生成等。 ⭐️ 该团队发布了三个新数据集，为未来研究提...

生成式AI 2024-02-21 人工智能

870阅读

逆天了！UniVision：BEV检测和Occ联合统一框架，双任务SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&个人理解最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处，但在特征表示、数据格式和目标方面仍存在差距，这对统一高效的3D感知...

AIGC 2024-02-21 人工智能

924阅读

大型多视角高斯模型LGM：5秒产出高质量3D物体，可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求，三维内容生成（3D AIGC）最近受到相当多的关注。并且，3D 内容创作在质量和速度方面都取得了显著进展。尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象，但它们的分辨率受到训练期间所需密集计算的限...

AIGC 2024-02-20 人工智能

841阅读

SIMPL：用于自动驾驶的简单高效的多智能体运动预测基准

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving 论文链接...

AIGC 2024-02-20 人工智能

1002阅读

揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿

最近几天，据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后，已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上，人们早有预判，但也始料未及：AI 生成视频，是继文本生成、图像生成以后技术持续发...

生成式AI 2024-02-20 人工智能

877阅读

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模...

大数据 2024-02-19 人工智能

1076阅读

AI自动化标注崛起，数据标注员要失业了？

在数据标注行业流行着一句话：“有多少智能，就有多少人工”。由于需要标注的数据规模庞大且成本较高，一些互联网巨头及一些AI公司很少自己设有标注团队，大多交给第三方数据服务公司或者数据标注团队来做。这也衍生出了专为AI而生的人力密集型的数据标注产业链。...

人工智能 2024-02-19 人工智能

1075阅读

政安晨：演绎在KerasCV中使用Stable Diffusion进行高性能图像生成

小伙伴们好，咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。考虑计算机性能的因素，这次咱们在Colab上进行，Colab您可以理解为在线版的Jupyter Notebook，还不熟悉Jupyter的的小伙伴可以...

大数据 2024-02-19 人工智能

1089阅读

Meta发布全新AI自动剪辑视频工具Agents LAVE

Agents LAVE是Meta发布的全新AI自动剪辑视频工具，采用AI技术实现简单短视频和广告视频的自动生成，无需人工干预。工具界面包括输入提示、素材库和视频时间轴，而Agents设计则指导编辑行动计划的执行。论文地址:https://arxiv.o...

生成式AI 2024-02-19 人工智能

1190阅读

如何使用MyScale将知识库引入OpenAI的GPT

译者 | 李睿审校 | 重楼 2023年11月6日，OpenAI公司对外发布了ChatGPT。在这个无代码平台上，专业(或业余开发人员可以使用工具和提示构建定制的GPT或聊天机器人，有效地改变他们与OpenAI GPT的交互。以前的交互（LangCh...

大数据 2024-02-19 人工智能

997阅读

Python进行AI声音克隆的端到端指南

人工智能语音克隆是一种捕捉声音的独特特征，然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音，还可以创造全新的声音。它是一种彻底改变内容创作的工具，从个性化歌曲到自定义画外音，开辟了一个超越语言和文化障碍的创意世界。本文的将提供利用AI语音...

人工智能 2024-02-19 人工智能

1081阅读

Nomic AI 发布首个完全开源的长文本嵌入模型，超越 OpenAI Ada-002在各项基准测试中的表现

在自然语言处理（NLP）领域不断发展的背景下，理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力，特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础，包括大型语言模型(LLMs 的检索增强生成和语义搜索。它们将句子或文档转换为低维向...

人工智能 2024-02-18 人工智能

1311阅读

训不动Mixtral，要不试试LLaMA-MoE？

深度学习自然语言处理原创作者：cola 随着各种各样增强版LLaMA的出现，Mixture-of-Expert(MoE 类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处...

人工智能 2024-02-18 人工智能

1110阅读

AIGC内容分享(五十五)：AIGC周刊

目录行业资讯产品推荐学习资料拓展阅读 Midjourney生成 the camera focuses on the young woman, her red Hanfu a stark contrast against...

大数据 2024-02-16 人工智能

890阅读

只需任意一张人物图片，就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术

这是儿子寒假在家，我和他一起玩阿里通义千问后的一篇笔记。通义千问有一个全民舞王的功能。选择一个舞蹈模版，然后上传一张人物全身照片，即可生成一段10秒钟左右的视频。卡通人物的图片也行。比如我用了弗利萨大王和沙鲁的图片：点击立即生成按钮，...

生成式AI 2024-02-16 人工智能

955阅读

基于LLaVA开源模型打造视频聊天助手

简介大型语言模型已经证明自己是一项革命性的技术。目前，人们已经开发出了许多基于大型语言模型功能的应用程序，而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手，它们能够帮助人类用户完成各种任务。人们已经能够通过指令微...

AIGC 2024-02-15 人工智能

1009阅读

GPT-4绝对性能暴涨74.4%！UIUC苹果华人团队提出CodeAct，用Python代码统一LLM智能体行动

一直以来，LLM智能体被众多业界AI大佬看好，甚至有望成为将人类从琐碎工作中解放出来的利器。但是，它们该如何与世界进行最佳互动? 最近，来自UIUC和苹果的华人研究员，提出了一种全新的智能体框架——CodeAct。它通过采用可执行的Python代码，来...

大数据 2024-02-13 人工智能

1037阅读

LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学（HKUST）、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...

生成式AI 2024-02-13 人工智能

949阅读

大模型开车哪家强？普渡研究给指南：GPT-4真行啊

现在一句口令，就能指挥汽车了。比如说声“我开会要迟到了”“我不想让我朋友等太久”等等，车就能理解，并且自动加速起来。如果这次行程有不满意的，只需要给汽车提供反馈建议:“要在充分保障安全的前提下”，汽车的自动驾驶行为就会在下次行程中进行自我修正。这是来...

大数据 2024-02-13 人工智能

822阅读

每日一看大模型新闻（2023.12.13）趣味项目CLoT:训练LLM更幽默地回答问题；用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习；2.7B能打Llama 2 70B，微软祭出

1.产品发布 1.1 2.7B能打Llama 2 70B，微软祭出「小语言模型」发布时间：2023-12-13 2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini na...

大数据 2024-02-13 人工智能

1016阅读

ChatGPT研究报告：AIGC带来新一轮范式转移

本文约4000字，目标是快速建立AIGC知识体系，含有大量的计算专业名词，建议阅读同时扩展搜索。一、行业现状 1、概念界定区别于PGC与UGC不同的，AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模...

大数据 2024-02-12 人工智能

911阅读

【ScienceAI Weekly】AI+生物凝聚物初创公司宣布裁员15%；科技部明确科研中的AIGC红线；讯飞医疗递表港交所

AI for Science 的新成果、新动态、新视角—— 全球首家将生物分子凝聚体应用于药物发现的公司，宣布裁减 18 个职位谷歌 DeepMind 发布 AlphaGeometry Evaxion Biotech 宣布用 AI 开发定制癌症疫苗...

人工智能 2024-02-11 人工智能

958阅读

上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务

本文首发于微信公众号 CVHub，未经授权不得以任何形式售卖或私自转载到其它平台，违者必究！ Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...

人工智能 2024-02-11 人工智能

1106阅读

微软开源 SliceGPT:大模型体量压缩25%左右，性能保持不变

微软和苏黎世联邦理工学院的研究人员联合开源了 SliceGPT，该技术可以极限压缩大模型的权重矩阵，将模型体量压缩25% 左右，同时保持性能不变。实验数据显示，在保持零样本任务性能的情况下，SliceGPT 成功应用于多个大型模型，如 LLAMA-270B...

AIGC 2024-02-11 人工智能

821阅读

详解各种LLM系列｜LLaMA 1 模型架构、预训练、部署优化特点总结

作者 | Sunnyyyyy 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/668698204 后台留言『交流』，加入 NewBee讨论组 LLaMA 是Meta在2...

生成式AI 2024-02-10 人工智能

1919阅读

20240131在WIN10下配置whisper

20240131在WIN10下配置whisper 2024/1/31 18:25 首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡！】800￥ 2、请正确安装好NVIDIA最新的545版本的驱动程序...

大数据 2024-02-10 人工智能

921阅读

每周AI新闻（2024年第3周）Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4

我是陌小北，一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00，准时解读每周AI大事件。大厂动向【1】Meta研发Llama 3，构建开源AGI Meta公司CEO马克·扎克伯格（Mark Zuckerberg）=宣布公司将对两个关键A...

AIGC 2024-02-09 人工智能

973阅读