-
苹果十年造车梦碎!2000人大裁员或转岗AI,烧光近百亿美元引马斯克狂喜
苹果十年造车,彻底梦碎——泰坦计划终结! 也就是说,这十年里苹果投的数十亿美元,彻底打了水漂。 就在刚刚,这一消息在苹果内部传开了,员工错愕。 摆在2000名员工面前的命运,是要么转岗,要么走人。 而苹果押注的下一个风口,就是生成式AI。 据悉,许多特...
-
OpenAI:纽约时报雇黑客攻击我
堂堂AI巨头,怎么就被一家报纸雇黑客攻击了? 《纽约时报》诉OpenAI侵犯版权索赔数十亿美元案最新进展: 在最新提交的法庭文件中,OpenAI声称《纽约时报》花钱找黑客攻击ChatGPT,人为制造侵权结果。 使用欺骗性手段进行数万次尝试,才得到高度异常...
-
谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。 刚刚,谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。G...
-
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
模型如 ChatGPT 依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的...
-
“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步
谷歌110亿参数Genie,用来打造交互虚拟世界,它来了! 划重点:不受视频监督训练;只用给它单张图像,就能提示生成可玩的2D虚拟世界;这个交互式的虚拟世界还自主可控。 但令人撇嘴的点,就是Genie最后出的效果,画质太糊了。 像这样: 或者这样:...
-
自动驾驶与轨迹预测看这一篇就够了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...
-
8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了
几天前,ICLR 2024 的最终接收结果出来了。 大家应该还记得,Mamba 被 ICLR 2024 大会 Decision Pending(待定)的消息在 1 月份引发过一波社区热议。 当时,多位领域内的研究者分析,Decision Pending...
-
逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
近期,谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的呈现顺序对其表现具有决定性影响。 在逻辑推理和数学问题中,前提按照逻辑自然顺序排列时,模型表现更佳。对于大型语言模型,改变前提叙述顺序会导致性能大幅下降,尤其是在添...
-
用扩散模型生成网络参数,LeCun点赞尤洋团队新研究
如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发...
-
「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统
在普渡大学数字孪生实验室的最新成果中,研究人员引入了一种革命性的技术——利用大型语言模型(LLM)为自动驾驶汽车提供智能指令解析能力。 该技术的核心为Talk2Drive框架,旨在通过理解人类的自然语言来控制自动驾驶汽车,从而实现了一种前所未有的人车交互...
-
【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法
近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulP...
-
YOLO不死!YOLOv9出炉:性能速度SOTA~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 如今的深度学习方法专注于设计最适合的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便为预测获取足够的信息。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换...
-
打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞
扩散模型,迎来了一项重大新应用—— 像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层! 这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。 具体来说,研究团队提出了一种用于生成神经网络参数的扩散模...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布
模型|https://huggingface.co/ByteDance/SDXL-Lightning 论文|https://arxiv.org/abs/2402.13929 1、闪电般的图片生成 生成式 AI 正凭借其根据文本提示(text prom...
-
鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接:https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...
-
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。 与之前的版本相比,Stable Diffus...
-
Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了
足足酝酿一年之多,相比上一代一共进化了三大能力。 来,直接上效果! 首先,是开挂的文字渲染能力。 且看这黑板上的粉笔字: Go Big or Go Home (不成功便成仁),这个倒是杀气腾腾啊~ 路牌、公交灯牌的霓虹效果: 还有刺绣上“勾”得快要看...
-
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。 现在,2024 年的第一个月已经过去...
-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续! 其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion...
-
被字节辟谣的中文版Sora,究竟厉害在哪里?
撰稿 | 云昭 出品 | 51CTO技术栈(微信号:blog51cto) 近日,市场有消息称,在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款新型视频模型Boximator,与Gen-2、Pink1.0等既有模型相比,Boximator的独特...
-
谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点: ⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。 ⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。 ⭐️ 该团队发布了三个新数据集,为未来研究提...
-
逆天了!UniVision:BEV检测和Occ联合统一框架,双任务SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving 论文链接...
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模...
-
AI自动化标注崛起,数据标注员要失业了?
在数据标注行业流行着一句话:“有多少智能,就有多少人工”。 由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些AI公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。 这也衍生出了专为AI而生的人力密集型的数据标注产业链。...
-
政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成
小伙伴们好,咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。 考虑计算机性能的因素,这次咱们在Colab上进行,Colab您可以理解为在线版的Jupyter Notebook,还不熟悉Jupyter的的小伙伴可以...
-
Meta发布全新AI自动剪辑视频工具Agents LAVE
Agents LAVE是Meta发布的全新AI自动剪辑视频工具,采用AI技术实现简单短视频和广告视频的自动生成,无需人工干预。工具界面包括输入提示、素材库和视频时间轴,而Agents设计则指导编辑行动计划的执行。 论文地址:https://arxiv.o...
-
如何使用MyScale将知识库引入OpenAI的GPT
译者 | 李睿 审校 | 重楼 2023年11月6日,OpenAI公司对外发布了ChatGPT。在这个无代码平台上,专业(或业余 开发人员可以使用工具和提示构建定制的GPT或聊天机器人,有效地改变他们与OpenAI GPT的交互。以前的交互(LangCh...
-
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。 本文的将提供利用AI语音...
-
Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs 的检索增强生成和语义搜索。它们将句子或文档转换为低维向...
-
训不动Mixtral,要不试试LLaMA-MoE?
深度学习自然语言处理 原创作者:cola 随着各种各样增强版LLaMA的出现,Mixture-of-Expert(MoE 类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处...
-
AIGC内容分享(五十五):AIGC周刊
目录 行业资讯 产品推荐 学习资料 拓展阅读 Midjourney生成 the camera focuses on the young woman, her red Hanfu a stark contrast against...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
基于LLaVA开源模型打造视频聊天助手
简介 大型语言模型已经证明自己是一项革命性的技术。目前,人们已经开发出了许多基于大型语言模型功能的应用程序,而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手,它们能够帮助人类用户完成各种任务。 人们已经能够通过指令微...
-
GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动
一直以来,LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。 但是,它们该如何与世界进行最佳互动? 最近,来自UIUC和苹果的华人研究员,提出了一种全新的智能体框架——CodeAct。 它通过采用可执行的Python代码,来...
-
LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置
大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学(HKUST)、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...
-
大模型开车哪家强?普渡研究给指南:GPT-4真行啊
现在一句口令,就能指挥汽车了。 比如说声“我开会要迟到了”“我不想让我朋友等太久”等等,车就能理解,并且自动加速起来。 如果这次行程有不满意的,只需要给汽车提供反馈建议:“要在充分保障安全的前提下”,汽车的自动驾驶行为就会在下次行程中进行自我修正。 这是来...
-
每日一看大模型新闻(2023.12.13)趣味项目CLoT:训练LLM更幽默地回答问题;用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习;2.7B能打Llama 2 70B,微软祭出
1.产品发布 1.1 2.7B能打Llama 2 70B,微软祭出「小语言模型」 发布时间:2023-12-13 2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini na...
-
ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模...
-
【ScienceAI Weekly】AI+生物凝聚物初创公司宣布裁员15%;科技部明确科研中的AIGC红线;讯飞医疗递表港交所
AI for Science 的新成果、新动态、新视角—— 全球首家将生物分子凝聚体应用于药物发现的公司,宣布裁减 18 个职位 谷歌 DeepMind 发布 AlphaGeometry Evaxion Biotech 宣布用 AI 开发定制癌症疫苗...
-
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...
-
微软开源 SliceGPT:大模型体量压缩25%左右,性能保持不变
微软和苏黎世联邦理工学院的研究人员联合开源了 SliceGPT,该技术可以极限压缩大模型的权重矩阵,将模型体量压缩25% 左右,同时保持性能不变。实验数据显示,在保持零样本任务性能的情况下,SliceGPT 成功应用于多个大型模型,如 LLAMA-270B...
-
详解各种LLM系列|LLaMA 1 模型架构、预训练、部署优化特点总结
作者 | Sunnyyyyy 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/668698204 后台留言『交流』,加入 NewBee讨论组 LLaMA 是Meta在2...
-
20240131在WIN10下配置whisper
20240131在WIN10下配置whisper 2024/1/31 18:25 首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】800¥ 2、请正确安装好NVIDIA最新的545版本的驱动程序...
-
每周AI新闻(2024年第3周)Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4
我是陌小北,一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00,准时解读每周AI大事件。 大厂动向 【1】Meta研发Llama 3,构建开源AGI Meta公司CEO马克·扎克伯格(Mark Zuckerberg)=宣布公司将对两个关键A...
-
谷歌官宣TensorFlow-GNN 1.0发布!动态和交互采样,大规模构建图神经网络
2005年,划时代之作「The Graph Neural Network Model」的问世,将图神经网络带到每个人面前。 在此之前,科学家处理图数据的方式是,在数据预处理阶段,将图转换为一组「向量表示」。 而CNN的出现彻底改变这种信息丢失的弊端,近2...