-
Stable Diffusion学习
参考 Stable Diffusion原理详解_stable diffusion csdn-CSDN博客 Stable Diffusion是stability.ai开源的图像生成模型,可以说Stable Diffusion的发布将AI图像生成提高到了全新...
-
近200+自动驾驶数据集全面调研!一览如何数据闭环全流程
写在前面&个人理解 自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展,并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集,但要么集中在有限数量的数据集上,要么缺乏对数据集特征的详细调查...
-
纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画
只会「看书」的大语言模型,有现实世界的视觉感知力吗?通过对字符串之间的关系进行建模,关于视觉世界,语言模型到底能学会什么? 最近,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究人员对语言模型的视觉能力进行了系统的评估,从简单形状、物体...
-
人工智能范式从模型为中心转向数据为中心
面向数据的人工智能可以有助于减少生成式AI系统中的幻觉和偏见,从而提高其输出质量。 译自The Paradigm Shift from Model-Centric to Data-Centric AI,作者 Rahul Pradhan 拥有16年以上的经...
-
AIGC的隐私安全问题及隐私保护技术
作者:京东科技 杨博 ChatGPT 才出现两个月,就已经引起了学术界的关注。微软成为ChatGPT母公司OpenAI的合作伙伴,并确认投资百亿美元。同时,微软正计划将 OpenAI 的技术整合到其产品中,包括Bing搜索引擎和其他软件,以增强它们的能力...
-
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intellige...
-
一文了解国外AIGC头部产品
AIGC是指通过人工智能技术生成的内容,包括文字、图片、音频和视频等。AIGC技术可以基于大量的数据和算法,自动地生成各种类型的内容,可以用于新闻报道、广告宣传、文学创作、游戏设计等各个领域。AIGC技术的优点在于可以大大提高内容生产的效率和质量,节省了人...
-
GPT-4不服被Bard反超:最新模型已入场
“大模型排位赛”权威榜单Chatbot Arena刷新: 谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。 然鹅,众多网友对此却表示“不服”、“不公平”。 原来,谷歌AI掌门人Jeff Dean透露,Bard性能大幅提升,是因为...
-
德克萨斯州大学将建立学术界最大之一的生成式AI中心
德克萨斯州奥斯汀 - 德克萨斯大学奥斯汀分校(UT)正在建立一个学术界最强大的人工智能中心,以引领研究并为广泛的合作伙伴提供世界一流的人工智能基础设施。 图源备注:图片由AI生成,图片授权服务商Midjourney UT正在启动生成式人工智能中心,该中心...
-
微软使用AI加HPC分析3200万种新材料
微软与太平洋西北国家实验室合作,利用AI与高性能计算(HPC)技术对3200种新型候选材料进行建模,希望加快高效可充电电池材料的发现速度。该项目还希望进一步支撑微软的发展目标,在未来25年内将绵延250年的人类化学研究史纳入数据模型。 Azure量子元...
-
大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增
大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。 一般来讲,这些模型压缩技术可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝...
-
Netflix旗下工作室招AI岗位 懂stable diffusion成硬技能
Netflix 旗下的一家大型视觉特效工作室正在招聘一系列人工智能职位,包括生成成像、工作流程设计、模型训练、数据采集,甚至机器学习研究人员。 从招聘要求来看,Netflix需要用户具备一定AI技能,尤其是需要擅长使用stable diffusion。...
-
链世界:一种简单而有效的人类行为Agent模型强化学习框架
强化学习是一种机器学习的方法,它通过让智能体(Agent)与环境交互,从而学习如何选择最优的行动来最大化累积的奖励。强化学习在许多领域都有广泛的应用,例如游戏、机器人、自动驾驶等。强化学习也可以用于干预人类的行为,帮助人类实现他们的长期目标,例如戒烟、减...
-
Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。 近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用...
-
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。 想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...
-
CMU华人18万打造高能机器人,完爆斯坦福炒虾机器人!全自主操作,1小时学会开12种门
比斯坦福炒虾机器人还厉害的机器人来了! 最近,CMU的研究者只花费2.5万美元,就打造出一个在开放世界中可以自适应移动操作铰接对象的机器人。 论文地址:https://arxiv.org/abs/2401.14403 厉害之处就在于,它是完全自主完成操作...
-
GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板
当你让大模型写一首「莎士比亚十四行诗」,并以严格的韵律「ABAB CDCD EFEF GG」执行。 同时,诗中还要包含提供的3个词。 对于这么高难度的创作题,LLM在收到指令后,并不一定能够按要求做出这首诗。 正所谓,人各有所长,LLM也是如此,仅凭单...
-
无需人工标注!LLM加持文本嵌入学习:轻松支持100种语言,适配数十万下游任务
文本嵌入(word embedding)是自然语言处理(NLP)领域发展的基础,可以将文本映射到语义空间中,并转换为稠密的矢量,已经被广泛应用于各种自然语言处理(NLP)任务中,如信息检索(IR)、问答、文本相似度计算、推荐系统等等, 比如在IR领域,第...
-
十分钟读懂Stable Diffusion运行原理
AIGC 热潮正猛烈地席卷开来,可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度,特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性,也在逐渐改变一部分行业的生产模式。惊...
-
AI时代来了,专业摄影师会被淘汰吗?
现在科技界几乎已经形成一种共识,即随着AI的进化,很多职位将会被替代,当中就包括专业摄影师。 Medium在报告中指出:“随着AI和图像处理技术的发展,摄影正在从高技巧创作变成了以技术驱动的创作。在技术的加持下,即使是普通用户,也可以拍出高质量影像,传...
-
360度无死角!UC伯克利华人发布3DHM框架:一张图片即可模仿任意视频动作
输入一张任意姿势的照片,想让照片里的人跟随「指定视频」来进行动作模仿并不简单,除了肢体动作的模仿外,模型还需要对运动过程中衣服、人物外观的变化进行建模。 如果输入图像是正面的,而模仿的视频动作包括转身的话,模型还需要「想象」出衣服的背面样子,以及衣...
-
谷歌AI研究提出 SpatialVLM:一种数据合成和预训练机制,以增强视觉语言模型 VLM 空间推理能力
谷歌AI研究团队最近提出了SpatialVLM,这是一种旨在增强视觉语言模型(VLMs)空间推理能力的创新系统。 尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展,但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及...
-
未来五年AI如何改变各学科?从LLM到AI蛋白设计、医疗保健......
五年前(2019 年 1 月),《Nature Machine Intelligence》创刊。当然,就人工智能(AI)而言,五年前似乎是一个不同的时代。 1 月 24 日,Nature Machine Intelligence 杂志在《Annivers...
-
LLM巫师,代码预训练是魔杖!UIUC华人团队揭秘代码数据三大好处
大模型时代的语言模型(LLM)不仅在尺寸上变得更大了,而且训练数据也同时包含了自然语言和形式语言(代码)。 作为人类和计算机之间的媒介,代码可以将高级目标转换为可执行的中间步骤,具有语法标准、逻辑一致、抽象和模块化的特点。 最近,来自伊利诺伊大学香槟分校...
-
从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成
建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。 它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序...
-
过去两周,六个最有可能改变AI进程的发布!
编译 |言征 过去两周,新的人工智能更新不断涌现,异常疯狂。我们决定整理最近发布的六大框架和模型。 1、ActAnywhere:主题感知视频背景生成 图片 Adobe Research和斯坦福大学推出了Act Anywhere,这是一种生成模型,解决了电...
-
论文智能降重翻车 ai写作
大家好,今天来聊聊论文智能降重翻车 ai写作,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 论文智能降重翻车事件分析 随着智能降重工具的普及,越来越多的学者和研究人员选择使用这些工具来辅助论...
-
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
Large Language Models for Software Engineering: A Systematic Literature Review 写在最前面 论文名片 课堂讨论 RQ1部分:LLMs的选择和优化 RQ2部分:LLM...
-
Altman地位又危了?!OpenAI董事会邀请竞争对手加入,还挖角谷歌Gemini高管
Altman的地位又危险了? 据知情人士透露,上个月,OpenAI董事会的Adam D'Angelo致电Databricks的首席执行官Ali Ghodsi,询问Ghodsi是否考虑加入OpenAI董事会。 Adam D'Angelo 本来找知名公司高...
-
推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历
去年12月,CMU和普林斯顿的2位研究者发布了Mamba架构,瞬间引起AI社区震动! 结果,这篇被众人看好有望「颠覆Transformer霸权」的论文,今天竟曝出疑似被顶会拒收?! 今早,康奈尔大学副教授Sasha Rush最先发现,这篇有望成为奠基之作...
-
大模型×文本水印:清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述
论文:A Survey of Text Watermarking in the Era of Large Language Models 论文链接:https://arxiv.org/abs/2312.07913 大模型时代:文本水印新纪元 文本水...
-
工作场所中的人工智能、元宇宙和DEI
随着人工智能和元宇宙重塑工作,领导者应该考虑新兴技术影响DEI的三个关注领域和机会。 2023年夏天,当代表好莱坞演员和作家的工会举行罢工时,一个关键的症结是使用人工智能来完成人类作家和演员的工作。一家领先的商业银行宣布,其正在利用元宇宙和人工智能的结...
-
NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜
近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。 在NeurIPS会议总共接受的3586篇论文之中,除去6篇获奖论文,其他论文也同样优秀和具有潜力,甚至有可能预示着下一个AI领域的新突破...
-
整理一下最近了解到的AIGC工具
AIGC工具的一点整理 前言 AIGC类型 图像生成类 Stable diffusion Midjourney DALL·E 2 三种工具比较 DeepFloyd IF 文本生成 语音生成 So-vits-svc 4.0 结尾...
-
AI打造“魔法博物馆”,五分钟完成一件“3D展品”
注意看,这是一家“魔法博物馆”,陈列的展品琳琅满目,甚至还有机甲套装…… 魔法镜子、水晶法杖……也是一应俱全,仿佛真的进入了魔法世界。 没错,这个“博物馆”里的“展品”全都是由AI打造的,而且一件只需要五分钟。 来自南洋理工大学、上海AI实验室等机构...
-
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码
谷歌一出手,又把AI视频生成卷上了新高度。 一句话生成视频,现在在名为Lumiere的AI操刀下,可以是酱婶的: △“阳光明媚,帆船在湖中航行” 如此一致性和质量,再次点燃了网友们对AI视频生成的热情:谷歌加入战局,又有好戏可看了。 不止是文生视频,...
-
强化学习和世界模型中的因果推断
一、世界模型 “世界模型”源于认知科学,在认知科学里面有一个等价的词汇 mental models,也就是心智模型。那么什么是心智模型?在认知科学里有一个假设,认为人在大脑内部会有一个对于真实外在世界的表征,它对于认知这个世界,特别是推理和决策有很关...
-
AGI和AIGC傻傻分不清楚,一篇文章带你get
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 什么是 AGI(人工通用智能 ? AGI 是 Artificial General Intelligence 的缩写,中文翻译为“通...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
30岁以下的人都去哪儿了?OpenAI费尽心机吸引年轻人
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 比尔盖茨的博客栏目「与比尔·盖兹一起解惑」近日大火,OpenAI首席执行官奥特曼表示,OpenAI“不是由一群24岁的程序员运营的”,并表示这很令人担忧。 目前,许多热门的AI...
-
为什么大语言模型容易受到“蝴蝶效应”的影响
提示是我们让GenAI和大型语言模型与我们对话的方式,这本身就是一种艺术形式,因为我们试图让AI为我们提供‘准确’的答案。 但变种又如何呢?如果我们以某种方式构建提示,它会改变模型的决策(并影响其准确性 吗? 答案是:根据南加州大学信息科学研究所的研究...
-
OpenAI 董事会邀请竞争对手加入,挖角谷歌Gemini高管
据知情人士透露,OpenAI 董事会的 Adam D'Angelo 上个月致电 Databricks 的首席执行官 Ali Ghodsi,询问他是否考虑加入 OpenAI 董事会。这一举动引发了人们对 OpenAI 董事会动荡的担忧,尤其是对于 Altma...
-
研究: AI代替打工人成本太高,只有23% 视觉工作可替代
根据 MIT 计算机科学与人工智能实验室的研究,人工智能对打工人的淘汰速度可能比人们想象中的要慢得多。这是因为对于企业来说,视觉 AI 实在是太贵了。在绝大多数情况下,人力成本要比采用自动化更便宜。 图源备注:图片由AI生成,图片授权服务商Midjour...
-
全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步
过去一年,生成式人工智能发展的核心关键词,就是「大」。 人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界...
-
如何应对AI增强的新型网络钓鱼攻击?
网络安全是一场持续不断的攻防竞赛,随着防御策略的不断改进,攻击者也在持续寻求增强攻击效果的新技术。研究人员发现,在目前广泛流行的网络钓鱼活动中,AI技术的采用和传播速度正在惊人发展,甚至会在不久的将来完全淘汰传统的人工网络钓鱼攻击。企业组织该如何面对这...
-
美国国家科学基金会与科技巨头合作,推动拜登重大AI科学计划
美国国家科学基金会(NSF)与其他10个政府机构携手人工智能开发商,共同推动总统拜登在人工智能领域的重大计划。这一合作计划的核心是推出国家人工智能研究资源(NAIRR 试点计划,旨在实现拜登总统的人工智能行政命令,通过向政府机构提供人工智能研究中心的访问,...
-
MIT新研究:打工人不用担心被AI淘汰!成本巨贵,视觉工作只有23%可替代
人工智能会抢走我们的工作吗?如果你每天都看硅谷高管谈论着当今尖端的AI技术,可能会觉得答案是肯定的,并且会很快发生。 不过,刚刚MIT计算机科学与人工智能实验室(CSAIL)最近的一项研究,可以让我们可以松一口气了:至少视觉AI还无法替代太多人类。 论...
-
AskDocs官网体验入口 AI文档处理工具软件app在线使用地址
AskDocs是您的AI助手,可以快速阅读、理解、查找和总结来自您的文档的信息。它可以处理多种文件类型,支持PDF、DOCX、TXT、CSV、EPUB和YouTube链接。用户可以选择不同的定价方案,根据需求选择适合自己的功能。通过AskDocs,用户可以...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
「think step by step」还不够,让模型「think more steps」更有用
如今,大型语言模型(LLM)及其高级提示策略的出现,标志着对语言模型的研究取得了重大进展,尤其是在经典的 NLP 任务中。这其中一个关键的创新是思维链(CoT)提示技术,该技术因其在多步骤问题解决中的能力而闻名。这项技术遵循了人类的顺序推理,在各种挑战中...