-
中科院和汪军团队发布 大模型玩星际争霸秀到起飞
面对星际争霸II这一巨大挑战,团队开发了TextStarCraftII——一个全新的交互环境。TextStarCraftII基于python-sc2框架,将游戏中的状态信息和动作空间映射到文本空间。宏观战略动作被转化为LLMAgent能够理解并执行的具体语...
-
这次重生,AI要夺回网文界的一切
重生了,这辈子我重生成了 MidReal。一个可以帮别人写「网文」的 AI 机器人。 这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,...
-
【AIGC】图片生成的原理与应用
前言 近两年 AI 发展非常迅速,其中的 AI 绘画也越来越火爆,AI 绘画在很多应用领域有巨大的潜力,AI 甚至能模仿各种著名艺术家的风格进行绘画。 目前比较有名商业化的 AI 绘画软件有 Midjourney、DALL·E2、以及百度出品...
-
AI视野:Midjourney开始训练视频模型;文心一言用户破亿;优酷上线“AI搜片”功能;快手开源KwaiAgents系统
???AI新鲜事 Midjourney开始训练视频模型 Midjourney昨晚发布了重要消息,将开始视频模型训练,同时计划下周推出V6版本的重大更新。该更新将在文本处理方面有显著进步,提高内容连贯性和提示准确性。重点改进包括Inpainting功能和全新...
-
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
大型语言模型 (LLM 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选...
-
大模型+机器人,详尽的综述报告来了,多位华人学者参与
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。 预训练的大型语言模型(LLM)、大型视觉 -...
-
GPT-4 API曝出重大漏洞 一句prompt就能提取私人信息
近日,GPT-4API曝出了安全漏洞,FAR AI实验室的团队通过微调、函数调用和搜索增强等方式成功越狱了这一先进模型。微调方面,通过15个有害样本和100个良性样本的微调,研究人员发现GPT-4在生成内容时可能会放下安全戒备,包括生成错误信息、提取私人信...
-
什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 鸟瞰图(Bird eye's view, BEV 检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测,这导致了这些算法过...
-
超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接:https://arxiv.org/pd...
-
国内AI大模型的封神榜&死亡笔记;奥特曼首次公开谈宫斗;我有PDF翻译秘诀, 8种!2023年中国AIGC产业全景报告;GitHub Copilot官方入门课 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? Heygen 注销中国公司主体,探索出海新范式 https://www.heygen.com/ HeyGen 是什么? 简单来说,H...
-
大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好
如你我所见,大语言模型(LLM)正在改变深度学习的格局,在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能,但获取高质量人类数据却面临着重大瓶颈。这对于要解决复杂问题的任务...
-
DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes...
-
薅羊毛,国内免费ChatGPT镜像网站列表汇总.。最新的免费PDF分析、AI插件、AI绘画、gpt4通通都有
1.悟道AI https://wudao9.cn/ ●目前看来最好的chatgpt镜像网站,国内可以打开。支持文件上传、论文分析、多种插件、AI绘画等。 ●免费试用gpt3.5,最关键的是PDF分析、论文分析完全免费,简直是学生党的福音。 ●关键的ch...
-
【人话版】关于“AI替代程序员“的7点碎碎念
都说AI替代这个替代那个,不用浪费时间为这种问题焦虑,因为答案已经越来越明显了... 关键是,什么时候?怎么替?。 1 设想一个场景,有个需求要用某个技术或某个框架实现,有两个程序员对这些都不是很熟。 有一个疯狂谷歌、Stackov...
-
10条行之有效的实践途径,将ChatGPT融入开发
在不断变化的技术领域中,ChatGPT及其AI聊天机器人的同类产品正在引领潮流,获得全球的关注。这类产品正在通过提供被认为不可实现的独特价值主张,重新塑造行业格局。对于软件开发人员来说,这些机器人提供了无限的可能性。本文介绍开发人员如何利用AI聊天机器人...
-
AI视野:必应推出GPT-4Turbo模型;抖音测试“AI搜”功能;小红书内测AI聊天机器人;OpenAI计划新一轮融资
????大模型动态 必应推出GPT-4Turbo模型 微软推出Bing Chat的最新模型,GPT-4Turbo,为用户提供更准确和最新的信息。目前仅限部分用户试用,使用方法需通过检查资格确认。 阿里团队推新AI模型I2VGen-XL 视频合成领域迎来...
-
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
Paper name LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Paper Reading Note Paper URL: htt...
-
李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,性能暴涨12%
思维链(CoT),最具开拓性和影响力的提示工程技术之一,能增强LLM在推理决策中的表现。 那么,如果大模型可以在代码中「思考」,会如何呢? 最近,谷歌DeepMind、斯坦福、UC伯克利团队联手提出了全新技术——「代码链」(CoC)。 论文地址:htt...
-
谷歌被打脸!Gemini Pro被证实和GPT3.5差距不大
谷歌最新发布的Gemini Pro自发布以来备受瞩目,谷歌声称其优于GPT-3.5。然而,CMU的研究通过深入的实验对比,展示了GPT-3.5在多个任务上的全面优势。Gemini Pro虽然在某些任务上稍显不足,但整体表现与GPT-3.5相近,为大模型领域...
-
Point Transformer V3:更简单、更快、更强!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Point Transformer V3: Simpler, Faster, Stronger 论文链接:https://arxiv.org/pdf/2312.10035.pdf 代码链接:h...
-
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图...
-
一个算命准确度高达78%的AI,让网友都当上了赛博阎王
咱中国人爱算命这事,是刻在骨子里的执念。 出门前要看看黄历、办公室要讲风水、就连谈恋爱换工作也要算算领导和对象的星座和八字合不合适。 算命姿势也是无奇不有,用八字星座塔罗牌已属过去式,寺庙求签不够潮。 这不,有位中国人就在ChatGPT上训练了一个“算命专...
-
扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优...
-
4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
不仅如此,PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比,在单个 RTX 4090 (24G 上运行 Falcon (ReLU -40B-FP16,实现了 11 倍多的加速,还能保持模型的准确性。 具体来说,PowerIn...
-
AI视野:Midjourney V6史诗级升级;ChatGPT新增存档聊天记录功能;阿里DreaMoving开源;百度千帆AppBuilder开放
???AI新鲜事 Midjourney V6史诗级升级,网友惊呼太逼真! 网友在Midjourney V6第二次社区评价中惊叹其逼真神图,光影效果出众,上线倒计时,可能在今明两天内发布。 ChatGPT新增存档聊天记录功能 12月21日,OpenAI在...
-
AI图片编辑神器Anydoor:开启图片编辑的任意门 图片主体随意移动
随着数字时代图像编辑的飞速发展,来自香港大学、阿里巴巴和蚂蚁集团的新成果AnyDoor为图片编辑开辟了一扇全新的时代之门。 这是一项基于扩散技术的创新,具有将目标物体以和谐的方式传送到用户指定位置的神奇能力。与传统模型需要为每个物体调整参数不同,AnyDo...
-
【EMNLP 2023】面向垂直领域的知识预训练语言模型
近日,阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性,发现在垂直领域的图谱结构具有全局稀疏,局部...
-
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
前段时间,谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra(能力最强)、Pro 和 Nano。研究团队公布的测试结果显示,Ultra 版本在许多任务中优于 GPT4,而 Pro 版本与 GPT-3...
-
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版
可控文生图/定制化文生图 1、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation DreamBooth是一种新的文本到图像扩散模型...
-
PillarNeSt:如何进一步提升基于Pillar的3D目标检测性能?
写在前面 && 笔者的个人理解 目前在自动驾驶领域中,一辆自驾汽车会配备多种传感器,如:激光雷达传感器采集点云数据、相机传感器采集图像数据等。由于激光雷达传感器可以更加准确的获取待检测物体的几何和位置信息,所以基于点云的感知算法模型在快速...
-
逆天!真实可控、可拓展,自动驾驶仿真平台LightSim上新
最近,来自 Waabi AI、多伦多大学、滑铁卢大学和麻省理工的研究者们在 NeurIPS 2023 上提出了一种全新的自动驾驶光照仿真平台 LightSim。研究者们提出了从真实数据中生成配对的光照训练数据的方法,解决了数据缺失和模型迁移损失的问题。L...
-
DALL·E2(unCLIP)、Stable Diffusion、IS、FID要点总结
DALL·E 1 DALL·E 1可以看成是VQ-VAE和文本经过BPE编码得到的embedding AE(Auto Encoder) encoder decoder结构,AE在生成任务时只会模仿不会创造,所有有了后面的VAE VAE(Var...
-
word2vec作者爆料:seq2seq是我的想法、GloVe抄袭技巧,反击来了
随着 NeurIPS 2023 获奖论文的公布,十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Com...
-
OpenAI官宣全新安全团队:模型危险分四级,董事会有权决定是否发布
今天,OpenAI连发多条推特,隆重宣布了自己的「准备框架」(Preparedness Framework)。 在经历了各种大大小小的风波之后,OpenAI终于把人工智能的安全问题摆到了台面上。 这套框架的目的,就是监控和管理越来越强的大模型。 防止哪天...
-
科研神器:Vscode + latex+grammarly+github copilot
科研论文编写神器:Vscode + latex + grammarly + github copilot 相信很多科研人都有使用latex排版及撰写论文的需求,我一开始使用的是在线编辑的overleaf,overleaf的优点是省事便捷,不用配置,并且...
-
UIUC清华联手发布全新代码大模型Magicoder 不到7B参数
在代码生成领域,UIUC和清华合作发布了Magicoder,这一全新的大型语言模型仅使用了7B参数,却能与顶级模型媲美,并以全面开源的方式分享了其代码、权重和数据。Magicoder的关键在于采用了OSS-INSTRUCT方法,该方法通过从开源代码中获取灵...
-
基于onnx模型和onnx runtime推理stable diffusion
直接用diffusers的pipeline: import os from diffusers import OnnxStableDiffusionPipeline, OnnxRuntimeModel from diffusers import DDIM...
-
2024 年的六个生成式 AI 预测
分析师迈克·莱昂内(Mike Leone)预测了生成式人工智能的下一步——从开源到监管转变——提供了对2024年行业发展方向的全面看法。 随着 2023 年接近尾声,是时候展望明年了。当涉及到生成式人工智能时,我们很容易迷失在所有的可能性中——我们在 ...
-
AI视野:OpenAI灰度测试GPT4.5;Midjourney V6模型下周发布;Gemini自曝中文用文心一言训练;LeCun提出AGI七阶段路线图
???AI新鲜事 openAI灰度测试GPT4.5 近日,OpenAI正在对最新的GPT4.5turbo模型进行灰度测试,该模型在文本生成质量、效率、上下文理解、多模态能力、编程和代码生成、安全性、个性化定制等七个方面都取得显著进展。 Gemini自曝...
-
中国科大等发布SciGuard大模型 建立首个科学风险基准
在中国科大等机构的最新研究中,科学家们发布了一项重要的成果,即SciGuard和SciMT-Safety。这一创新性方法的目标是保护AI for Science模型,以防止其在生物、化学、药物等领域被不当使用。为此,研究团队还建立了首个专注于化学科学领域安...
-
GPT-4V都搞不明白的未来推理有解法了!来自华科大&上科大
多模态大语言模型展现了强大的图像理解和推理能力。 但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。 即便是当前最强大的GPT-4V(如下图所示),也无法很好地解决这一问题。 △ GPT-4V的错误案例 现在,华科大和上科大团队提出了一个赋予...
-
Midjourney自学相关网站:【教程】【关键词生成工具】【后期插件神器】
【Midjourney注册相关网址】 Midjourney网址: https://www.midjourney.com/home/ discord网址: https://discord.com/ 【教程类】 Midjourney官方帮助...
-
Stable Diffusion AnimateDiff | 最火文本生成视频插件
AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。简言之,AnimateDiff通过训练大量短视频来优化图像之间...
-
LLaMA-META发布单卡就能跑的大模型
2023年2月25日,Meta使用2048张A100 GPU,花费21天训练的Transformer大模型LLaMA开源了。 1.4T tokenstakes approximately 21 days 以下是觉得论文中重要的一些要点 1)...
-
stable diffusion安装包和超火使用文档,数字人制作网址
一:文生图、图生图 1:stable diffusion:对喜欢二次元、美女小姐姐、大眼萌妹的人及其友好哈哈(o^^o 1):秋叶大神安装包和模型包: 链接:https://pan.baidu.com/s/11_kguofh76gwhTBPUipe...
-
走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理
给你一首曲子的音频和一件乐器的 3D 模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但语言模型有能力办到这一点吗? 实际上,...
-
源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini
Hugging Face 技术负责人 Philipp Schmid 表示:“代码自动补全工具,如 GitHub Copilot,已被超过一百万开发者使用,帮助他们的编码速度提高了 55%。看到像 Magicoder 和 OSS-INSTRUCT 这样的开...
-
哀悼!55岁商汤科技创始人汤晓鸥突然离世,他撑起中国计算机视觉研究半壁江山
沉痛悼念! 2023年12月15日23时45分,商汤科技创始人汤晓鸥教授因病救治无效不幸离世,终年55岁。 天妒英才,继孙剑博士2年前意外辞世后,中国AI界再失一位领军人物。 计算机视觉的开拓者 毫不夸张地说,汤晓鸥教授是中国计算机视觉的开拓者和探路...