-
生成式AI大模型之提示词工程实践
提示工程是一个新兴的领域,专注于开发、设计和优化提示,以增强 LLM 的输出,从而满足您的需求。它为您提供了一种引导模型的行为从而达到您想要实现的结果的方法。 提示工程与微调不同。在微调中,使用训练数据调整权重或参数,目标是优化成本函数。就计算时间和实...
-
陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)
陈巍:2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、...
-
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
继16亿轻量级Stable LM 2推出之后,12B参数的版本在今天亮相了。 见状,不少网友纷纷喊话:干的漂亮!但,Stable Diffusion 3啥时候出啊? 总得来说,Stable LM 2 12B参数更多,性能更强。 120亿参数版本包含了...
-
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...
-
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
30个方向130篇!CVPR 2023最全AIGC论文 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2...
-
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
引言 今天带来经典论文 LLaMA: Open and Efficient Foundation Language Models 的笔记,论文标题翻译过来就是 LLaMA:开放和高效的基础语言模型。 LLaMA提供了不可多得的大模型开发思路,为很多国...
-
Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型
近期,中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架,通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据...
-
吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果
AI 智能体是去年很火的一个话题,但是 AI 智能体到底有多大的潜力,很多人可能没有概念。 最近,斯坦福大学教授吴恩达在演讲中提到,他们发现,基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然,基于 GPT-4 构建的智能体工...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人,跑步又破纪录了! 最近,HYBRID ROBOTICS研究团队的Cassie,给我们来了一段惊艳的表演—— 以2分34秒的成绩,跑完了400米! 随后,它又在不需要额外训练的情况下,完成了1.4米的跳远。 是的,相信你已经注意到了...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。 多年来,微...
-
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里...
-
吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型
随着 ChatGPT、GPT-4、Sora 的陆续问世,人工智能的发展趋势引起了广泛关注,特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问:人工智能领域下一个突破方向将会是什么? 今天,人工智能著名学者、斯坦福大学教授吴恩达指...
-
一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前...
-
学好线性代数,玩转推荐系统
作者 | 汪昊 审校 | 重楼 说到21 世纪互联网的技术,除了 Python / Rust / Go 等一系列新型编程语言的诞生,信息检索技术的蓬勃发展也是一大亮点。互联网上第一个纯技术商业模式就是以谷歌和百度为代表的搜索引擎技术。然而让大家臆想不到的...
-
无需训练,Fast-DetectGPT让文本检测速度提升340倍
大语言模型如 ChatGPT 和 GPT-4 在各个领域对人们的生产和生活带来便利,但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法 ——Fast-DetectGPT,无需训练,直接使用开源小语言模型检测各种大...
-
AI大模型控制红绿灯,港科大(广州)智慧交通新成果已开源
大模型“上路”,干起了交通信号控制(TSC)的活~ 模型名为LightGPT,以排队及不同区段快要接近信号灯的车辆对路口交通状况分析,进而确定最好的信号灯配置。 该模型由香港科技大学(广州)的研究团队提出,其背后关键是一个名为LLMLight的框架。...
-
仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM
时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在:比如说在零售场景下中,「提高需求预测准确性」可以有显著降低库存成本并增加收入。 深度学习(DL)模型基本上垄断了「多变量时间序列预测」任务,在各个竞赛、现实应用中的表现都非常好。 与...
-
苹果大模型MM1入场:参数达到300亿 超半数作者是华人
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。 今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。 图神经网络(Graph Neural Networks, GNNs)基于迭代的消息传递机制,能...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
OpenVoice官网体验入口 AI语音生成软件工具app免费下载地址
OpenVoice是一个开源的语音克隆技术,可以准确地克隆参考音色,生成多种语言和口音的语音。以下是该应用的详细介绍: OpenVoice工作原理 主要功能:实现准确克隆参考音色,控制语音风格和参数。 技术特点:实现零样本跨语言语音克隆,无需参考...
-
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多...
-
「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题
遮挡是计算机视觉很基础但依旧未解决的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉系统却依靠着视觉信息进行感知和理解,并且在现实世界中,物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任...
-
马斯克用微软论文当论据起诉OpenAI:你们自己早承认AGI了
大概也只有马斯克敢了。 用微软论文当证据,起诉OpenAI。 一年前微软研究院发表的论文《Sparks of AGI:Early experiments with GPT-4》,现在成为了马斯克起诉书中的关键角色。 这篇论文通过分析早期GPT-4的能力,...
-
端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。 他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Paramet...
-
高质量论文中文翻译:Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S
Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录 摘要 介绍 我们的贡献...
-
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。 最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。 它能够通过单一冻结模型,处理各种视频理解任务。 图片 论文地址:https://a...
-
EfficientViT-SAM:精度不变原地起飞!
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientV...
-
单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法
众所周知,对于大语言模型来说,规模越大,所需的算力越大,自然占用的资源也就越多。 研究人员于是乎把目光转到了这片领域,即模型的稀疏化(Sparsification)。 今天要介绍的SliceGPT,则可以实现模型的事后稀疏。也就是说,在一个模型训练完了以...
-
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(二)
3 评价结果 3.1 Spider 数据集 表 2 列出了各种提示策略和模型组合的执行准确性 (EX 和测试套件 (TS 的准确性。我们的主要发现是: 开源模型在 Spider 数据集上遇到了困难:尽管参数数量和模型性能之间存在正相关关系...
-
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了...
-
AIGC时代:大模型ChatGPT的技术实现原理、行业实践以及商业变现途径
大数据与人工智能实战专家—周红伟老师 法国科学院数据算法博士/曾任猪八戒大数据科学家/曾任马上消费金融风控负责人 课程背景 2023年,以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼...
-
微软开源 SliceGPT:大模型体量压缩25%左右,性能保持不变
微软和苏黎世联邦理工学院的研究人员联合开源了 SliceGPT,该技术可以极限压缩大模型的权重矩阵,将模型体量压缩25% 左右,同时保持性能不变。实验数据显示,在保持零样本任务性能的情况下,SliceGPT 成功应用于多个大型模型,如 LLAMA-270B...
-
AI绘画优秀开源项目推荐
AI绘画优秀开源项目推荐 stable-diffusion-webui:基于 Gradio 库的 Stable Diffusion 浏览器界面 InvokeAI:InvokeAI是稳定扩散模型的领先创意引擎,使专业人员、艺术家和爱好者能够使用最...
-
【AI绘画】Stable Diffusion扩散模型 + Consistency一致性模型 小白必看!!!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史...
-
斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了
最新一代语言模型(尤其是 GPT-4、PaLM 和 LLaMa)已经成功拓展了自然语言处理和生成的边界。这些大规模模型可以解决许多不同任务,从写莎士比亚风格的十四行诗到总结复杂的医疗报告和解决竞赛级的编程问题。尽管这些模型可以解决多种多样的问题,但它们并...
-
GPT-SoVITS官网体验入口 AI文本生成合成转换语音在线免费使用地址
GPT-SoVITS是一个强大的零样本语音转换和文本到语音WebUI。它具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能。该产品支持英语、日语和中文,提供了集成工具,包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练...
-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
两亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」
最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。 这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。 简而言之,...
-
百度起诉文心一言公司 涉及不正当竞争纠纷
根据天眼查App的最新信息,近日,天津的文心一言(天津)智能科技有限公司被发现新增了一则开庭公告。这起案件涉及到北京百度网讯科技有限公司与该公司之间的不正当竞争纠纷。具体开庭日期定于3月26日,将在天津市和平区人民法院进行审理。 从天眼查的数据来看,有多家...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)
摘要 ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我...
-
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布...
-
Segment Anything论文翻译,SAM模型,SAM论文,SAM论文翻译;一个用于图像分割的新任务、模型和数据集;SA-1B数据集
【论文翻译】- Segment Anything / Model / SAM论文 论文链接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...
-
【多模态】13、Vision-Language 模型在视觉任务中的调研
文章目录 一、简介 二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集 三、迁移学习 3.1 使用 prompt tunin...
-
图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定
能不能有一种通用的图模型—— 它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐? 或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制? 你还真别说,被ICLR 2024接收为Spotlight的“One for All(OFA)...