-
《AIGCmagic星球》,五大AIGC方向正式上线!让我们在AIGC时代携手同行!限量活动中!
AIGC:AI行业前所未有的新时代 AIGC时代蓬勃的发展势头,ToB和ToC的双重可能性,让AIGC方向的未来不可限量。 根据艾瑞咨询预测,中国的AIGC产业规模在2023年约为143亿元,2028年预计将达到7202亿元,建立完善的AIGC产业生...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
DALL·E 2(内含扩散模型介绍)【论文精读】Hierarchical Text-ConditionalImage Generation with CLIP Latents
1官方对模型的介绍 大家好,今天我们就一起来看一下两个月之前 OpenAI 刚放出来的一篇力作。DALL·E 2是 OpenAI 一系列文本图像生成工作的最新一篇。去年 1 月份他们先推出了Dolly,然后在年底的时候又推出了glide。...
-
AI写作工具:是否会陷入重复的困境?
大家好,小发猫降重今天来聊聊AI写作工具:是否会陷入重复的困境?,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作工具:是否会陷入重复的困境? 随着人工智能技术的快速发展,AI写...
-
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调 文章原始地址:https://onlyar.site/2024/01/14/NLP-LLaMA-Factory-web-tuning/ 引言 大语...
-
OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!
4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。 这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
AIGC批量图生成的一些思考
从技术到先进生产力,从先进装备到作战能力,中间隔了一道GAP。现在AI技术进展很快,开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元,为业务带来实际的价值是我们必须要解决的一个问题。 消费侧技术点 中文clip: 这...
-
首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M to...
-
Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟
著名开源大模型平台 Stability.ai 在官网正式发布了音频模型 Stable Audio2.0。这一版本支持用户通过文本或音频生成多种类型的高质量音乐,时长可达3分钟44.1kHz。 相较于之前的版本,Stable Audio2.0采用了 Dif...
-
快手强化学习与多任务推荐
一、Two-Stage Constrained Actor-Critic for Short Video Recommendation 第一篇工作是快手自研的,主要针对的是带约束的多任务场景。 1. 短视频多任务推荐场景 这篇工作主要针对的是短视频的一...
-
80M参数打平GPT-4!苹果发超强上下文理解模型ReALM,聪明版Siri马上就来
【新智元导读】苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。 会读心的Siri想不想要? 今天,苹果发布了自家的最新...
-
80M参数打平GPT-4!苹果发超强上下文理解模型,聪明版Siri马上就来
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 会读心的Siri想不想要? 今天,苹果发布了自家的最新模型ReALM,仅需80M参数,就能在上下文理解能力上打平甚至超越GPT-4!...
-
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同...
-
LLM超长上下文查询-性能评估实战
在大型语言模型(LLM)的应用中,有几个场景需要以结构化的方式呈现数据,其中信息提取和查询分析是两个典型的例子。我们最近通过更新的文档和一个专门的代码仓库强调了信息提取的重要性。对于查询分析,我们同样更新了相关文档。在这些场景中,数据字段可能包括字符串、...
-
在线建图与轨迹预测如何紧密结合?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Producing and Leveraging Online Map Uncertainty in Trajectory Prediction 论文链接:https://arxiv.org/...
-
开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0. 这篇文章干了啥? 提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高...
-
ChatGPT也在评审你的顶会投稿,斯坦福新研究捅了马蜂窝,“这下闭环了”
尴了个大尬! 人们还在嘲讽有人用ChatGPT写论文忘了删掉“狐狸尾巴”,另一边审稿人也被曝出用ChatGPT写同行评论了。 而且,还是来自ICLR、NeurIPS等顶会的那种。 来自斯坦福的学者对一些顶级AI会议(如ICLR、NeurIPS、CoRL...
-
Meta LLaMA 2实操:从零到一搭建顶尖开源大语言模型【超详篇】
前言 本文章由 [jfj] 编写,所有内容均为原创。涉及的软件环境是在nvidia-docker环境进行的,如对docker未了解如何使用的,可以移步上一篇文章nvidia-docker安装详解。 在 nvidia-docker 容器中运行时,Dock...
-
探索使用对比损失的孪生网络进行图像相似性比较
简介 在计算机视觉领域,准确地测量图像相似性是一项关键任务,具有广泛的实际应用。从图像搜索引擎到人脸识别系统和基于内容的推荐系统,有效比较和查找相似图像的能力非常重要。Siamese网络与对比损失结合,为以数据驱动方式学习图像相似性提供了强大的框架。在...
-
每日一看大模型新闻(2024.1.12)首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%;谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途;为大模型恶补数学
1.产品发布 1.1 Luma AI:推出文生3D模型Genie 1.0 发布日期:2024.1.12 https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20 主要内...
-
让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%
撰稿丨诺亚 出品 | 51CTO技术栈(微信号:blog51cto) 总被用户吐槽“有点智障”的Siri有救了! Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽如人意。然而,苹果的人工智能团队最新...
-
突破障碍:生成式人工智能如何重塑数据分析领域
在当今市场状况下,企业必须不断寻求新方法来利用技术突破以保持领先地位。生成式人工智能是一个近年来迅速扩展的突出领域。 Gartner预测,到2026年,超过80%的组织将使用生成式人工智能API、模型或应用程序,而2023年这一比例不到5%。生成式人工智...
-
Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习
笔记整理:张廉臣,东南大学硕士,研究方向为自然语言处理、信息抽取 链接:https://arxiv.org/pdf/2305.02105.pdf 持...
-
扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径
「扩散模型」也能攻克算法难题? 图片 一位博士研究人员做了一个有趣的实验,用「离散扩散」寻找用图像表示的迷宫中的最短路径。 图片 作者介绍,每个迷宫都是通过反复添加水平和垂直墙生成的。 其中,起始点和目标点随机选取。 从起点到目标点的最短路径中,随机采样...
-
苹果AI放大招?新设备端模型超过GPT-4,有望拯救Siri
在最近的一篇论文中,苹果的研究人员宣称,他们提出了一个可以在设备端运行的模型,这个模型在某些方面可以超过 GPT-4。 具体来说,他们研究的是 NLP 中的指代消解(Reference Resolution)问题,即让 AI 识别文本中提到的各种实体...
-
RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天...
-
LLaMA 模型中的Transformer架构变化
目录 1. 前置层归一化(Pre-normalization) 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入(RoPE) 5. 注意力机制优化 6. Group Query Attention 7. 模型...
-
阿里7B多模态文档理解大模型拿下新SOTA
多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为M...
-
集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder
Stability AI又有新动作!程序员又有危机了? 3月26日,Stability AI推出了先进的代码语言模型Stable Code Instruct 3B,该模型是在Stable Code 3B的基础上进行指令调优的Code LM。 Stab...
-
4G显存玩转AI绘画!Stable Diffusion WebUI Forge来了!
经常使用Stable Diffusion WebUI的同学可能都被显存的问题困扰过,其运行时需要巨大的显存空间,跑着跑着显存可能就爆了,不得不重新启动。不过现在这个问题解决了,因为Stable Diffusion WebUI Forge来了。 Forge...
-
马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4
就在刚刚,马斯克Grok大模型宣布重大升级。 难怪之前突然开源了Grok-1,因为他有更强的Grok-1.5了,主打推理能力。 来自xAI的官方推送啥也没说,直接甩链接。主打一个“字少事大” 图片 新版本Grok有啥突破? 一是上下文长度飙升,从8192...
-
Python爬虫-数据采集和处理
文章目录 数据 数据类型 数据分析过程 数据采集 数据采集源 数据采集方法 数据清洗 清洗数据 数据集成 数据转换 数据脱敏 数据 《春秋左传集解》云:“事大大其绳,事小小其绳。”体现了早期人类将事情的“大小”这一性质抽象...
-
孟子3-13B大模型正式开源
澜舟科技近日宣布,其研发的孟子3-13B大模型正式开源,并向学术研究领域全面开放,同时支持免费商用。这一轻量化大模型在多项基准测试中展现了优异的性能,特别是在参数量20B以内的模型中,其中英文语言能力尤为突出,数学和编程能力也位于行业前列。 孟子3-13B...
-
让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些 VPT 的计算量变得越来越大,这些巨大的计算量同时也限制了这个领域的进一步发展,对那些计算资源不足的研究者十分不友好。例如,训练...
-
0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练
澜舟科技官宣:孟子3-13B大模型正式开源! 这一主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用。 在MMLU、GSM8K、HUMAN-EVAL等各项基准测评估中,孟子3-13B都表现出了不错的性能。 尤其在参数量20B以内的轻量化大模...
-
Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型
近期,中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架,通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据...
-
全面综述!大模型到底微调个啥?或者说技术含量到底有多大?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大型模型代表了多个应用领域的突破性进展,能够在各种任务中取得显著成就。然而,它们前所未有的规模带来了巨大的计算成本。这些模型通常由数十亿个参数组成,需要大量的计算资源才...
-
探索LLaMA模型:架构创新与Transformer模型的进化之路
引言 在人工智能和自然语言处理领域,预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI(前身为Facebook)在2023年2月推出的LLaMA(Large Language Model Meta AI)模型引起了广泛关注。LLaMA模型以...
-
“真假难辨”!巧用NeRF生成的自动驾驶仿真数据
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 神经辐射场(NeRF)已成为推进自动驾驶(AD)重新搜索的有前途的工具,提供可扩展的闭环模拟和数据增强功能。然而,为了信任模拟中获得的结果,需要确保AD系统以相同的方式...
-
【Stable Diffusion初学者指南】模型指南
文章目录 微调模型 什么是微调? 人们为什么要制作Stable Diffusion模型? 模型是如何创建的? 流行的Stable Diffusion模型 Stable diffusion v1.4 Stable diffusion v1....
-
恐怖谷!哥大华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
此前,人形机器人Ameca「大梦初醒」的神情,已让许多人感受到了真正的「恐惧」。 随着ChatGPT横空出世,得到加持的人形机器人虽擅长语言交流,但是在非语言交流,特别是面部表情,还差得很远。 未来,如果人类真的要生活在一个充满机器人的世界之中,机器...
-
我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员
马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。 现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”了他一把(doge): 我不得不恳求他允许我招人。 他(马斯克)总是默认要裁掉员工。 喜欢裁人之外,在这场红杉组织的AI A...
-
python与机器学习日记——文心一言对话记录节选保存
——个人学习用,不适用于大佬——— 虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。 看了两章西瓜书,先都别管,读取文件试试:一言哥说得先...
-
Code Llama 简介,一种最先进的大型编码语言模型
Code Llama 简介,一种最先进的大型编码语言模型 2023 年 8 月 24 日...
-
Stable Diffusion——Animate Diff一键AI图像转视频
前言 AnimateDiff 是一个实用框架,可以对文本生成图像模型进行动画处理,无需进行特定模型调整,即可为大多数现有的个性化文本转图像模型提供动画化能力。而Animatediff 已更新至 2.0 版本和3.0两个版本,相较于 1.0 版本,2.0...
-
Stable Diffusion之核心基础知识和网络结构解析
Stable Diffusion核心基础知识和网络结构解析 一. Stable Diffusion核心基础知识 1.1 Stable Diffusion模型工作流程 1. 文生图(txt2img 2. 图生图 3. 图像优化模块 1.2...
-
从零开始的LLaMA-Factory的指令增量微调
大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步,扬帆起航。 大模型应用向开发路径及一点个人思考 大模型应用开发实用开源项目汇总 大模型问答...
-
LLaMA-Factory参数的解答
打开LLaMA-Factory的web页面会有一堆参数 ,但不知道怎么选,选哪个,这个文章详细解读一下,每个参数到底是什么含义这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数不对请反馈一下,或者有补充的也可以!谢谢(后续该文章可能会持续更新)...
-
AIGC发展史
1 AIGC概况 1.1 AIGC定义 AIGC(AI Generated Content)是指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人...