-
AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用
大家好,我是猫先生,AI技术爱好者与深耕者!! 2022年是AIGC(生成式AI)元年!从这一年开始,可谓是百家争鸣,各种技术层出不穷,再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众...
-
LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙/LLaMA 2
前言 近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇 ,还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节 ...
-
GPT-4、百度文心一言摆擂,AI大模型将掀起新一轮AIGC军备竞赛?
科技云报道原创。 一觉醒来,万众期待的GPT-4来了。OpenAI老板Sam Altman直接开门见山地介绍说:“这是我们迄今为止功能最强大的模型!”仅隔一天,“中国版ChatGPT”百度文心一言正式发布,双方大有摆擂之势。 当深度学习推动AI技术...
-
使用OpenVINO™在算力魔方上加速stable diffusion模型
作者:武卓博士 英特尔AI布道师 刘力 英特尔物联网行业创新大使 什么是stable diffusion模型? Stable Diffusion是stability.ai开源的AI图像生成模型,实现输入文字,生成图像...
-
碎片笔记|AIGC核心技术综述
前言:AIGC全称为AI-Generated Content,直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的...
-
最新开源!更擅长推理的LLaMA大模型,支持中文
©PaperWeekly 原创 · 作者 | 李忠利 研究方向 | 自然语言处理 跟大家介绍一下自己最近训练的 LLaMA 模型——BiLLa: A Bilingual LLaMA with Enhanced Reasoning Abi...
-
AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新
AIGC | PC集群 | PC Farm | GPU服务器 生成式AI | Stable Diffusion | ChatGPT 2022 年 12 月,OpenAI 推出了 ChatGPT,这是一种高性能计算的大型语言生成模型。它的出现推动了人...
-
AIGC for code(text-to-codeAIGC/AI生成代码/生成式AI之代码生成/AI编程工具/自动编程/自动生成代码/智能编程工具/智能编程系统)
AIGC,Artificial Intelligence Generated Content,人工智能生成内容 AIGC for code,AI生成代码 1 Github Copilot 1.1 简介 Copilot是由微软的子公司Github与o...
-
OpenAI Whisper论文笔记
OpenAI Whisper论文笔记 OpenAI 收集了 68 万小时的有标签的语音数据,通过多任务、多语言的方式训练了一个 seq2seq (语音到文本)的 Transformer 模型,自动语音识别(ASR)能力达到商用水准。本文为李沐老师论文精...
-
【周末闲谈】人工智能热潮下的AIGC到底指的是什么?
生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。 个人主页:【😊个人主页】 系列专栏:【❤️周末闲谈】 系列目录 ✨第一周 二进制V...
-
北大ChatLaw团队推出大模型恋爱神器Machine_Mindset 支持MBTI 16种人格
北大 ChatLaw 团队与 FarReel AI Lab 合作开发了一款大模型恋爱神器,可以让大模型具备 MBTI16种人格,实现自由定制。 用户可以选择不同的性格类型,使大模型在回答问题时展现出不同的个性化回应。 这项工作通过构建十万条 MBTI 数...
-
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画
文章目录 1. 摘要 2. 引言 3. 算法 3.1 Preliminaries 3.2. Personalized Animation 3.3 Motion Modeling Module 4. 实验 5.限制 6. 结论 论文:...
-
Stable Diffusion 硬核生存指南:WebUI 中的 GFPGAN
本篇文章聊聊 Stable Diffusion WebUI 中的核心组件,强壮的人脸图像面部画面修复模型 GFPGAN 相关的事情。 写在前面 本篇文章的主角是开源项目 TencentARC/GFPGAN,和上一篇文章《Stable Diffusio...
-
AI:你总要高清视频,它来了
Magnific 图像超分 & 增强工具还正在火热体验中,它强大的图像升频与再创能力收获一致好评。现在,视频领域也有了自己的 Magnific。 拍摄的街道视频一片模糊,仿佛高度近视没戴眼镜一样: 与之相比,下面的视频清晰度高了很多: 视频画...
-
【LLM】微调LLM:LoRA 还是全参数?Llama 2 的深入分析
🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝 📣系列专栏 - 机器学习【ML】 自然语言...
-
Transformer的无限之路:位置编码视角下的长度外推综述
在自然语言处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而,Transformer 及在其基础之上的大语言模型(Large Language Model...
-
Stable Diffusion XL(SDXL)核心基础知识
文章目录 一、Stable Diffusion XL基本概念 二、SDXL模型架构上的优化 (一)SDXL的整体架构 (二)VAE (三)U-Net (四)text encoder (五)refiner model 三、SDXL在训练上的技...
-
Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
## 划重点: 1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。 2. 🌐 **性能突出:** Mixtra...
-
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
论文1:Automated Program Repair in the Era of Large Pre-trained Language Models 写在最前面 论文总结 背景知识介绍 语言模型 双向语言模型 单向语言模型 自动程序修复(...
-
精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了
字节&复旦大学多模态理解大模型来了: 可以精确定位到视频中特定事件的发生时间。 比如在下面这个视频中: 狗子转身看镜头时的时间戳是多少? 什么时候用爪子推开滑板? 在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书? 对...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
五种资源类别,如何提高大语言模型的资源效率,超详细综述来了
近年来,大型语言模型(LLM)如 OpenAI 的 GPT-3 在人工智能领域取得了显著进展。这些模型,具有庞大的参数量(例如 1750 亿个参数),在复杂度和能力上实现了飞跃。随着 LLM 的发展趋势朝着不断增大的模型规模前进,这些模型在从智能聊天机器...
-
向量数据库:AIGC时代的必备基础工具
今天分享的AIGC系列深度研究报告:《向量数据库:AIGC时代的必备基础工具》。 (报告出品方:广发证券) 报告共计:47页 点击添加图片描述(最多60个字)编辑 一、向量数据库为 AI 大模型全生命周期管理提质增效 随着AI大模型的...
-
AIGC内容分享(十三):2023年中国AIGC产业全景报告
目录 核心摘要 中国AIGC产业之“变”与"新 技术变革的原始驱力:大模型层 价值传递的实际落位:应用层 不可忽视的资源引擎:算力层 中国AIGC产业之发展趋势 核心摘要 古人有云:日就月将,学有缉熙于光明。人类对人工智能学的潜心钻研...
-
AIGC之Image2Video(一)| Animate Anyone:从静态图像生成动态视频,可将任意图像角色动画化
近日,阿里发布了Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。 项目地址:https://humanaigc.github.io/animate-anyone/ 论文地址:https://ar...
-
AIGC 能如何应用到游戏制作领域?
AIGC 能如何应用到游戏制作领域? (AI画作《太空歌剧院》) 2022年,Midjourney生成的一幅AI画作《太空歌剧院》横空出世,让AIGC火了一把。 游戏中为何需要AIGC? 传统游戏制作存在“质量、速度、成本”中只能有两个的不...
-
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一...
-
AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里
随手在网络上发布的一张照片,能暴露多少信息? 外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战,网友提供照片,他来猜测照片的具体拍摄地,有些照片甚至还能猜到具体的航班细节。 是不是细思极恐? 但「照片挑战」也同样抚慰了很多人心中的遗憾,...
-
【计算机视觉 | 目标检测】术语理解9:AIGC的理解,对比学习,解码器,Mask解码器,耦合蒸馏,半耦合,图像编码器和组合解码器的耦合优化
文章目录 一、AIGC的理解 二、对比学习 三、解码器 四、Mask解码器 五、耦合蒸馏 六、半耦合 七、图像编码器和组合解码器的耦合优化 一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...
-
LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略
LLMs之LLaMA-2:LLaMA-2的简介(技术细节 、安装、使用方法(开源-免费用于研究和商业用途 之详细攻略 导读:2023年7月18日,Meta重磅发布Llama 2!这是一组预训练和微调的大型语言模型(LLM),规模从70亿到700亿个...
-
实战AI大模型:AIGC及经典模型
今天,人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣,它不仅成为技术发展的核心驱动力,更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习,通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型(简称AI大模型)以其强大的...
-
Stable Diffusion的入门介绍和使用教程
Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图...
-
【AIGC专题】Stable Diffusion 从入门到企业级实战0403
一、前言 本章是《Stable Diffusion 从入门到企业级实战》系列的第四部分能力进阶篇《Stable Diffusion ControlNet v1.1 图像精准控制》第03节, 利用Stable Diffusion ControlNet Ca...
-
Stable Diffusion-生式AI的新范式
! 扩散模型(Stable Diffusion 现在是生成图像的首选模型。由于扩散模型允许我们以提示( prompts 为条件生成图像,我们可以生成我们所选择的图像。在这些文本条件的扩散模型中,稳定扩散模型由于其开源性而最为著名。 在这篇文章中,我们将...
-
《2024 AIGC 应用层十大趋势白皮书》:近屿智能OJAC带您一起探索AI未来
Look!👀我们的大模型商业化落地产品 📖更多AI资讯请👉🏾关注 Free三天集训营助教在线为您火热答疑👩🏼🏫 近日国际知名咨询机构IDC发布《2024 AIGC 应用层十大趋势白皮书》的发布,无疑为我们展现了AIGC技术在未来几年的发展趋势和方...
-
OpenAI的人工智能语音识别模型Whisper详解及使用
1 whisper介绍 拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper是一个通用的语音识别模型,...
-
大模型应用实践:AIGC探索之旅
随着OpenAI推出ChatGPT,AIGC迎来了前所未有的发展机遇。大模型技术已经不仅仅是技术趋势,而是深刻地塑造着我们交流、工作和思考的方式。 本文介绍了笔者理解的大模型和AIGC的密切联系,从历史沿革到实际应用案例,再到面临的技术挑战和伦理监管问题...
-
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研...
-
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
论文名称:GauHuman: Articulated Gaussian Splatting from Monocular Human Videos 论文下载地址:https://arxiv.org/abs/2312.02973 项目主页:https...
-
大模型相关技术综述
多模态大模型&大模型训练语料持续迭代 已经开始整理多模态-视觉部分: 主要分为一下几块 多模态信息压缩模型(clip、vit、swiT) 生成模型(vae、gan、flow、ddpm、sde... 其它多模态大模型(语音...
-
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性! 而且还是自定义那种,16种MBTI都能选。 图源备注:图片由AI生成,图片授权服务商Midjourney 这样一来,即便是同一个大模型,不同性格下的回答都不一样。 比如提问:你周末喜欢干什么? 这样能干啥呢?北大的童...
-
从GPT-4、文心一言再到Copilot,AIGC的长期价值被逐渐确立
@数科星球原创 作者丨苑晶 编辑丨十里香 动荡和富有戏剧性的一周行将结束,在本周,百度发布文心一言、OpenAI发布GPT-4、微软发布Microsoft 365 Copilot。围绕科技圈,人们的话题从赞叹GPT-4的强大、百度的股价再...
-
Llama 2- Open Foundation and Fine-Tuned Chat Models<2>
3.2 人类反馈强化学习(RLHF) RLHF 是一种模型训练过程,应用于微调的语言模型,以进一步使模型行为与人类偏好和指令遵循保持一致。我们收集代表根据经验采样的人类偏好的数据,人类注释者可以选择他们更喜欢的两个模型输出中的哪一个。这种人类反馈随后用...
-
AIGC: 关于ChatGPT这个智能工具带来的几点思考
ChatGPT的出现 2022年11月底,ChatGPT 上线,引爆 AI 圈 和 科技圈,2023年春节后, 人人都开始关注并讨论这项新技术 它是 OpenAI 研发的智能聊天工具, 基于GPT语言模型,模拟人类的对话方式 默认只能用文字进行交互,...
-
打破信息差!一款让人惊艳的大模型3D可视化工具!
近日,一位来自新西兰的小哥Brendan Bycroft在技术圈掀起了一股热潮。他创作的一项名为大模型3D可视化的项目,不仅登上了Hacker News的榜首,而且其震撼的效果更是让人瞠目结舌。通过这个项目,你将在短短几秒钟内完全理解LLM(Large...
-
一文讲清大模型AI应用架构
本文转载自微信公众号「 产品二姐」,作者产品二姐。转载本文请联系产品二姐公众号。 如果说 2023 年是大模型大爆发的一年,这一年的机会主要给了大厂或者拿到大笔融资的创业者;那么 2024 年将是 AI 应用大爆发的一年,也意味着普通人有更多的机会加入这...
-
训练Stable Diffusion(SD) Lora模型巨详细教程 赛博丹炉/青龙脚本/秋叶云端使用教程 主用赛博丹炉(道玄)巨小白巨啰嗦,全是干货和踩过的坑
前言 试了很多的sd训练,尤其是sd的lora的训练,问题一大堆,现在写个博客汇总一下 一、一些理论知识 记录一些杂七杂八各种博客看到的训练经验。 1. 对于sd1.5训练出来2G左右大小就是有效模型,WebUI默认FP16。 【AI绘画】模型...
-
大语言模型漏洞缓解指南
虽然大语言模型(LLM 应用正在全球快速普及,但企业对大语言模型的威胁态势仍然缺乏全面了解。面对大语言模型风险的不确定性,企业希望在保障其安全性的基础上加快 应用脚步,用人工智能提升企业核心竞争力,这意味着企业的CISO面临着理解和应对新兴人工智能威胁...
-
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.4 -大模型发展历程 之 多模态)
文章大纲 什么是多模态 为什么 Transformer 也是多模态模型的基础架构 视觉 Transformer 和 Text Transformer 如何结合 - contrastive learning 对比学习 stable diffu...
-
AIGC:阿里开源大模型通义千问部署与实战
1 引言 通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代...