-
吴恩达AIGC《How Diffusion Models Work》笔记
1. Introduction Midjourney,Stable Diffusion,DALL-E等产品能够仅通过Prompt就能够生成图像。本课程将介绍这些应用背后算法的原理。 课程地址:https://learn.deeplearning...
-
聊一聊高精地图的数据问题,无图感知还有哪些坑要踩?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在自动驾驶领域,高精地图在定位、规划和避碰等方面发挥着至关重要的作用,实现行车安全和高质量路线预测。然而高精地图的构建都是昂贵、复杂的,而且专业性很强,无论是在硬件组成还是软件及其所使用的算法方面。...
-
微调 Code Llama 完整指南
一、前言 今天这篇文章将向大家详细介绍如何对 Code Llama 进行微调,让它变成适合 SQL 开发的有利工具。对于编程开发任务,经过适当微调后的 Code Llama 的性能通常都会比普通的 Llama 强很多,特别是当我们针对具体任务进行优化时:...
-
新的生图模型DeepFloyd IF来了,可以拳打Stable Diffusion,脚踢Dall-E?
简介: Stability AI与它的多模式AI研究实验室DeepFloyd共同宣布研究版本DeepFloyd IF的发布,这是一款强大的文text-to-image级联像素扩散模型(cascaded pixel diffusion model),复现了...
-
南开大学与字节跳动研究人员推出开源AI工具ChatAnything:用文本描述生成虚拟角色
南开大学与字节跳动研究人员合作推出了一项引人注目的研究,发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型(LLM)的角色的拟人化形象,从而创造具有定制视觉外观、个性和语调的人物。 简答的说,ChatAnyt...
-
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
Stable Diffusion官方终于对视频下手了—— 发布生成式视频模型Stable Video Diffusion(SVD)。 Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成: 并且还支持物体从单一视角到多视角的...
-
LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读
LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读:该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该...
-
通用人工智能(AGI)离我们还有多远
人工智能(AI)是当今科技领域最热门和最具影响力的话题之一,它已经渗透到了我们生活和工作的方方面面,从电影推荐和语音助手,到自动驾驶和医疗诊断。AI的发展也引发了人们对未来的想象和期待,尤其是对通用人工智能(Artificial General Inte...
-
KAUST研究团队推出大模型心智交互框架CAMEL 教AI Agents学会协作与竞争
近期,KAUST研究团队推出的CAMEL框架引起了广泛关注。该框架以角色扮演为基础,使AI Agents在复杂任务中能够协作和竞争,产生惊人的群体智能效果。NeurIPS2023录用的这一项目探索了大型语言模型(LLMs)领域的新方向。 项目地址:htt...
-
教你如何使用PyTorch解决多分类问题
本文分享自华为云社区《使用PyTorch解决多分类问题:构建、训练和评估深度学习模型》,作者: 小馒头学Python。 引言 当处理多分类问题时,PyTorch是一种非常有用的深度学习框架。在这篇博客中,我们将讨论如何使用PyTorch来解决多分类...
-
Stable Video Diffusion来了,代码权重已上线
AI 画图的著名公司 Stability AI,终于入局 AI 生成视频了。 本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。 很多人都表示「我们终于等到了」...
-
LLMs之Colossal-LLaMA-2:源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插
LLMs之Colossal-LLaMA-2:源码解读(train.py文件 基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件 →数据预处理(初始化分词器+数据处理器+数据加载器 ...
-
计算机视觉中目标检测的数据预处理
本文涵盖了在解决计算机视觉中的目标检测问题时,对图像数据执行的预处理步骤。 首先,让我们从计算机视觉中为目标检测选择正确的数据开始。在选择计算机视觉中的目标检测最佳图像时,您需要选择那些在训练强大且准确的模型方面提供最大价值的图像。在选择最佳图像时,考...
-
美国空军的首席数据和AI官谈如何通过AI获得战略优势
AI正在改变我们做事情的方式,这包括将其应用于军事、监控威胁和保障国防。AI对军事战略和能力已变得日益重要,正因为如此,美国空军和航天部队今年任命了第一位首席AI官。 今年春天,美国空军任命Eileen Vidrine为首席数据和AI官,被任命后,V...
-
Nvidia和Genentech合作利用人工智能加速药物发现
Nvidia正在与生物技术巨头基因泰克公司(Genentech)合作,双方计划利用多年时间把最先进的人工智能功能(包括生成式AI)用于加速药物发现研究。 Nvidia表示,希望通过将其生成式AI模型和算法转变为“下一代AI平台”来加强Genentech...
-
Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低
在一项由Vectara进行的开源模型评估中,OpenAI的GPT-4在文档摘要中表现卓越,凭借其出色的97%准确率和令人瞩目的3%的幻觉率,成为幻觉率最低的大型语言模型。 Vectara在GitHub上发布了一个排行榜,评估了一些大型语言模型在其“Hall...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
Stability AI推出视频生成模型Stable Video Diffusion
Stability AI近日推出了名为Stable Video Diffusion的视频生成模型,该模型基于该公司现有的Stable Diffusion文本转图像模型,能够通过对现有图像进行动画化生成视频。与其他AI公司不同,Stable Video Di...
-
【文心一言 vs. 通义千文】一言对千问:自百度之后,阿里终于还是出手了——通义千问
通义千问 : https://tongyi.aliyun.com/通义千问https://tongyi.aliyun.com/ 目录 通义千问 : 达摩院 GPT-30B 模型复现 GPT-3 模型介绍 GPT3中文30B参数量文本生...
-
【AIGC】ChatGPT能上传文件了,文档图片数据集秒理解,代码一键执行
文章目录 前言 正文 Python支持的ChatGPT都能干 应用场景 文档理解和摘要 图片分析和描述 数据集处理和分析 文件搜索和检索 任务协作和知识共享 总结 写在最后 前言 在过去的几年中,人工智能技术取得了巨大的进展,...
-
AI绘画基于 Kaggle 10 分钟搭建 Stable Diffusion(保姆级教程)
AI绘画基于 Kaggle 10 分钟搭建 Stable Diffusion(保姆级教程) 一、引言 二、安装教程 1. 注册 [Kaggle](https://www.kaggle.com/code/xinsiac/zh-stable-di...
-
程序员眼中的 ChatGPT
作者 | Bright Liao 作为一个一直对AI 技术很感兴趣的软件开发工程师,早在深度学习开始火起来的2015、2016年,我就开始了相关技术的学习。当时还组织了公司内部同样有兴趣的同学一起研究,最终的成果汇集成几次社区中的分享以及几篇学习文章(见...
-
一切为了应用!九章云极DataCanvas大模型系列成果重磅发布!
11月21日,「筑基赋能 智向未来」九章云极DataCanvas大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年6月30日DataCanvas Alaya九章元识大模型公布仅4个多月,是九章云极DataCanvas公司大模...
-
UC伯克利研究人员推出Ghostbuster:用于检测 LLM 生成文本的最先进 AI 方法
LLM,如 ChatGPT,可以轻松地产生各种流利的文本,但是它们的准确性有多高呢?语言模型容易产生事实错误和幻觉,这让读者在决定是否相信一个信息来源时知道是否使用了这些工具来做新闻文章或其他信息文本的幽灵写作。这些模型的发展也引发了对文本的真实性和原创性...
-
研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%
最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。 通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。...
-
中国AI今天的问题,是大模型又多又乱
OpenAI的开发者日活动后,GPTs模式引发了新一轮的AI热潮,开发者调用过分火爆,甚至导致OpenAI服务器一度宕机。随后,花式把玩GPTs的经验,以及围绕这种新形态的巨大争议开始涌现。中国的IT从业者、软件开发者与AI工程师也积极参与讨论,迎来了一场...
-
图像相似度比较之 CLIP or DINOv2
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界...
-
研究人员使用特殊图像“毒害”人工智能
DALL-E、Midjourney和Stable Diffusion等人工智能生成艺术工具的兴起引发了激烈的辩论和争议。这些系统可以通过在互联网上收集的大量数据集上进行训练,简单地根据文本提示创建真实感图像和艺术。然而,这引发了人们对侵犯版权、滥用艺术家...
-
大模型入门(四)—— 基于peft 微调 LLaMa模型
llama-7b模型大小大约27G,本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。 1、模型和数据准备 使用的大模型:https://huggingface.co/decapoda-resea...
-
Ubuntu llama 2搭建及部署,同时附问题与解决方案
本机环境: AMD Ryzen7480 OH with Radeon Graphics(16 CPUs ,~2.9GHz Card name: NVIDIA GeForce RTX 2060 虚拟机环境: 内存:4G 存储:100G 一、搭建...
-
一种全新的日志异常检测评估框架:LightAD
本文分享自华为云社区《【AIOps】一种全新的日志异常检测评估框架:LightAD,相关成果已被软工顶会ICSE 2024录用》,作者: DevAI。 深度学习(DL)虽然在日志异常检测中得到了不少应用,但在实际轻量级运维模型选择中,必须仔细考虑异常检测...
-
算法面试-深度学习基础面试题整理-AIGC相关(2023.9.01)
1、stable diffusion和GAN哪个好?为什么 ? Stable diffusion是一种基于随机微分方程的生成方法,它通过逐步增加噪声来扰动原始图像,直到完全随机化。然后,它通过逐步减少噪声来恢复图像,同时使用一个神经网络来预测下一步的噪...
-
从数据到诊断:谈青光眼的深度学习方法检测
青光眼是造成全球无数民众罹患不可逆失明的重要致残因素。青光眼本身只是统称,指代一系列对眼部与大脑视神经之间的连接造成损害的眼部疾病,严重时可导致视力丧失。根据布莱恩霍尔顿视觉研究所对全球失明及远视障碍原因的系统回顾与深入分析,青光眼已经成为全球第二大致...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
AI能理解搞笑视频笑点在哪里了。 北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。 值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但...
-
GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?
人工智能(AI)在医学影像诊断方面的应用已经有了长足的进步。然而,在未经严格测试的情况下,医生往往难以采信人工智能的诊断结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。 为了增强医生对辅助医疗的人工智能之间的信任,让 AI...
-
python语音识别whisper
一、背景 最近想提取一些视频的字幕,语音文案,研究了一波 二、whisper语音识别 Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。 stable-...
-
微软230页报告,像素级评估GPT-4前沿科研能力:潜力无限速速上车!
LLM作为研究工具,能否帮助科学研究带来新的突破? 今天微软AI4Science Research抛出一篇230页的重磅论文,告诉所有的科研人员: LLM(GPT-4)太强了,赶快想办法用起来! 论文地址:https://arxiv.org/abs/2...
-
基于llama模型进行增量预训练
目录 1、llama模型转换(pytorch格式转换为HuggingFace格式 1.1、拉取Chinese-LLaMA-Alpaca项目 1.2、准备文件夹 1.3、下载llama官方原始模型 1.4、移动文件到指定位置 1.5、执行转换脚...
-
Grounding dino + segment anything + stable diffusion 实现图片编辑
目录 总体介绍 总体流程 模块介绍 目标检测: grounding dino 目标分割:Segment Anything Model (SAM 整体思路 模型结构: 数据引擎 图片绘制 集成 样例 其他问题 附录 总体介绍...
-
深入理解LLaMA, Alpaca, ColossalChat 系列模型
知乎:紫气东来https://zhuanlan.zhihu.com/p/618695885 一、从 LLaMA 到 Alpaca:大模型的小训练 1.1 LLaMA 概要与实践 LLaMA(Large Language Mo...
-
大语言模型之七- Llama-2单GPU微调SFT
(T4 16G)模型预训练colab脚本在github主页面。详见Finetuning_LLama_2_0_on_Colab_with_1_GPU.ipynb 在上一篇博客提到两种改进预训练模型性能的方法Retrieval-Augmented Gener...
-
Stable Diffusion XL训练LoRA
主要包括SDXL模型结构,从0到1训练SDXL以及LoRA教程,从0到1搭建SDXL推理流程。 【一】SDXL训练初识 Stable Diffusion系列模型的训练主要分成一下几个步骤,Stable Diffusion XL也不例外: 训练集...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点
AI能理解搞笑视频笑点在哪里了。 AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文...
-
GPT-4不会图形推理?“放水”后准确率依然只有33%
GPT-4的图形推理能力,竟然连人类的一半都不到? 美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。 而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。 △虚线表示16项任务的平均表现 这项实验结果发表后,迅速在...
-
Omniverse Replicator环境配置和使用说明
Omniverse Replicator使用说明 本教程将介绍Omniverse Replicator的环境配置和使用说明, 参加Sky Hackathon的同学可以参考本教程来合成训练数据集. 文章目录 Omniverse Repl...
-
ChatGLM-LLaMA-chinese-insturct 学习记录(含LoRA的源码理解)
ChatGLM-LLaMA-chinese-insturct 前言 一、实验记录 1.1 环境配置 1.2 代码理解 1.2.1 LoRA 1.4 实验结果 二、总结 前言 介绍:探索中文instruct数据在C...
-
马斯克让盗梦空间成真?初创公司用Transformer诱导清醒梦,Neuralink技术操控梦境效果惊人
你是否曾有过在自己梦中醒来的奇怪经历? 那时,你还没有完全清醒,能感觉到周围有一个梦境,但你已经有足够的意识,来控制幻影的一部分。 对于大约一半的成年人来说,这种「清醒梦」有着非凡的意义,根据调查,他们一生中至少做过一次清醒梦。 这就是为什么科技初创公司...
-
GenAI时代的数据治理蓝图
随着我们深入ML和GenAI领域,对数据质量的重视变得至关重要。KMS Technology高级技术创新小组的首席技术官John Jeske深入研究了数据治理方法,如数据沿袭跟踪和联合学习,以确保顶级模型的性能。 数据质量是模型可持续性和利益相关者信...
-
人工智能教程(二):人工智能的历史以及再探矩阵
在本系列的 第一篇文章 中,我们讨论了人工智能、机器学习、深度学习、数据科学等领域的关联和区别。我们还就整个系列将使用的编程语言、工具等做出了一些艰难的选择。最后,我们还介绍了一点矩阵的知识。在本文中,我们将深入地讨论人工智能的核心——矩阵。不过在此之...
-
【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」
ChatGPT开源替代品——LLaMA系列之「羊驼家族」 1. Alpaca 2. Vicuna 3. Koala 4. ChatLLaMA 5. FreedomGPT 6. ColossalChat 完整的 ChatGPT 克隆解决方案 中...