-
Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向Task2笔记
Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向-Task2:精读代码,实战进阶 Task2任务目标 AI工具使用 AI工具介绍 ChatGPT 功能与用途 优点 缺点 总结 KIMI 通义千问 主要功能与用途: 优点:...
-
从零预训练一个tiny-llama#Datawhale组队学习Task2
完整的教程请参考:datawhalechina/tiny-universe: 《大模型白盒子构建指南》:一个全手搓的Tiny-Universe (github.com 这是Task2的学习任务 目录 Qwen-blog Tokenizer(分词器...
-
使用SageMaker对Whisper模型进行微调及部署教程
使用SageMaker对Whisper模型进行微调及部署教程 amazon-sagemaker-finetune-deploy-whisper-huggingface This is a demo project showing how to fi...
-
开源项目教程:Llama
开源项目教程:Llama llama项目地址:https://gitcode.com/gh_mirrors/llam/llama 项目介绍 此教程基于GitHub上的开源项目 nelhage/llama,不过请注意,上述提供的链接并非真实的项目地...
-
Llama开源代码详细解读(2)
FlashAttention if is_flash_attn_available( : # 检查flashattention的可用性 from flash_attn import flash_attn_func, flash_attn_var...
-
Intel首批通过AISBench大模型性能测试!5代至强可达每秒2493 token
快科技9月5日消息,近日,第五代英特尔至强处理器,以优秀的表现通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试(AISBench)。 借此,英特尔也成为首批通过AISBench大语言模型(LLM)推理性能测试的企业。 在AISBench 2....
-
Lag-Llama:时间序列预测的开源基础模型中文安装与使用指南
Lag-Llama:时间序列预测的开源基础模型中文安装与使用指南 lag-llamaLag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting项目地址:h...
-
Datewhale AI夏令营第四期 AIGC方向Task1笔记
①文生图基基础知识: ✔提示词:主体描述,细节描述,修饰词,艺术风格,艺术家 ✔Lora模型:实现对特定主题、风格或任务的精细化控制 ✔ComfyUI:模型微调、数据预处理、图像生成 ✔参考图控制:openp...
-
Stable Diffusion模型训练:从数据准备到模型优化
Stable Diffusion模型训练:从数据准备到模型优化 开篇引入:探索创意无限的Stable Diffusion 数据集构建秘籍:打造专属训练素材 如何收集高质量图像数据? 数据预处理小技巧:清洗与标注 模型配置与训练实战:让创意流...
-
Chinese-Llama-2-7b 开源项目教程
Chinese-Llama-2-7b 开源项目教程 Chinese-Llama-2-7b开源社区第一个能下载、能运行的中文 LLaMA2 模型!项目地址:https://gitcode.com/gh_mirrors/ch/Chinese-Llama-2...
-
异常检测算法在可观测性平台的落地和实践|得物技术
一、背景 在稳定性保证中,重要的一个环节就是故障管理体系建设,故障管理体系的四大核心功能------故障发现、故障触达、故障定位和故障恢复,其中故障发现作为故障管理的第一步至关重要,包含了指标预测、异常检测和故障预测等方面,主要目标是能及时、准确地发现故...
-
Datawhale X 魔搭 AI夏令营第四期 AIGC方向 Task02笔记
一.认识通义千问 通义千问是一款具有信息查询、语言理解、文本创作等多能力的AI助手。其中,编程与技术支持能力是它的强项之一。 我们可以利用通义千问帮助辅助分析代码结构和功能 二.精读baseline 文生图代码的框架结构: 可以看到,这段代码...
-
使用Faster Whisper:提升你的音频处理效率和质量
使用Faster Whisper:提升你的音频处理效率和质量 faster-whisper项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper 该项目,,是一个开源的Python库,专为优化对...
-
Lag-Llama 开源项目实战指南
Lag-Llama 开源项目实战指南 lag-llamaLag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting项目地址:https://gitcode...
-
华为发布全新OceanStor A800 AI存储:10TB级带宽 专攻AI大模型
快科技8月14日消息,近日,在2024华为数据存储用户精英论坛上,AI-Ready的数据基础设施”分论坛成功举行。 为促进AI大模型健康发展,华为推出了全新的OceanStor A800 AI存储。 华为表示,该存储采用数控分离架构,提供10TB级带宽和亿...
-
Stable Diffusion之最全详细图解
Stable Diffusion是一种生成模型,用于生成高质量的图像。这种模型基于扩散过程,能够逐步将噪声转换为清晰的图像。以下是关于Stable Diffusion的详细图解,涵盖其原理、模型结构、训练过程及应用示例。 一、Stable Diffusi...
-
【AIGC】文心一言大模型使用教程:从入门到精通
引言 文心一言,作为百度强大的自然语言处理大模型,凭借其深厚的语言理解和生成能力,在文本创作、问答系统、智能客服等多个领域展现出巨大的潜力。本教程旨在帮助初学者及进阶用户全面了解文心一言大模型,掌握其调用方法、使用技巧,并通过实际案例提升使用效率。 一...
-
stable diffusion中的UNet2DConditionModel代码解读
UNet2DConditionModel总体结构图片来自于 https://zhuanlan.zhihu.com/p/635204519 stable diffusion 运行unet部分的代码。 noise_pred = self.unet(...
-
【机器学习】机器学习与医疗健康在疾病预测中的融合应用与性能优化新探索
文章目录 引言 第一章:机器学习在医疗健康中的应用 1.1 数据预处理 1.1.1 数据清洗 1.1.2 数据归一化 1.1.3 特征工程 1.2 模型选择 1.2.1 逻辑回归 1.2.2 决策树 1.2.3 随机森林 1.2...
-
小文件写入性能 5 倍于 S3FS,JuiceFS 加速生信研究
在生物信息学研究领域,NextFlow 是一款主流数据分析工具,广泛应用于多种研究项目。MemVerge,内存融合基础架构厂商,其公有云计算平台产品 Memory Machine Cloud (MMCloud 无缝集成了 NextFlow,为生物信息学家...
-
AIGC 原理与代码实例讲解
AIGC 原理与代码实例讲解 1. 背景介绍 1.1 问题的由来 随着人工智能技术的快速发展,生成式AI成为了科技界的一大热点。在众多生成技术中,AIGC(Artificial Intelligence for Generation and Crea...
-
深入探索:Stable Diffusion 与传统方法对比:优劣分析
深入探索:Stable Diffusion 与传统方法对比:优劣分析 一、引言 随着人工智能和深度学习的发展,优化算法在神经网络训练中的重要性日益凸显。传统的优化方法,如随机梯度下降(SGD)、动量法和Adam等,已广泛应用于各类深度学习任务。然而...
-
基于MindSpore实现BERT对话情绪识别
本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别》,作者:JeffDing。 模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder...
-
大语言模型的底层原理,ChatGPT,文心一言等人工智能体是如何产生的?本文将详细讲解
文章目录 基础介绍 一、预训练 1.数据准备 质量过滤 敏感内容过滤 数据去重 数据预处理实践 质量过滤 去重 隐私过滤 2.词元化 BPE 分词 WordPiece 分词 Unigram 分词 3.数据调度 总结 参考文献...
-
AI绘画-Stable Diffusion 原理介绍及使用
引言 好像很多朋友对AI绘图有兴趣,AI绘画背后,依旧是大模型的训练。但绘图类AI对计算机显卡有较高要求。建议先了解基本原理及如何使用,在看看如何实现自己垂直行业的绘图AI逻辑。或者作为使用者,调用已有的server接口。 首先需要说明的是,AI绘图和...
-
AIGC原理与代码实例讲解
1. 背景介绍 随着人工智能技术的不断发展,越来越多的企业开始关注人工智能在业务中的应用。然而,人工智能技术的应用并不是一件容易的事情,需要专业的技术人员进行研究和开发。AIGC(Artificial Intelligence General Compu...
-
AI根据文本语义实现AI绘画出图
引言 当谈到人工智能(AI)和艺术的结合时,我们经常会想到生成对抗网络(GANs)和图像生成。然而,很少有人了解到AI也可以通过文本语义生成绘画作品。在本文中,我将详细介绍如何使用深度学习和自然语言处理技术,使AI能够根据给定的文本语义生成绘画作品。...
-
AI绘画的算法原理:从生成模型到Diffusion
近年来,AI绘画技术引起了广泛关注,让我们深入探讨其背后的技术原理和发展历程。本文将以通俗易懂的方式,介绍AI绘画的核心算法,从生成模型到Diffusion。 1. 计算机如何生成图画? AI绘画的核心在于生成模型(ge...
-
一文带你搞懂AI前沿技术AIGC
人工智能(AI)领域的发展日新月异,而AIGC(Adversarial Instance Generation and Correction)作为其中的一项前沿技术备受关注。本文将带你深入探索AIGC,解析其背后的原理、应用场景以及未来发展趋势。 什么...
-
基于机器学习的金融欺诈检测模型
作者 | 陈峻 审校 | 重楼 引言 如今,基于互联网服务的欺诈案例时常登顶媒体头条,而使用在线服务和数字交易的金融行业尤其成为了重灾区。网络洗钱、保险欺诈、网银盗用、虚假银行交易等复杂金融欺诈行为层出不穷,我们亟待通过行之有效的欺诈识别与检测的...
-
Stable Diffusion模型基于 TensorFlow 或 PyTorch 训练
安装必要的软件和库: 安装 Python(建议使用 Python 3.x 版本)。 安装 TensorFlow 或 PyTorch,具体版本取决于你的模型是基于哪个框架训练的。 安装其他可能需要的依赖,如 NumPy、Matplotlib 等。...
-
时间序列模型:lag-Llama
项目地址:GitHub - time-series-foundation-models/lag-llama: Lag-Llama: Towards Foundation Models for Probabilistic Time Series Foreca...
-
深入剖析“! x3.4爬虫”的技术原理与实战应用
在当今数字化时代,数据的重要性日益凸显。网络爬虫作为一种能够自动抓取和分析网络数据的工具,成为了数据获取领域的重要角色。而“! x3.4爬虫”作为其中的一种特定类型,更是备受关注和讨论。本文将从技术原理、应用场景以及可能面临的挑战等多个维度,对“! x3....
-
手把手教你基于华为云,实现MindSpore模型训练
本文分享自华为云社区《【昇腾开发全流程】MindSpore华为云模型训练》,作者:沉迷sk。 前言 学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。 并打通一个Ascend910训练到Ascend310推理的全流程...
-
探秘Faster Whisper:一款加速 Whisper 模型训练的高效工具
探秘Faster Whisper:一款加速 Whisper 模型训练的高效工具 项目地址:https://gitcode.com/SYSTRAN/faster-whisper 在自然语言处理(NLP)领域,Transformer架构的模型如Whis...
-
“数字中国”前瞻:谁是AI大模型时代的驯龙高手?
大模型圈最近都在讨论一个议题:GPT-4o为什么要免费? 一个可见的事实是,ChatGPT的版本迭代速度在放缓。这预示着大模型行业进入平台期,向上攀登变得越来越困难。在这样的背景下GPT-4o宣布免费,说白了就是想用好先发优势,尽快训练出更加强大的模型能力...
-
机器学习:K均值算法
一、基础理论 1. 欧氏距离 想象你在北京,想要知道离上海有多远,则可以直接计算这个城市(两点)间直线的距离,这就是欧氏距离。 在二维平面上,在二维平面上有两个点A(x1, y1 和B(x2, y2 ,欧氏距离为: 图片 欧氏距离衡量的是两点间的真实物理...
-
14个Flink SQL性能优化实践分享
本文分享自华为云社区《Flink SQL性能优化实践》 ,作者:超梦。 在大数据处理领域,Apache Flink以其流处理和批处理一体化的能力,成为许多企业的首选。然而,随着数据量的增长,性能优化变得至关重要。本文将深入浅出地探讨Flink SQL的常...
-
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源:https://github.com/LeapLabTHU/EfficientTrain 会议...
-
「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。 据现在可以查到的 WizardLM-2 发布信息,这是一个「真正媲美 GPT-4」的开源大模型,在复杂聊天、多语言、推理和代理方面的性能得到了提高。 该系列包括三个...
-
如何基于香橙派AIpro对视频/图像数据进行预处理
本文分享自华为云社区《如何基于香橙派AIpro对视频/图像数据进行预处理》,作者: 昇腾CANN。 受网络结构和训练方式等因素的影响,绝大多数神经网络模型对输入数据都有格式上的限制。在计算机视觉领域,这个限制大多体现在图像的尺寸、色域、归一化参数等。如果...
-
用户画像算法:历史、现状与未来
一、用户画像简介 画像是一种人类可理解的、机器可读写的,对用户的结构化描述。它不仅可以提供个性化服务,还在企业的战略决策和商业分析中发挥了重要作用。 1. 画像的分类 画像可以根据数据来源分为社会通识类和领域知识类。社会通识类画像又可以按照时间维度划分成...
-
基于Stable Diffusion的智能绘画大模型
随着人工智能技术的不断发展,AI艺术也在逐渐崭露头角。其中,基于Stable Diffusion的智能绘画大模型更是成为了AI艺术领域的一大亮点。那么,什么是Stable Diffusion?它又是如何应用于智能绘画大模型中的呢?本文将为您一一解答。 首...
-
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同...
-
Python爬虫-数据采集和处理
文章目录 数据 数据类型 数据分析过程 数据采集 数据采集源 数据采集方法 数据清洗 清洗数据 数据集成 数据转换 数据脱敏 数据 《春秋左传集解》云:“事大大其绳,事小小其绳。”体现了早期人类将事情的“大小”这一性质抽象...
-
python与机器学习日记——文心一言对话记录节选保存
——个人学习用,不适用于大佬——— 虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。 看了两章西瓜书,先都别管,读取文件试试:一言哥说得先...
-
微软、OpenAI投资1000亿美元,打造“Stargate”超级计算机
3月30日,著名科技媒体the information独家消息,微软、OpenAI正在开发一个数据中心项目,包含一台名为“Stargate”超级计算机将配备数百万个AI专用芯片,主要为OpenAI的研发、产品提供服务。 据一位曾与OpenAI联合创始人兼首...
-
探索创新:LLAMA Index - 一个智能数据分析利器
探索创新:LLAMA Index - 一个智能数据分析利器 项目地址:https://gitcode.com/run-llama/llama_index 项目简介 LLAMA Index 是一款强大的数据预处理和分析工具,旨在简化大数据处理过程,...
-
为什么说GPU再火,AI平台也少不了强力的CPU
AIGC的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式AI应用。 更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI加速服务器再次被拉到了大众的聚光灯下。 据统计,2023年全球范围内的AI服务器市场规模已经达到...
-
NVIDIA大语言模型落地的全流程解析
包括三部分内容: 第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案,它通过不同组件完成生成式 AI 各个环节的任务,包括数据预处理、分布式训练、模型微调、模型推理加速及部署(Ten...