数据准备第2页 - AIGC资讯

AIGC：使用变分自编码器VAE实现MINIST手写数字生成

1 变分自编码器介绍变分自编码器（Variational Autoencoders，VAE）是一种生成模型，用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器（Autoencoder）的扩展，自编码器是一种用于将输入数据压缩为低维表示并再...

AIGC 2024-02-16 人工智能

871阅读

AIGC智能编程：提升开发效率之利器

1. 引言随着科技的迅速发展，人工智能在各个领域都得到了广泛的应用。在软件开发领域，AIGC（Artificial Intelligence Generated Code）智能编程已经成为一种热门的技术。AIGC智能编程利用人工智能算法和机器学习模型...

生成式AI 2024-02-15 人工智能

821阅读

使用 Amazon SageMaker 和 Amazon CodeWhisperer，解锁数据见解

关键字: [Amazon Web Services re:Invent 2023, Amazon Kendra, Generative Ai, Amazon Sagemaker, Amazon Kendra, Amazon Bedrock, Vector...

大数据 2024-02-09 人工智能

782阅读

Informatica调查:全球企业优先考虑生成式 AI

企业云数据管理领导者Informatica发布了其年度调查结果，题为《CDO Insights2024:制定AI准备路线》。调查聚焦全球数据领袖，包括首席数据官在内，有600名受访者提供了他们对生成式人工智能准备的见解，并突显了在实施该方法时的关键技术和组...

大数据 2024-02-01 人工智能

698阅读

LLaMA Efficient Tuning

文章目录 LLaMA Efficient Tuning 安装数据准备浏览器一体化界面单 GPU 训练 train_bash 1、预训练 pt 2、指令监督微调 sft 3、奖励模型训练 rm 4、PPO 训练 ppo 5、DPO 训练...

AIGC 2024-01-29 人工智能

771阅读

【刻削生千变，丹青图“万相”】阿里云AI绘画创作模型 “通义万相”测评

刻削生千变，丹青图“万相 4月7日，阿里大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试，用户可通过官网申请（tongyi.aliyun.com），符合条件的用户可参与体验。随后，在2023云峰会上，阿里巴巴集团董事...

人工智能 2024-01-25 人工智能

1281阅读

如何应对当今数据和人工智能市场的不确定性

任何一直关注数据分析和人工智能(AI 市场新闻的人都知道，过去几年发生了巨大的变化。开源语言的兴起给SAS等基础分析技术带来了压力。初创企业已经烧光了现金并吸取了惨痛的教训，有时甚至没有实现可持续的商业模式。当然，生成式人工智能的快速采用，让每个人都质疑...

生成式AI 2024-01-25 人工智能

652阅读

LLaMA Board: 通过一站式网页界面快速上手 LLaMA Factory

原文：https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md ? 加入我们的微信群。 [ English | 中文 ] LLaMA Board: 通过一站式网页界面快速上手...

大数据 2024-01-21 人工智能

953阅读

Stable Diffusion架构的3D分子生成模型 GeoLDM - 测评与代码解析

之前，向大家介绍过3D分子生成模型 GeoLDM。 GeoLDM按照Stable Diffusion架构，将3D分子生成的扩散过程运行在隐空间内，优化了基于扩散模型的分子生成。可能是打开Drug-AIGC的关键之作。让精确控制分子生成有了希望。...

大数据 2024-01-13 人工智能

1136阅读

突破 Pytorch 核心点，自动求导！！

嗨，我是小壮！关于pytorch中的自动求导操作，介绍有关pytorch自动求导的概念. 自动求导是深度学习框架中的一项重要功能，它允许机器学习模型自动计算梯度，进而进行参数更新和优化。 PyTorch是一个流行的深度学习框架，它通过动态计算图和自动...

AIGC 2024-01-08 人工智能

740阅读

精调训练中文LLaMA模型实战教程，民间羊驼模型

羊驼实战系列索引博文1：本地部署中文LLaMA模型实战教程，民间羊驼模型博文2：本地训练中文LLaMA模型实战教程，民间羊驼模型博文3：精调训练中文LLaMA模型实战教程，民间羊驼模型（本博客）简介在学习完上篇【博文2：本地训练中文LLaM...

大数据 2024-01-06 人工智能

724阅读

研究称：英特尔Gaudi2技术在大语言模型推理方面媲美英伟达AI加速器

根据 Databricks 的最新研究，英特尔的 Gaudi2技术在大规模语言模型推理方面与业界领先的英伟达 AI 加速器相媲美。该研究发现，Gaudi2在解码方面的延迟与英伟达 H100系统相当，并且优于英伟达 A100。研究还发现，Gaudi2的推理性...

人工智能 2024-01-05 人工智能

664阅读

谨慎采用人工智能的最佳实践

为了助力我们正确运用人工智能，以下提供几点建议，在实践使用人工智能时需谨记这些建议，以便您能够牢固掌舵，安全驾驭人工智能。译自Treading Carefully: Best Practices When Adopting AI，作者 Tim Bank...

大数据 2024-01-05 人工智能

719阅读

[linux-sd-webui]api化之训练lora

lora的训练使用的文件是https://github.com/Akegarasu/lora-scripts lora训练是需要成对的文本图像对的，需要准备相应的训练数据。 1.训练数据准备使用deepbooru/blip生成训练数据，建筑类建议使...

AIGC 2024-01-04 人工智能

856阅读

人工智能利用深度学习技术增强高级驾驶辅助系统(ADAS)

译者 | 李睿审校 | 重楼人工智能和机器学习利用深度学习技术的优势，使高级驾驶辅助系统(ADAS 发生了重大变革。ADAS在很大程度上依赖深度学习来分析和解释从各种传感器获得的大量数据。摄像头、激光雷达(光探测和测距、雷达和超声波传感器都是传感器...

大数据 2024-01-04 人工智能

796阅读

在自定义数据集上微调Alpaca和LLaMA

本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA，我们将介绍在特定数据集上对Alpaca LoRa进行微调的整个过程，本文将涵盖数据处理、模型训练和使用流行的自然语言处理库(如Transformers和hugs Face 进行评估。此外还将介...

生成式AI 2023-12-29 人工智能

768阅读

得物大模型平台，业务效果提升实践

一、背景得物大模型训练与推理平台上线几个月后，我们与公司内部超过 10 个业务领域展开了全面的合作。在一些关键业务指标方面，取得了显著的成效，例如：效率相关部门的合作，多维度打标总正确率取得 2 倍以上提升。利用大模型开辟了新的业务，提升了效...

大数据 2023-12-27 人工智能

695阅读

2024年非结构化数据管理将以四种方式发生变化

如果说经济好的时候、坏的时候、不确定的时候、稳定的时候有一个不变的东西的话，那就是我们对大多数非结构化数据的依赖，以及我们从海量数据收集中得出的分析。非结构化数据是指当今公司的文档、图像、音频和视频文件、传感器数据和研究数据。想想监控和车载摄像头视频...

人工智能 2023-12-22 人工智能

865阅读

微软Azure发布GPT-RAG，为LLM部署提供超智能解决方案

微软Azure最近推出了GPT-RAG，这是一项超智能的解决方案，旨在让大型语言模型（LLMs）在企业中更加顺畅地运行。随着人工智能的不断发展，对LLMs的需求因其理解和生成类似人类文本的能力而迅速增长。然而，在企业中使这些工具正常运行并不容易。我们需要确...

人工智能 2023-12-20 人工智能

721阅读

微软推出机器学习库GPT-RAG

随着人工智能的增长，大型语言模型（LLMs）因其解释和生成类似人类文本的能力而日益受欢迎。然而，将这些工具整合到企业环境中并确保可用性和维护治理是一项具有挑战性的任务。为了解决这一难题，Microsoft Azure推出了GPT-RAG，这是一种专为使用...

AIGC 2023-12-19 人工智能

685阅读

LLaMA模型之中文词表的蜕变

在目前的开源模型中，LLaMA模型无疑是一颗闪亮的⭐️，但是相对于ChatGLM、BaiChuan等国产大模型，其对于中文的支持能力不是很理想。原版LLaMA模型的词表大小是32K，中文所占token是几百个左右，这将会导致中文的编解码效率低。在将LL...

生成式AI 2023-12-16 人工智能

1006阅读

本地训练中文LLaMA模型实战教程，民间羊驼模型，24G显存盘它！

羊驼实战系列索引博文1：本地部署中文LLaMA模型实战教程，民间羊驼模型博文2：本地训练中文LLaMA模型实战教程，民间羊驼模型（本博客）博文3：精调训练中文LLaMA模型实战教程，民间羊驼模型简介在学习完上篇【1本地部署中文LLaMA模型...

大数据 2023-12-08 人工智能

681阅读

【深度学习】AIGC ，ControlNet 论文，原理，训练，部署，实战，教程（三）

文章目录源码资源下载 Python环境试玩controlnet 训练数据准备选一个Stable diffusion模型开始训练第一篇：https://qq742971636.blog.csdn.net/article/...

AIGC 2023-12-07 人工智能

1015阅读

玖章算术CEO叶正盛在数据技术嘉年华分享NineData AIGC的应用实践

4月8日下午，为期两天的第十二届数据技术嘉年华（DTC 2023）在北京新云南皇冠假日酒店圆满落下帷幕。大会得到了工业和信息化部电子五所的支持和指导，围绕“开源·融合·数字化——引领数据技术发展，释放数据要素价值”这一主题，通过一场主论坛和十二场专题论坛，...

生成式AI 2023-12-05 人工智能

745阅读

Stable Diffusion：使用Lora用二十张图片训了一个简易版薇尔莉特头像生成器（不作商用，纯纯个人兴趣，狗头保命）

目录一、系统环境二、数据准备及预处理三、使用Stable Diffusion获取图像信息四、安装训练图形化界面五、参数设置及训练过程六、效果测试七、常见报错处理一、系统环境同上一篇博客，云平台：CPU 1核，G...

AIGC 2023-12-03 人工智能

1102阅读

解读Lawyer LLaMA，延申专业领域大模型微调：数据集构建，模型训练

解读Lawyer LLaMA，延申自己领域大模型微调：数据集构建，模型训练项目地址link 自己领域的大模型微调，实现思路大都和这篇文章是一样的，有的是基于LLaMA,或者有的是基于Chinese-LLaMA,或者是其他开源的大模型，本文基于自己训...

人工智能 2023-12-01 人工智能

901阅读

AI测试｜史上最全，细数AIGC在测试领域落地的困难点

一、引言&背景自2022年由横空出世的ChatGPT引发的各类AIGC（Generative AI）爆发以来，人们对其在各个领域的应用潜力产生了极大的兴趣。在研发领域，各种研究已经证明了Github Copilot在研发效能提高上的积极作用。...

AIGC 2023-11-29 人工智能

1236阅读

【网安AIGC专题11.1】11 Coreset-C 主动学习：特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models 写在最前面论文名片先验知识的补充主动学习采样函数 benchmark基准和base...

大数据 2023-11-25 人工智能

866阅读

LLaMA-2论文阅读

1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍，从2K变为了4K 训练的总token数从1.0T/1.4T增加为2.0T(...

生成式AI 2023-11-24 人工智能

1000阅读

大模型入门（四）—— 基于peft 微调 LLaMa模型

llama-7b模型大小大约27G，本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。 1、模型和数据准备使用的大模型：https://huggingface.co/decapoda-resea...

大数据 2023-11-21 人工智能

881阅读

文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现

最近，随着备受关注的文心一言正式免费向全社会开放，再次引起了社会层面对国产大模型的兴趣。以文心一言为代表的国产大模型性能究竟如何？如果将它们相互比较，并且和GPT系列模型等国际前沿水平的LLM进行比较，会得到什么样的结果呢？笔者对此...

人工智能 2023-11-17 人工智能

938阅读

AIGC 爆火，浪潮信息要做大模型的数据存储大底座

AIGC 在 2023 年爆火，各类大模型层出不穷，参数动辄达到千亿数量级。这些背后，数据的类型和形式也走向复杂多样。例如大模型会采用到我们真实物理世界中的文字、视觉、音频、3D、雷达、多谱等复杂多样的不同模态信号和数据，数据则又存在结构化、半结构化、非结...

AIGC 2023-11-12 人工智能

694阅读

快速训练自己的大语言模型：基于LLAMA-7B的lora指令微调

目录 1. 选用工程：lit-llama 2. 下载工程 3. 安装环境 4. 下载LLAMA-7B模型 5. 做模型转换 6. 初步测试 7. 为什么要进行指令微调？ 8. 开始进行指令微调 8.1. 数据准备 8.2 开始模型训练 8.3...

大数据 2023-11-11 人工智能

849阅读

LoRa模型训练教程（炼丹，Stable Diffusion）

1. lora介绍（Low Rank Adaption）何为LoRA？LoRA并不是扩散模型专有的技术，而是从隔壁语言模型（LLM）迁移过来的，旨在解决避免将整个模型参数拷贝下来才能对模型进行调校的问题。因为大型语言模型的参数量过于恐怖，比如最近新出...

AIGC 2023-11-10 人工智能

1213阅读

LLMs：LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【预训练+指令监督微

LLMs：LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【预训练+指令监督微调+奖励模型训练+PPO 训练+DPO 训练】的简介、...

人工智能 2023-11-08 人工智能

988阅读

Stable Diffusion Lora模型训练详细教程

1. 介绍通过Lora小模型可以控制很多特定场景的内容生成。但是那些模型是别人训练好的，你肯定很好奇，我也想训练一个自己的专属模型（也叫炼丹～_～）。甚至可以训练一个专属家庭版的模型（family model），非常有意思。将自己的训练好...

人工智能 2023-11-08 人工智能

2099阅读

1个APP的生产过程

数据准备可以手动录入可以从其他采集scrapy 数据存储，关系型mysql,sqlite,非关系型redis,mongodb 接口准备开发接口，用熟悉的语言node，php，python。熟悉的架构express,fla...

大数据 2023-11-08 大数据

681阅读

使用百度EasyDL实现电动车进电梯自动预警

项目说明业务背景近年来，电动车进楼入户发生火灾的事故屡见不鲜，针对该问题，社区物业已明令禁止电动车入户，但是依然有住户忽视这个问题的严重性。业务难点由于小区电梯多，人工监控很难及时发现电瓶车入户违规，最终造成严重的人员伤亡事故。同...

AIGC 2023-11-08 大数据

788阅读

高德地图爬虫

高德地图爬虫工具：Pycharm,win10,Python3.6.4 1.需求分析这篇爬虫和上一篇百度地图爬虫要求一样，百度地图爬虫我发现有一个auth参数会一直变化，一旦变化则获取的数据是不准确的，所以我上高德地图看了一下，高德地图没有这个反爬...

生成式AI 2023-11-08 大数据

765阅读

百度地图爬虫

百度地图爬虫工具：Pycharm，win10，Python3.6.4 1.需求分析上面是我们正常打开百度地图看到的画面，我们只需要在输入框输入我们想查找的东西就能获取到相应信息，今天我们要获取每个地区的养老院的数量。我们随便输入一个地区，如上...

生成式AI 2023-11-08 大数据

696阅读

AI基础软件：如何自主构建大+小模型？

一、公司介绍九章云极DataCanvas以创造智能探索平台为使命，怀揣着助力全球企业智能升级的愿景，是中国人工智能基础软件领域的佼佼者。公司专注于自主研发的人工智能基础软件产品系列和解决方案，为用户提供全面的人工智能基础服务，旨在帮助用户在数智化转...

人工智能 2023-10-27 人工智能

965阅读