训练数据集第6页

谷歌称重复某些关键词可让ChatGPT自曝训练数据 OpenAI：违反服务条款

12月5日消息，谷歌的一组研究人员声称，他们已经找到了获取OpenAI人工智能聊天机器人ChatGPT部分训练数据的方法。在最新发表的论文中，谷歌研究人员表示，某些关键词可迫使ChatGPT泄露其所接受训练数据集的部分内容。他们举例称，该模型在被提...

大数据 2023-12-05 人工智能

436阅读

不是大模型全局微调不起，只是LoRA更有性价比，教程已经准备好了

增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别，「大模型」越来越大的趋势还将愈演愈烈。这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型，不仅训练时间长，还需占用大量高性能的内存资...

AIGC 2023-12-04 人工智能

634阅读

[玩转AIGC]sentencepiece训练一个Tokenizer(标记器)

目录一、前言二、安装三、自己训练一个tokenizer 四、模型运行五、拓展六、补充一、前言前面我们介绍了一种字符编码方式【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）这种方式是对一个一个...

生成式AI 2023-12-02 人工智能

544阅读

AI绘画站上被告席

“我们的案件情况和AI图被盗的案子完全不同，我们告的是小红书的AI模型库侵权。” 近日关于AI绘画侵权的风波不止，除了侵犯AI绘画图片著作权的案件一审宣判，还有AI模型数据库侵权案立案。日前，据“九派财经”报道，画师“正版青团子”与小红书关于作品著作权侵...

AIGC 2023-12-01 人工智能

458阅读

基于AI的架构优化：创新数据集构造法提升Feature envy坏味道检测与重构准确率

本文分享自华为云社区《华为云基于AI实现架构坏味道重构取得业界突破，相应文章已被软工顶会FSE 2023收录》，作者：华为云软件分析Lab。基于AI技术实现架构坏味道检测与重构建议是当前业界比较流行的做法，但此做法往往存在一个通病，即训练数据集的质量...

AIGC 2023-12-01 人工智能

457阅读

ChatGPT新漏洞：失控背出个人隐私泄露训练数据，OpenAI修复后依然有效

ChatGPT最新漏洞曝光，一句话就能让训练数据原封不动地泄露。只需要让它重复一个词，它就会在一定次数后“发疯”，甚至毫无防备说出某人的个人隐私信息。 DeepMind的研究人员联合华盛顿大学、康奈尔大学等高校，发现了ChatGPT的数据泄露漏洞。...

生成式AI 2023-12-01 人工智能

466阅读

ChatGPT泄露私人信息漏洞曝光，攻击方法轻松且成本极低

一组由Google DeepMind科学家领导的研究人员成功利用巧妙方法，让OpenAI的ChatGPT揭示个人电话号码和电子邮件地址。这一攻击的成功表明ChatGPT的训练数据中可能包含大量私人信息，有可能不可预测地泄露出来。图源备注：图片由AI生成...

生成式AI 2023-12-01 人工智能

499阅读

ChatGPT狂吐训练数据，还带个人信息：DeepMind发现大bug引争议

如果我不停地让 ChatGPT 干一件事，直到把它「逼疯」会发生什么？它会直接口吐训练数据出来，有时候还带点个人信息，职位手机号什么的：本周三，Google DeepMind 发布的一篇论文，介绍了一项让人颇感意外的研究成果：使用大约 200 美元...

大数据 2023-11-30 人工智能

461阅读

开源生成式AI初创平台together.ai融资7.3亿元

Together AI，一家专注于生成式人工智能（AIGC）领域的初创平台，宣布在A轮融资中获得7.3亿元人民币，由凯鹏华盈领投，英伟达等多家公司跟投。 Together AI强调开源在大模型领域的重要性，发布了多个备受好评的开源产品，包括类ChatGPT...

大数据 2023-11-30 人工智能

514阅读

使用 RLHF 训练 LLaMA 的实践指南：StackLLaMA

由于LLaMA没有使用RLHF，后来有一个初创公司 Nebuly AI使用LangChain agent生成的数据集对LLaMA模型使用了RLHF进行学习，得到了ChatLLaMA模型，详情请参考：Meta开源的LLaMA性能真如论文所述吗？如果增加RLH...

人工智能 2023-11-30 人工智能

569阅读

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。具体而言，团队按照提出的新框架...

人工智能 2023-11-29 人工智能

499阅读

Llama-Factory的baichuan2微调

Llama-Factory：https://github.com/hiyouga/LLaMA-Factory/tree/main 请使用 --quantization_bit 4/8 来启用 QLoRA 训练。默认模块应作...

人工智能 2023-11-28 人工智能

630阅读

全球首份《AI系统安全开发准则》发布，提出4方面安全监管要求

2023年11月26日，美国、英国、澳大利亚等18个国家的网络安全监管部门联合发布了全球首份《AI系统安全开发准则》，旨在实现保护人工智能模型不被恶意篡改，并敦促人工智能公司在开发或使用人工智能模型时更加关注“设计安全”。作为这份准则制定的主要参...

人工智能 2023-11-28 人工智能

547阅读

在少样本学习中，用SetFit进行文本分类

译者 | 陈峻审校 | 重楼在本文中，我将向您介绍“少样本（Few-shot）学习”的相关概念，并重点讨论被广泛应用于文本分类的SetFit方法。传统的机器学习（ML）在监督（Supervised）机器学习中，大量数据集被用于模型训练，以便...

人工智能 2023-11-28 人工智能

511阅读

DALLE2论文解读及实现(一)

DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents paper: https://cdn.openai.com/papers/dall-e-2.pdf githu...

人工智能 2023-11-27 人工智能

670阅读

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

文章目录一、背景二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择三、效果四、思考论文：Learning Transferabl...

AIGC 2023-11-27 人工智能

1038阅读

大模型界的“熊猫烧香”，可对文生图模型造成巨大伤害！

《麻省理工技术评论》分享了一个名为Nightshade的投毒工具，可以对DALL-E、Midjourney 和Stable Diffusion等文生图模型的训练数据造成造成巨大伤害，以帮助艺术家们防止非法爬取其画作数据，用于大模型训练，同时揭露了模型存在的...

生成式AI 2023-11-26 人工智能

595阅读

OpenAI神秘Q毁灭人类？爆火「Q假说」竟牵出世界模型，全网AI大佬长文热议

Q* 【新智元导读】传闻中OpenAI的Q*，已经引得AI大佬轮番下场。AI2研究科学家Nathan Lambert和英伟达高级科学家Jim Fan都激动的写下长文，猜测Q*和思维树、过程奖励模型、AlphaGo有关。人类离AGI，已是临门一脚了? Ope...

人工智能 2023-11-25 人工智能

459阅读

Meta AI研究团队新AI模型： Llama 2 大语言模型

Llama是Facebook Research团队开发的基础语言模型集，旨在提供广泛的语言理解能力。它基于转换器架构，参数范围从7B到65B。通过使用Llama模型，研究人员和开发人员可以构建更先进的自然语言处理系统。您可以在GitHub上找到相关的代...

人工智能 2023-11-25 人工智能

531阅读

【多模态】4、Chinese CLIP | 专为中文图文匹配设计

文章目录一、背景二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸三、效果四、代码 4.1 推理论文：Chinese CLIP: Contrastive Vision-Language Pr...

人工智能 2023-11-24 人工智能

1369阅读

LLaMA-2论文阅读

1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍，从2K变为了4K 训练的总token数从1.0T/1.4T增加为2.0T(...

生成式AI 2023-11-24 人工智能

628阅读

Stable Diffusion如何生成高质量的图-prompt写法介绍

文章目录 Stable Diffusion 使用尝试下效果 prompt的编写技巧 prompt 和 negative prompt Prompt格式 Prompt规则细节优化 Guidance Scale 总结 Sta...

人工智能 2023-11-23 人工智能

694阅读

通用人工智能（AGI）离我们还有多远

人工智能（AI）是当今科技领域最热门和最具影响力的话题之一，它已经渗透到了我们生活和工作的方方面面，从电影推荐和语音助手，到自动驾驶和医疗诊断。AI的发展也引发了人们对未来的想象和期待，尤其是对通用人工智能（Artificial General Inte...

大数据 2023-11-22 人工智能

519阅读

教你如何使用PyTorch解决多分类问题

本文分享自华为云社区《使用PyTorch解决多分类问题：构建、训练和评估深度学习模型》，作者：小馒头学Python。引言当处理多分类问题时，PyTorch是一种非常有用的深度学习框架。在这篇博客中，我们将讨论如何使用PyTorch来解决多分类...

人工智能 2023-11-22 人工智能

453阅读

Stable Video Diffusion来了，代码权重已上线

AI 画图的著名公司 Stability AI，终于入局 AI 生成视频了。本周二，基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了，AI 社区马上开始了热议。很多人都表示「我们终于等到了」...

AIGC 2023-11-22 人工智能

484阅读

【文心一言 vs. 通义千文】一言对千问：自百度之后，阿里终于还是出手了——通义千问

通义千问： https://tongyi.aliyun.com/通义千问https://tongyi.aliyun.com/ 目录通义千问：达摩院 GPT-30B 模型复现 GPT-3 模型介绍 GPT3中文30B参数量文本生...

人工智能 2023-11-22 人工智能

608阅读

程序员眼中的 ChatGPT

作者 | Bright Liao 作为一个一直对AI 技术很感兴趣的软件开发工程师，早在深度学习开始火起来的2015、2016年，我就开始了相关技术的学习。当时还组织了公司内部同样有兴趣的同学一起研究，最终的成果汇集成几次社区中的分享以及几篇学习文章（见...

AIGC 2023-11-21 人工智能

478阅读

Stable Diffusion - 图像控制插件 ControlNet (OpenPose) 配置与使用

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/131591887 论文：Adding Conditional Co...

AIGC 2023-11-21 人工智能

983阅读

基于llama模型进行增量预训练

目录 1、llama模型转换(pytorch格式转换为HuggingFace格式 1.1、拉取Chinese-LLaMA-Alpaca项目 1.2、准备文件夹 1.3、下载llama官方原始模型 1.4、移动文件到指定位置 1.5、执行转换脚...

生成式AI 2023-11-21 人工智能

747阅读

Grounding dino + segment anything + stable diffusion 实现图片编辑

目录总体介绍总体流程模块介绍目标检测： grounding dino 目标分割：Segment Anything Model (SAM 整体思路模型结构：数据引擎图片绘制集成样例其他问题附录总体介绍...

生成式AI 2023-11-21 人工智能

935阅读

大语言模型之七- Llama-2单GPU微调SFT

（T4 16G）模型预训练colab脚本在github主页面。详见Finetuning_LLama_2_0_on_Colab_with_1_GPU.ipynb 在上一篇博客提到两种改进预训练模型性能的方法Retrieval-Augmented Gener...

人工智能 2023-11-21 人工智能

568阅读

Stable Diffusion XL训练LoRA

主要包括SDXL模型结构，从0到1训练SDXL以及LoRA教程，从0到1搭建SDXL推理流程。【一】SDXL训练初识 Stable Diffusion系列模型的训练主要分成一下几个步骤，Stable Diffusion XL也不例外：训练集...

AIGC 2023-11-20 人工智能

710阅读

Omniverse Replicator环境配置和使用说明

Omniverse Replicator使用说明本教程将介绍Omniverse Replicator的环境配置和使用说明, 参加Sky Hackathon的同学可以参考本教程来合成训练数据集. 文章目录 Omniverse Repl...

大数据 2023-11-20 人工智能

615阅读

【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」

ChatGPT开源替代品——LLaMA系列之「羊驼家族」 1. Alpaca 2. Vicuna 3. Koala 4. ChatLLaMA 5. FreedomGPT 6. ColossalChat 完整的 ChatGPT 克隆解决方案中...

AIGC 2023-11-20 人工智能

1372阅读

13B模型全方位碾压GPT-4？这背后有什么猫腻

一个参数量为 13B 的模型竟然打败了顶流 GPT-4？就像下图所展示的，并且为了确保结果的有效性，这项测试还遵循了 OpenAI 的数据去污方法，更关键的是没有发现数据污染的证据。如果你细细查看图中的模型，发现只要带有「rephraser」这个单词...

大数据 2023-11-18 人工智能

459阅读

文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现

最近，随着备受关注的文心一言正式免费向全社会开放，再次引起了社会层面对国产大模型的兴趣。以文心一言为代表的国产大模型性能究竟如何？如果将它们相互比较，并且和GPT系列模型等国际前沿水平的LLM进行比较，会得到什么样的结果呢？笔者对此...

人工智能 2023-11-17 人工智能

630阅读

解释：生成式 AI的工作机制与差异

像 ChatGPT 这样强大的生成式 AI 系统是如何工作的，它们与其他类型的人工智能有何不同？快速浏览一下头条新闻，就会发现生成式人工智能如今无处不在。事实上，其中一些标题实际上可能是由生成式人工智能撰写的，例如 OpenAI 的 ChatGPT，...

AIGC 2023-11-15 人工智能

597阅读

中国AIGC数据标注全景报告：百亿市场规模，百万就业缺口

数据标注，正迎来关键洗牌时刻。大模型时代到来，以数据为中心的AI开发模式加速走向台前，数据的价值从未向今天这样被充分挖掘—— 大模型从训练到部署应用迭代，AIGC众多垂直场景落地，通用智能、具身智能等前沿领域探索，都与高质量、专业化的场景数据密不可分。...

生成式AI 2023-11-14 人工智能

467阅读

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

可以说，AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日，Meta 终于发布了免费可商用版本 Llama 2，让开源大模型领域的格局发生了巨大变化。 Llama 2 模...

大数据 2023-11-14 人工智能

499阅读

自动代码Copilot背后的模型

文章目录 1.引入 2.评估框架 3.评估数据集 4.模型方法 5.实验结果 6.总结 7.参考之前，我已经介绍过Github发布的自动代码Copilot的使用方法，感兴趣的可以看这篇文章：Copilot要收费了？今天主要介绍一...

AIGC 2023-11-13 人工智能

653阅读

LLaMA系列 | LLaMA和LLaMA-2精简总结

文章目录 1、LLaMA 1.1、模型结构 1.2、训练方式 1.3、结论 2、LLaMA-2 2.1、相比LLaMA1的升级 2.3、模型结构 2.3.1、MHA, MQA, GQA区别与联系 2.4、训练方式 1、L...

人工智能 2023-11-13 人工智能

795阅读

【网安AIGC专题10.11】2 ILF利用人类编写的自然语言反馈来训练代码生成模型：自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model

Improving Code Generation by Training with Natural Language Feedback 写在最前面主要工作启发背景介绍应用现有工作的不足 Motivation动机方法 ILF...

大数据 2023-11-12 人工智能

546阅读

AIGC实战——卷积神经网络(Convolutional Neural Network, CNN)

AIGC实战——卷积神经网络 0. 前言 1. 卷积神经网络 1.1 卷积层 1.2 叠加卷积层 1.3 检查模型 2. 批归一化 2.1 协变量漂移 2.2 使用批归一化进行训练 2.3 使用批归一化进行预测 3. Dropout 4...

AIGC 2023-11-11 人工智能

581阅读

AI检测器又活了？成功率高达98%，吊打OpenAI

现在AI文本检测器，几乎没有办法有效地区分AI生成的文字和人类的文字。就连OpenAI开发的检测工具，也因为检测准确率太低，在上线半年后悄悄下线了。但是最近，Nature报导了堪萨斯大学的一个团队的研究成果，他们开发的学术AI检测系统，能有效分辨论...

大数据 2023-11-10 人工智能

529阅读

OpenAI与第三方机构合作，构建新的AI训练数据集

OpenAI最近宣布了Data Partnerships计划，旨在与第三方机构合作，创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题，其中包含有毒语言和偏见。 OpenAI的目标是培养更安全、更有益于全人类的AI。...

生成式AI 2023-11-10 人工智能

464阅读

AIGC实战——生成模型简介

AIGC实战——生成模型简介 0. 前言 1. 生成模型 2. 生成模型与判别模型的区别 2.1 模型对比 2.2 条件生成模型 2.3 生成模型的发展 2.4 生成模型与人工智能 3. 生成模型示例 3.1 简单示例 3.2 生成模型框...

大数据 2023-11-10 人工智能

724阅读

OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

IT之家 11 月 10 日消息，OpenAI 发文宣布，将与组织合作生成用于训练 AI 模型的公共 / 私有数据集，数据合作伙伴关系旨在“让更多组织能够帮助引导 AI 的未来”并“从更有用的模型中受益”。 IT之家从博客获悉，OpenAI 称：“为了...

大数据 2023-11-10 人工智能

446阅读

LoRa模型训练教程（炼丹，Stable Diffusion）

1. lora介绍（Low Rank Adaption）何为LoRA？LoRA并不是扩散模型专有的技术，而是从隔壁语言模型（LLM）迁移过来的，旨在解决避免将整个模型参数拷贝下来才能对模型进行调校的问题。因为大型语言模型的参数量过于恐怖，比如最近新出...

AIGC 2023-11-10 人工智能

809阅读

【AI绘画】《超入门级教程：训练自己的LORA模型》，MM超爱的萌宠图片实战

目录前言一、SD-Trainer webui使用介绍二、准备工作 2-1、登录在线训练平台 2-2、购买算力并创建工作空间 2-3、启动工作空间三、开始训练 3-1、打开终端 3-2、准备训练数据 3-3、准备模型文件 3-3-...

生成式AI 2023-11-09 人工智能

1293阅读

ChatGPT泄露陌生男子自拍照！隐私数据被模型偷了？网友大恐慌

【新智元导读】原来，这竟然也是ChatGPT的幻觉? 最近，ChatGPT响应中蹦出陌生男子照片事件，让许多网友们震惊了! 事情是这样的，一名用户向ChatGPT求助——Python中的代码格式化包back该怎样使用。开始，ChatGPT的回答还很正常。...

大数据 2023-11-09 人工智能

463阅读