针对在AIGC的场景下,如何解决在AIGC训练过程中数据的存储和数据处理的问题,杨冠军从三个方面进行介绍与解读:
一是AIGC对存储提的新需求;
二是介绍腾讯云可以给用户提供的整体存储解决方案;
三是腾讯云提供的整体数据处理方案。
AIGC的新需求:模型训练与应用推理的述求
我国每年产生的数据量呈现非常大的增长趋势,这个前提还是前两年AIGC场景仍未出现的情况。而现在从UGC到AIGC以后,相信整个行业产生的数据量会比这个更为庞大,如何处理这些数据,这些数据怎么应用到系统上?这都对数据存储带来了更大的需求和挑战。
从最初收集的原始数据,基于这些数据做数据处理,产生对应预处理后的数据,然后再给后面的训练模型,可以看到在整个模型训练的过程当中,会带来很大的数据量增长,也带来了对数据的统一存储的需求。
腾讯云对此训练场景总结的需求有三点:一是数据湖的统一存储。在整个AIGC的过程当中,数据存储的量非常大,它带来的存储需求就需要用数据湖来解决,避免数据孤岛的问题。二是在各个业务的处理过程当中,数据流动的需求,这些数据如果用一些传统的文件存储的话,就会遇到数据孤岛的问题,因此需要一个统一存储来对其提供服务。第三是高吞吐和低延迟,在AIGC的场景下,GPU的算力是稀有和昂贵的,客户希望整个训练是跑的越快越好,对GPU使用的越满约好,这就对底层的存储提出了一个要求:越快的把数据读出来,越快的提供给上层训练,这样价值才是最高的。
在AIGC业务处理流程中,应用推理场景核心需求主要由内容审核与数据智理两部分组成。将训练好的模型部署后,并通过服务模式提供给用户,通常的逻辑就是用户提供prompt,基于prompt生成一些数据。无论是文生文,文生图,还是视频等,这都要海量数据的存储,在腾讯云上都是通过对象存储来提供。
而在这些数据生成的过程当中,基于有国家安全合规的监管要求,就需要用到腾讯云提供的内容审核和数据处理的能力。同时针对这些数据,用户希望它能够有一些数据智理的功能,这里基于我们对AIGC业务的梳理,用了一个智能的智,后面会详细的介绍该需求。
腾讯云存储解决方案
AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。
AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。
最左边显示的是腾讯云提供的专门的数据迁移上云服务,可以把用户收集到的数据、或友商上的数据导入腾讯云COS对象存储上。中间这部分描述的就是我们提到的一站式存储解决方案,最底层是腾讯云海量存储的底座-COS对象存储,上面通过GooseFS和GooseFSx两种产品,来完成AIGC场景下数据预处理的加速、模型训练中的POSIX访问的需求。
在数据爆炸性增长的时代,对象存储永远是最合理的存储底座,上面这个图是腾讯云对象存储COS的整体服务框架,在这个架构当中,最底层就是腾讯云自研的分布式对象存储引擎Yotta,它可支持单集群1万台服务器,单集群EB级的存储,对原始的数据和AIGC生成的数据做统一数据湖存储是非常适合的。另外COS对象存储提供了标准、低频、归档、深度归档等多种存储类型,支持通过生命周期管理的方式来做合适的降本,让客户在拥有一个海量的存储系统的同时,并且不会付出太高的存储成本。
在对接客户的数据预处理需求中,我们发现通常节点本地有很多的空闲磁盘可以利用,腾讯云GooseFS是一个分布式缓存系统,可以有效的把计算节点的这些磁盘利用起来,来加速对底层对象存储的访问,提供更高的读性能给上层应用。另外GooseFS也支持常用的多种协议,包括了HDFS、FUSE及S3协议。在不同的应用场景下,GooseFS可以有效的提升上层应用访问COS的性能,基本有2到10倍的性能提升。
下面介绍下GooseFS在数据预处理场景下的最佳实践,其部署方案主要有低成本、高性能及高可靠三个特点。低成本:GooseFS Worker部署在计算节点上,利用计算节点NVME SSD作为缓存介质,提供PB级别缓存空间;高性能:通过VPC网络打通数据流,多节点可以构建TB/s的吞吐能力;高可靠:GooseFS Master 单独部署,3节点通过RAFT协议保证GooseFS集群的高可靠性。
在AIGC的训练场景里,很多的访问都是基于文件的接口,这跟传统的HPC或者是AI的场景里通过POSIX的语义访问是一致的,我们的GooseFSx产品提供的就是完全兼容POSIX语义访问的能力。
相比传统客户自己部署分布式文件存储服务,GooseFSx整体有如下优点:
1.全托管云服务,一键式购买发货,省去部署、调测等运维工作;
2.完全兼容POSIX文件语义,工作负载无需进行任何改动;
3.按创建容量计费,按量付费、弹性扩容,避免资源闲置;
4.自动部署客户端软件,将GooseFSx挂载到主机的本地目录;
5.采用分布式架构,性能随节点扩展而线性增长;
下面我重点介绍下GooseFSx与COS数据的自由流动的能力,这在基于COS提供数据湖统一存储,然后上层应用需要POSIX文件访问的场景里是非常重要的。
1.COS 上的 Object 按照 Key,以相同的目录结构射到 GooseFSx 上;
2.关联多个存储桶:数据加速器能同时对多个存储桶进行加速;
3.双向流动:可以从 COS 加载,并将新生产的文件沉降到 COS;
4.自定义流动的策略:基于整个存储桶或自定义前缀、进行加载或沉降;
5.增量同步:再次加载或沉降时,仅同步增量的数据
6.数据流动任务:管理数据流动,输出任务报告,保障数据流动完整性,简单易用;
腾讯云数据处理方案
数据万象是腾讯云提供的一站式智能平台,整合腾讯领先的AI技术,打造数据处理百宝箱,提供图片处理、媒体处理、内容审核、文件处理、AI内容识别、文档服务等全品类多媒体数据的处理能力。
腾讯云内部有多个实验室,数据万象整合了腾讯前沿实验室技术能力,如AI实验室:基础算法;优图实验室:图像识别;多媒体实验室:编解码研究;天御实验室:安全封控算法,结合腾讯行业领先业务最佳实践,如腾讯音乐:降噪、分离等场景;腾讯视频:视频指纹、编解码等场景;腾讯新闻:图文审核等场景;腾讯全民K歌:歌唱评分、音乐标签等场景。
在AIGC的场景里面,目前大家关注最多的还是文本,随着后面多模态模型的发展,会有越来越多的文生图、文生音频、文生视频场景,甚至还会有基于图片生成一段视频的方式。数据万象对这些能力都是覆盖的,包括图片的处理、音频处理及视频处理的能力。
国家一直有内容合规和审核的要求,在数据万象的功能中,还包括了内容审核的能力,无论是针对文本、音频还是视频,数据万象都提供了一整套的内容审核解决方案和能力,基于存储在COS上的数据,你可以非常方便的做业务内容审的对接。
总结来看,腾讯云提供的一站式数据处理有如下三点优势:
一是便捷的介入,无论是对象存储还是数据万象,都是一体化的平台,提供一站式的存储和内容审核的方案;
第二是精准的模型,基于腾讯云对接的众多客户,我们针对AIGC场景做了专门的审核模型和一些专项的优化;
第三是更高的性能,数据存储在对象存储上,其调用审核和处理都是在同一个园区内,这个流程加载和处理的时延是非常低的;
数据万象还有一个很棒的功能就是智能检索服务。在AIGC的时代,随着自己拥有的数据越来越多,数据检索的需求也会越来越大。比如我们在个人电脑上有几十GB的数据,检索到合适的数据就会让人感觉困难,而随着AIGC的发展,用户拥有的数据会到TB、PB的量级,这个情况下要搜索到合适的数据就会更加困难。在大模型出现后,我们发现通过这种智能检索服务对文本、图片、视频做特征提取,然后把提取后的特征存储下来,后面再基于输入的文本做对应特征的匹配,这样搜索的丰富度和准确性都是很高的。
当前腾讯云数据万象支持的智能检索服务有:文搜图,图搜图,图搜视频,视频搜视频。智能检索服务的底层是数据万象的大语言模型,它是腾讯云基于授权的商业数据以及自有业务数据进行预处理抽取,机器翻译,模型清洗,图文配对,人工校对等处理工作,然后训练出来的一个垂直领域大模型。
在实际的应用需求中,智能检索服务可以有效的应用在多种图片检索场景,总结而言,数据万象有三点优势:
一是通过智能扣图来建立特征库更为精确;
二是支持文本、图片的多种的检索形态,提供API/SDK的访问方式较为便捷;
三是底层是腾讯云数据万象的自研的大语言模型,它可提供秒级的检测的结果;
总结回顾
围绕AIGC,腾讯云提供了生成、审核、智理全生命周期的存储和数据处理解决方案,分为下面三个部分:
第一是数据生成,腾讯云有对象存储COS、GooseFS、GooseFSx对接我们的大语言模型的训练,推理平台的构建;
第二是内容审核,通过数据万象中的内容审核来做一些合规性的审核,以此保证整个平台的安全;
第三是数据智理,通过智能检索的服务来做特征的匹配和查询,快速满足上层业务需求。