当前位置：AIGC资讯 > 大数据 > 正文

玩转大数据系列之一：数据采集与同步

数据的采集和同步，是先将数据从设备、或者本地数据源采集、同步到阿里云上，然后在阿里云上对数据进行分析和处理，最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章，您可以根据您使用阿里云产品，查看相应的文档教程。

关于数据采集，DataWorks专门有一个模块叫做数据集成，是阿里巴巴集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详细介绍请参见数据集成概述。

MaxCompute

Hadoop数据迁移MaxCompute JSON数据从OSS迁移到MaxCompute最佳实践 JSON数据从MongoDB迁移到MaxCompute最佳实践

DataWorks

新增日志服务（Loghub）通过数据集成投递数据新增ElasticSearch通过数据集成导入数据数据集成最佳实践—OTSStream配置同步任务 RDS迁移到Maxcompute实现动态分区最佳实践

Elasticsearch

使用DataWorks实现Hadoop与Elasticsearch数据同步使用DataWorks实现MaxCompute与Elasticsearch数据同步阿里云上数据导入阿里云ES（离线）同步 MySQL 数据库到 Elasticsearch 中并进行搜索分析

AnalyticDB

通过DTS实时同步RDS for MySQL数据到AnalyticDB 使用数据集成迁移使用kettle将本地数据导入分析型数据库

DataHub

数据同步DTS将RDS数据实时传输至DataHub 流数据同步DataConnector 函数计算作为DataHub后端服务扩容缩容Merge/Split
Datahub具有服务弹性伸缩功能，用户可根据实时的流量调整Shard数量，来应对突发性的流量增长或达到节约资源的目的。

更多大数据实战文章

玩转大数据系列之一：数据采集与同步
玩转大数据系列之二：数据分析与处理
玩转大数据系列之三：数据报表与展示
玩转大数据系列之四：搜索服务

作者：汐林
原文链接
本文为云栖社区原创内容，未经允许不得转载。

数据集数据集成大数据数据同步最佳实践数据采集数据库 sql 数据导入数据源 mysql json url 节约资源数据报表原创内容实时同步流量增长搜索分析数据分析 cto

更新时间 2023-11-08