当前位置:AIGC资讯 > 数据采集 > 正文

玩转大数据系列之一:数据采集与同步

数据的采集和同步,是先将数据从设备、或者本地数据源采集、同步到阿里云上,然后在阿里云上对数据进行分析和处理,最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章,您可以根据您使用阿里云产品,查看相应的文档教程。

关于数据采集,DataWorks专门有一个模块叫做数据集成,是阿里巴巴集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详细介绍请参见数据集成概述。

MaxCompute

Hadoop数据迁移MaxCompute JSON数据从OSS迁移到MaxCompute最佳实践 JSON数据从MongoDB迁移到MaxCompute最佳实践

DataWorks

新增日志服务(Loghub)通过数据集成投递数据 新增ElasticSearch通过数据集成导入数据 数据集成最佳实践—OTSStream配置同步任务 RDS迁移到Maxcompute实现动态分区最佳实践

Elasticsearch

使用DataWorks实现Hadoop与Elasticsearch数据同步 使用DataWorks实现MaxCompute与Elasticsearch数据同步 阿里云上数据导入阿里云ES(离线) 同步 MySQL 数据库到 Elasticsearch 中并进行搜索分析

AnalyticDB

通过DTS实时同步RDS for MySQL数据到AnalyticDB 使用数据集成迁移 使用kettle将本地数据导入分析型数据库

DataHub

数据同步DTS将RDS数据实时传输至DataHub 流数据同步DataConnector 函数计算作为DataHub后端服务 扩容缩容Merge/Split
Datahub具有服务弹性伸缩功能,用户可根据实时的流量调整Shard数量,来应对突发性的流量增长或达到节约资源的目的。

更多大数据实战文章

玩转大数据系列之一:数据采集与同步
玩转大数据系列之二:数据分析与处理
玩转大数据系列之三:数据报表与展示
玩转大数据系列之四:搜索服务

作者: 汐林
原文链接
本文为云栖社区原创内容,未经允许不得转载。

更新时间 2023-11-08