在当今数字化的时代,数据已然成为企业决策与运营的关键要素。而保障数据的完整性、准确性以及及时性,对于企业的发展有着举足轻重的意义。在数据运维管理范畴内,补数据属于大数据开发和运维人员常用的运维操作手段。
周期补数据和定时补数据作为两个相对特殊的补数据方式,在各类不同的场景中均发挥着至关重要的作用。
例如,某银行客户的上游业务系统数据会每隔一段时间进行数据订正,此时可能需要重新计算或补充之前的数据。若每次都通过手动方式去补,操作将会极其繁琐,这种情况下就需要借助周期补数据的功能来修正数据。
再如,某证券客户的机器资源有限,白天时段希望将资源主要用于跑批任务,而夜间的资源通常处于闲置状态。大数据开发人员通常需要设置一个凌晨的闹钟起来补数据,在此种情形下,则需要借助定时补数据的功能,从而避免天天熬夜。
一、如何配置周期补数据任务
第一步:补数据任务配置
使用项目下拥有「数据开发」角色权限的用户,进入到当前项目的「运维中心->周期任务->周期任务管理」页面,如下图所示:
我们要对mysql_002这个任务进行周期补数据的配置,找到mysql_002任务后,点击「操作-补数据-当前任务」;
打开补数据配置页面后,运行方式选择「周期运行」,即可对当前补数据任务进行「调度周期」「具体时间」「业务日期」等相关属性的配置;
配置调度周期为天,计划时间为每日0点,需要补业务日期为计划时间近三天的数据,可以进行如下图配置;
点击「预览」按钮,预览补数据近5个周期对应的业务日期;
完成周期补数据相关配置后,点击「确定」按钮。
第二步:补数据任务管理
周期补数据配置完成后,在「运维中心->补数据任务->补数据任务管理->周期运行」中可以看到新建的周期补数据任务;
在补数据任务管理页面,能够查看相应的任务信息,并且能够针对已生成的周期补数据任务进行「生效状态」的管理,还能执行临时运行周期补数据任务、编辑周期补数据任务配置以及删除周期补数据任务等操作。
第三步:补数据实例管理
在补数据实例管理页面,可以对不同批次的补数据任务进行操作,例如批量杀实例、批量重跑等操作;
二、如何配置定时补数据任务
第一步:补数据任务配置
使用项目下拥有「数据开发」角色权限的用户,进入到当前项目的「运维中心->周期任务->周期任务管理」页面,如下图所示:
我们要对mysql_002这个任务进行定时补数据的配置,找到mysql_002任务后,点击「操作-补数据-当前任务」;
打开补数据配置页面后,选择运行方式为「单次运行」,运行时间为「自定义时间」设置为7月30日 00时00分;
完成定时补数据任务配置后,点击「确认」按钮。
第二步:补数据任务管理
定时补数据配置完成后,在「运维中心->补数据任务->补数据任务管理->单次运行」中可以看到新建的定时补数据任务;
在补数据任务管理页面,能够查看相应的任务信息,可以执行临时运行定时补数据任务、编辑定时补数据任务配置以及删除定时补数据任务等操作。
第三步:补数据实例管理
在补数据实例管理页面,可以对不同批次的补数据任务进行操作,例如批量杀实例、批量重跑等操作。
三、总结
通过对周期补数据和定时补数据的介绍,我们深入了解了这两种特殊的数据补充方式。周期补数据适用于应对诸如数据采集故障、系统升级或迁移、业务规则变更等导致的数据缺失或错误,能按照一定规律自动补充,减轻手动操作的繁琐。定时补数据则能充分利用特定时间段的资源,满足如资源有限场景下的补数据需求,避免人工熬夜操作。
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szkyzg
总结
### 文章总结在现代数字化企业环境中,数据是企业运营与决策的核心。确保数据的完整性、准确性与及时性对企业发展至关重要。数据运维管理中,补数据作为常用运维技巧,特别在处理数据缺失、错误或特定资源利用等方面展现其重要性。
**周期补数据与定时补数据**是两种关键的补数据策略:
1. **周期补数据**:适用于定期需要修正或补充历史数据的情况,如银行系统的数据订正。其优势在于自动化修正,减轻手动繁琐,确保数据的连续性和准确性。配置时,通过设定运行周期、时间与业务日期等参数,系统能自动执行任务。
**操作流程**:
- 进入运维中心,选择周期任务管理。
- 为具体任务设置运行方式为周期运行,并配置调度周期、时间及业务日期。
- 完成后可通过任务管理页面查看并管理补数据任务。
2. **定时补数据**:主要针对资源时段性限制或特定时间补数据需求,如证券行业的夜间资源利用。此策略能有效避免日常时段的资源浪费和人工熬夜操作。
**操作流程**:
- 类似地,进入周期任务管理页面。
- 设置运行方式为单次运行,自定义运行时间。
- 配置完成后,在单次运行任务管理中查看并管理任务。
**总结**:
- 周期补数据适用于规律性数据修正,可自动化处理数据缺失或错误。
- 定时补数据则满足特定时段资源利用或即时补数据需求,提高资源效率和数据处理灵活性。
文章通过详实的操作流程介绍了这两种补数据方式的配置与管理,同时提供了相关白皮书的下载链接和袋鼠云官网连接,便于深入学习与咨询。