一、什么是 DataOps?
- 概念
1.1 历史
2014年,Lenny Liebmann 最早在《Three Reasons Why DataOps Is Essential for Big Data Success》这篇文章中,提出 DataOps 的概念,它定义了 DataOps 是优化数据科学和运营团队之间协作的一系列实践集。
2015年,Andy Palmer 将这个理念发扬光大,提出了 DataOps 的四个关键构成:数据工程,数据集成,数据安全和数据质量。
2017年,Nexla 的 Jarah Euston 把 DataOps 的核心定义为从数据到价值,这个是首次把 DataOps 和业务价值关联起来的定义。
2018年,Gartner 把 DataOps 纳入到 Data Management 的技术成熟度曲线,标志着 DataOps 正式被业界所接纳并推广起来。
图片
将 DevOps 的 CI/CD 理念应用到数据领域
优化和改进数据管理者(生产者)和数据消费者的协作
持续交付数据流生产线
图片
1.3 形式
将数据采集、数据集成、数据准备、数据质量与数据安全等基础功能集成,并提供可运维的能力,以提升从数据洞察到价值发现的效率。
图片
DataOps 是数据管理实践新的发展方向,其目标是 数据用户(包括数据管理、数据科学家、业务系统等)能够便利及时地从数据中获取业务价值。
图片
- 内容
图片
DataOps 类似于 DevOps,强调数据发布的效率和数据团队的整合。
通过可持续的自动化方式对新的数据源和数据管道进行集成、准备、清洗、管控和发布。
利用 CDC 和流处理技术,将数据管道转换成实时流,用于类似实时交互所用到的预测分析。
业务人员使用数据目录和数据准备工具,进行数据的自动发现和自动编排,提高数据利用的便捷性。
利用元数据驱动的开发工具,维护和更新数据管道,在数据源发生变化时保护您的数据流。
在整个数据管道过程中实施数据治理,从而确保了交付的数据都是可信、安全和受保护的,并满足合规性要求。
通过一个统一的、智能的数据平台将数据治理、数据编目、数据质量及数据保密工作整合在一起,只有这样才能确保所有数据都是可信的和受保护的。
运用人工智能/机器学习技术,助力在整个企业实施数据治理。
2.3 持续部署
提升服务能力
通过部署数据驱动型应用,贯穿数据管道所有阶段的每一个变化,都会被分发给数据使用人员。
实现敏捷性和灵活性,可以采用水平扩展和基于微服务的架构。
运用人工智能和机器学习技术,监测和管理数据管道,使其持续运行,且性能和容量不断优化。
3. 原则
Dataop 发布了一个 DataOps 宣言,其中包含了 18 项原则,涵盖了文化(不断满足客户)、团队动态(自发组织、每日互动)、技术实践(创建一次性环境)和质量(监控质量和性能)等众多方面。根据宣言,总结出实施 DataOps 时需要遵循的几个原则:
3.1 安全合规
首先,我们需要根据企业的业务属性,确定极为清晰且安全合规的数据隐私和权限管控标准。数据协同使用可以让授权的业务用户和第三方安全合规地使用企业数据,无需担心数据的隐私和泄漏,这是一切后续的基础。否则,就无法真正做到将数据赋能给一线的业务用户。
3.2 快速敏捷

其次,在合规的基础上,将一切围绕数据产生的价值提升到最大,这样才能不错失创收的机会。
3.3 开放协同
将自上而下的描述性指标,转为将数据开放给业务用户,进行自下而上地探索和使用。因为业务用户最了解创新所需要的数据应该如何应用,因此应该最大限度地发挥他们的主观能动性,带来业务创新。
业务用户使用数据去探索,是阶段性的。从只会用excel到看报表再到写SQL直至会用python做数据探索,不同的发展阶段,数据探索的能力也截然不同。而DataOps倡导的是每个人都应当学习去使用数据,数据不是某个人,某个小组的精英才能掌握的能力,它是一种文化。
3.4 自助服务
通过自助式服务,将数据部门从日常数据使用的生命周期管理中解放出来,以提高数据的时效性。并且要计算使用数据资源的成本,让数据资产负债的概念深入人心,而不是将数据资源当成免费的午餐,吃完还要“评头论足”。
3.5 自动智能
让数据部门全身心地投入到对于自动化、智能化数据科技的实践中,以最快地速度满足数据多样性,动态性,质量监控,系统稳定性的底层技术需求(后续会详细描述)。
- 作用
图片
DataOps 有很多好处,但最重要的是以下四个方面:
4.1 改善协作与沟通
DataOps伴随着文化的变化,促进协作,信任和责任。目标是模糊部门和职能之间的界限,鼓励知识交流,减少冲突,最终提高生产力。
图片
4.2 加快生产时间
速度是 DataOps 的主要驱动力。简化且高度自动化的分析流程的想法有助于快速交付新功能和见解,并减少人工劳动。此外,较短的反馈和测试周期有助于加快对不断变化的业务需求的反应并提高灵活性。
4.3 提高质量和可靠性
定义明确的分析流程可提高速度和健壮性。例如,自动测试和手动测试的多个阶段可防止部署有缺陷的更新。此外,DataOps 还包括监视推出的更改,以识别瓶颈和潜在问题。最后,不同角色的融合有助于在各个阶段协调变更,例如,当数据工程师被告知数据科学家后来遇到的问题时,有助于改善数据清理工作。
4.4 启用自助服务
借助更高的自动化和机器学习算法来简化开发和部署任务,组织需要更少的专家来构建和管理数据和分析任务。具有一定程度的技术知识的业务用户可以自行分析。
二、DataOps关键能力
图片
- 自动化
5.1 数据实时采集
高效的CDC架构
基于日志的无代理方法
分布式优化
灵活支持多种数据源和目标库
RDBMS:Oracle、DB2、MySQL、SQL Server、PostgreSQL、MongoDB
数据仓库:Snowflake、Azure Synapse、Exadata、Teradata、IBM Netezza、Vertical、Pivotal、MS SQL
Hadoop:Hive、HBase、
数据湖:Apache Hudi、Apache Iceberg、Delta Lake、AWS Lake Formation
串流平台:Kafka、Confluent
5.2 数据管道构建
数据库表和ETL脚本的生成
批量配置和 Scheme Mapping
数据流灵活编排
低延迟 和 高延迟
批流一体
数据管道试运行
数据集更新到指定目录
5.3 数据质量提升
持续测试和性能监控
动态元数据管理
元数据变化的自动发现、维护和适配
与数据字典、规范检查、权限管控、合规审计等有效联动
数据治理、质量和安全的监控和优化 - 自助化
6.1 数据的自助探索
数据目录
业务含义 - 库、表、字段
数据专题
业务主题 - 产品、业务、领域
数据地图
数据血缘 - 流程依赖、价值传导、问题回溯、影响分析
价值传递
6.2 服务的自助消费
服务市场
服务发现
服务订阅
服务分享
服务定制
服务生成
服务测试
上线审批
服务运营
服务监控
服务迭代
服务下线
三、写在最后
什么是 DataOps
DataOps 就是通过快速构建可运维的 data pipeline,为数据使用者提供灵活迅速的数据服务。
因此,他是一种数据平台、数据中台、数据湖、湖仓一体之上的数据使用策略,而不是某种技术、产品或者平台。
需要提醒大家的是,Ops 理解为“运营“更为合理;虽然过去 DevOps 年代确实更多倚重的是自动化运维能力,但是当扩展到 Big Data 和 AI 领域时我更愿意称之为“运营”,以突出 xOps 的业务价值,而不仅仅是 IT 价值。
DevOps -> 软件能力
DataOps -> 数据价值
MLOPS -> 模型推理
与敏捷
!虽然文中偶尔也有提到敏捷,不过我还是觉得两者没啥必然关系!
DataOps 可以给敏捷提供更高效的生产效能,就是个“工具人”,实现快了就可以快速试验;从 DevOps 年代,我就觉得是敏捷在碰瓷 xOps,因为敏捷太缺乏能够指导实际落地的方法论和工具链了。
敏捷在国内已经沦为压榨程序员的工具,早已背弃了初衷,也逐渐沦为了添乱。为了和敏捷区分开,我更愿意称之为“快速交付”。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/122317.html