当组织开始采用人工智能、机器学习和大数据分析时,他们意识到这些技术都没有提供神奇的解决方案,可以在一夜之间改变他们业务的一切。事实上,要开始推动实际价值,它们需要对组织的文化、技术设置和运营模式进行根本的、长期的改变。可以实现成功转换的一个关键组件是数据目录,这是一种管理服务,可将您的数据组织在一个地方,并允许您使用元数据对其进行标记,以便您可以更有效地发现和管理它。
作为一直在帮助企业设计和构建强大的数据处理解决方案的人,我将分享我对一些最常见的数据目录的经验,以帮助您为您的组织选择正确的数据目录解决方案。
首先,让我们仔细看看数据目录及其帮助解决的挑战。
数据目录和数据发现和可观察性的挑战
今天,每个企业主都了解数据的重要性,以及它为您的公司和客户提供的宝贵见解。然而,随着数据量的爆炸式增长,找到正确的数据变得比以往任何时候都更加困难。您可以轻松地收集数据,但是数据处理、数据分析和 BI 等进一步的步骤呢?那么数据访问、数据发现、数据可观察性和数据治理呢?
事实上,大量精通技术的组织,更不用说任何数据和情报驱动计划的早期采用者,发现理解他们收集的数据、解释数据如何移动以及解释如何和不同业务部门使用数据的目的。
不幸的是,正确处理数据带来了许多挑战。这些包括:
- 难以找到和访问正确的数据
- 无效的数据收集:数据被转储与被组织
- 缺乏对整个组织中数据重要性的理解
- 数据处理效率低下:数据缺乏结构,难以理解
- 评估数据沼泽中数据的质量和可信度的效率低下
- 缺乏基础设施来捕获、增强和重用组织中的数据资产
- 依赖手动和临时数据准备工作
简而言之:数据变得过于复杂。专业人员需要越来越多的时间来高效、大规模地收集、处理、分析和管理数据。
更糟糕的是,现有的数据目录解决方案并不能完全满足 IT 组织和企业的需求。它们缺乏标准化的数据收集方法,与不同的目录不兼容,提供有限的数据沿袭,并且依赖于低效的数据质量和可观察性实践。
因此,数据科学家花费大量时间来发现可用的数据集并确保它们是可信的。数据科学和机器学习工程团队将大约 90% 的时间用于确保数据的清洁和可靠,以及调整、调试和维护为关键任务分析仪表板和机器学习模型提供动力的数据管道。企业被迫雇佣大量的数据专家,只是为了对数据集进行分类和管理。
数据发现、可靠性、可观察性和治理的挑战是真实存在的。领先的数据目录正在尽最大努力在这个领域有所作为。以下是一些我可以推荐用于数据和情报驱动的组织的数据目录。
企业顶级数据目录
让我们从开源数据目录解决方案的比较表开始,并继续更详细地研究它们中的每一个。请记住,我已经探索了近 30 家不同的数据目录供应商,并将其范围缩小到以下特色。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/23168.html