这里’s为什么数据湖的自动化可能很重要

数据湖的重要性
Shutterstock许可的照片-作者Stuart Miles

数据湖是最复杂,最复杂的 数据存储和处理设施 今天我们可以作为人类使用。 分析杂志 注意到数据湖是 最有用的工具 企业在通过创新与竞争对手竞争时可能拥有的支配权。这些海量数据存储池是最庞大的 非传统的数据存储方法 随着公司竞相接受大数据分析的趋势,这种趋势在2010年代初席卷全球,因此出现了这种情况。关于大数据的许多承诺落在数据科学家的脚下,以实现这一目标。有时候他们做到了,有时候他们做到了’但对于大数据而言,总体感觉仍然是积极的,因为它具有为企业界提供见解的潜力。

数据湖创建的动力

根据 福布斯 在2011年,随着公司开始考虑将数据从异地存储库迁移到数据仓库的想法,Data Lake的想法已经受到关注。 云可访问的在线存储云存储的廉价可用性进一步巩固了这一现实。大数据被设置为自爱迪生以来最重要的游戏规则改变者’灯泡,但架构和实施过程中出现了一些裂缝。从CEO设定的目标激动中’s and CIO’关于大数据湖的功能,数据科学家开始发现很难在实际应用中使用它们。数据湖被设计为敏捷的,可以在提供快速处理数据的同时快速处理分析数据。有一些问题使系统陷入瘫痪,并使数据科学家很难在现实环境中复制其测试台结果。虽然大多数工程师都知道,理论在现实世界中的应用很少’在实验室中应用后,数据科学家不得不通过在数据湖部署中遇到问题来学习困难的方法。

第一个问题– Data Ingestion

数据湖仅与接收的数据一样好。在处理数据的脱机测试用例时,有效地加载和处理数据的重要性远不如在系统处于活动状态时进行实时处理重要。大数据很好…大。将大量数据加载到系统中以进行分析可能是一个耗时的过程,尤其是当系统’t used to 处理快速变化的数据。数据更新和产生新的见解之间可能会有时滞,并且系统越复杂,时滞时间就越长。解决此限制的聪明方法称为变更数据捕获(CDC)。基于 微软’s CDC讨论 使它更容易 使数据存储区接受数据库中的更改,因为它仅更新数据库的更改记录,而不是重新加载受影响的整个表。尽管CDC确实负责更新记录,但需要考虑数据库备份之间可能发生的更改架构,将这些记录重新合并到主数据库中。

第二个问题–快速查询数据

数据湖之所以对公司如此具有吸引力,其主要原因是承诺对数据进行敏捷处理,以便在数据集上提供实时(或接近实时)结果。为了使这一切成为可能,需要简化数据可视化方面以准确显示用户想要看到的内容。由于在大数据诞生之初已被采用的数据库类型众多,我们现在面临着简化在Hive或NoSQL上运行的数据库的问题,这些数据库从来都不打算处理比我们的数据湖还大的数据集。解决此缺点的方法是使用在内存中生成的OLAP多维数据集或数据模型,但是这些将花费时间开发和测试,尤其是因为它们需要可扩展到数据湖中的使用级别。

第三个问题– Preparation of Data

存在大多数数据湖的想法是,将不同的数据位添加到云中,云将根据需要处理,清理和整理数据。当所有这些数据都与程序员混为一谈时,就会出现问题,而程序员对需要链接的内容和要建议的业务见解的类型只有模糊的想法。数据结构的面向对象设计与用于处理流水线的自上而下的设计相结合,这些处理流水线跨表关联了这些数据结构,这是数据湖编码过程的关键方面’嵌入式清洁和关系系统。可悲的是,许多公司从一开始就无法确定这些目标,这会导致程序员感到困惑,并导致数据湖问题。 自动处理原始数据。解决自动化问题的方法是为数据湖应该考虑的目标设定明确的目标。

第四个问题–跨多个平台的标准操作

数据湖如何产生见解

通过临时分析,在其中选择,评估一组数据,并根据生成的结果做出决策。数据科学家将以每小时多次的速度处理这个数据湖,寻找事物以提高业务竞争力或推动客户采用,但真正使数据湖成为数据科学家的有用补充’在武器库中,它必须能够一致且高效地执行这些任务。这可以通过创建 数据管道 这样一来,数据科学家就可以对构成湖中可用数据子集的数据集进行查询。他们应该能够复制该过程以使用不同的数据集,并且通过比较一系列迭代的结果,可以更好地判断他们发现的度量标准。此外,由于湖泊可能正在从多个云源访问数据,因此这些管道必须能够与这些不同的源材料很好地协作。

自动化迫在眉睫

尽管运行数据湖并防止其成为数据沼泽的艰巨任务是一项艰巨的任务,但帮助迫在眉睫。尽管许多公司和初创公司专注于数据湖的开发,但其他公司和初创公司则试图开发系统来减少运行数据湖的复杂性。不过,直到现在,知道自动化如何帮助数据湖进行自我清理就一样好,直到这些产品开始商业化。这种想法可以帮助数据湖避免因实施中的体系结构决策不当而陷入困境和无法使用。