什么是数据湖?
数据湖是一个分布式的数据存储系统,可以存储企业的所有数据,包括文本、图像等非结构化数据及传统关系型数据库中存储的表格化的结构数据。数据湖可存储来自任何来源的数据,包括物联网传感器、博客、社交媒体以及应用程序。数据湖通常分布在有并行处理数据能力的服务器集群上;您可以通过简单地向集群里添加节点来扩充数据湖的大小和提升性能。
数据湖的一个关键特征是,数据处理与提炼的所有阶段的过程数据都可以保留——从原始的传入数据到增值处理后可应用的数据。开发人员和用户可以在数据处理增值过程中的任何阶段使用数据。
数据湖相对于数据仓库的最大优势在于,它可使企业更快速、更轻松地响应不断变化的市场需求。此外,随着数据量的增长,数据湖更容易扩展。这些优势源于数据湖数据存储和访问方式与数据仓库有本质的不同。
数据仓库先存储从业务应用程序收集来的数据,然后用于分析和生成管理报表。基于关系数据库保存高度结构化的数据,并针对特定的应用程序和数据查询进行了优化。通常数据仓库仅保存支持这些应用程序所需的数据,数据库的结构从一开始就确定。IT团队必须先将原始数据转换为模式匹配的数据后才能导入数据库中。
由于该模式需要集中设计和管理,这使数据库很难将新结构的数据添加到数据库中来适应新的业务需求。随着业务的增长,数据结构会变得越来越复杂。除非模式中提供了开发人员需要的数据,并且提供了访问路径,否则开发人员无法构建新的应用程序。如果在数据尚不存在的时候,就需要对现有数据库结构进行扩展,就需要启动一个耗时冗长的项目,还可能因为对数据库结构的改变而影响到使用该数据的其他应用程序,在开发过程中引发非常昂贵的依赖性问题。
此外,数据仓库通常只包含可用于应用程序的最终数据,从而导致开发人员和用户无法利用原始数据或转换过程中产生的阶段性数据。
相比之下,对于数据湖,企业的所有原始的结构化和非结构化数据都以简单的原生数据格式导入到数据湖中。原始数据逐步丰富和转换为特定应用程序所需要的增强数据集。每次对数据进行提炼增强时,新生成的数据层都会保留在数据湖中,不丢失任何数据。不同的开发人员可能出于不同的目的而产生了许多这样的数据层。实际上,这些数据不断演变,不存在“最终形态”的概念。
数据管理的职能之一是使所有这些数据层都可被发现和重复使用,向开发人员和用户提供足够信息,使其理解这些数据层的内容及生成方式,并记录数据集之间的转换过程。
数据湖如何实现对业务的更快响应
采用数据湖对于提升快速响应不断变化的业务需求的能力具有深远的意义。开发人员可以轻松快速创建新的应用程序,因为他们可以访问数据湖内的所有数据,并且可以根据需要创建新的扩展数据和访问路径,无需事前预期设计所有数据需求和使用方式。
大量开发人员可以根据自己对数据使用的需求,并行开发,避免不必要的依赖关系。因此他们可以快速创建很多新的应用。新的应用可以访问到数据湖的任何地方,访问任何数据层,包括其他应用生成的原始数据和中间过程数据。
数据湖如何提供更强的可扩展性
数据湖的硬件架构与典型的数据仓库相比有很大不同。数据仓库通常运行在高性能和高集中冗余存储阵列(例如RAID)上,扩展存储成本非常昂贵,并且该体系结构有存储带宽和存储空间的局限性。而数据湖分布在相对廉价的服务器和存储集群中,因此可以通过添加硬件节点以相对较低的成本逐步扩展。
数据湖管理的步骤,挑战和解决方案是什么
管理数据湖包括三个主要方面:
1. 数据获取和增强:数据导入和转换以供不同应用程序使用
2. 数据交付:将数据供应给企业内多部门的用户使用
3. 数据管理:对数据湖中内容进行管理和分类,以便开发人员和其他用户可以看到数据湖中的内容并在应用中使用数据
因为数据湖可以管理非常庞大的数据集,来支持众多用户,所以这些步骤中的每一步都可能带来挑战。成功的数据湖需要能够迅速摄取和增强大量数据,能够支持多个开发团队进行快速并行开发,并能够快速扩容来提升企业内大量用户访问时的性能。
HPCC系统是律商联讯自主研发的一个功能完整﹑高性能﹑低成本﹑久经实时生产应用考验的大数据平台。HPCC系统采用一种功能强大的声明性编程语言(ECL)来定义批量计算引擎Thor和实时交付引擎ROXIE中的操作,从而加速并简化应用开发过程。在您定义了所需数据来源,数据转换操作和目标数据格式后,ECL可以自行决定如何完成这项工作。ECL可以在用户无感的情况下完成海量数据的并行计算和复杂的算法优化。
总结
数据湖使具有大型复杂数据集的企业能够更快地响应不断变化的业务需求。与传统的数据仓库相比,数据湖对业务团队和外部客户具有更强大的响应能力,更低的成本,更高的可扩展性,还可以容纳范围更广的数据,包括来自物联网设备的数据和非结构化数据。
HPCC 系统是一个成熟的数据湖解决方案。HPCC系统是一个高性能的开源平台,它已在生产环境中使用了十多年,可以方便地扩容以支持大量用户和非常大的数据集,从而使企业能够充分利用大数据赢得竞争优势。
本文素材来自互联网