您好,欢迎访问上海聚搜信息技术有限公司官方网站!
24小时咨询热线:4000-747-360

阿里云OSS,为什么基于OSS构建数据湖?阿里云数据湖是什么?

时间:2020-10-09 17:19:18 点击:

  2011年,数据湖(DataLake)的概念在福布斯一篇题为《Big Data?Requires a bignew Architecture》的文章中被首次提及。经过了九个年头的发展,在大数据时代红极一时的数据湖也在理想与现实之间慢慢发生着蜕变,现在,数据湖已经成为海量数据存储与分析的重要承载方式。

  一、什么是数据湖?

  Data Lake,“数据湖”的中文翻译已经被越来越多的人所接受。数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。他能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖,无需在数据上传之前对数据进行任何的结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如 CSV、JSON 、XML、日志等),非结构化数据(如电子邮件、文档、PDF 等)以及二进制数据(如图形、音频、视频等)。数据湖涵盖的范围较广,在一些相关功能上与“数据仓库”概念类似,一些企业的管理、决策者也总是混淆两者的区别。其实,仅仅从产品应用场景上,数据湖、数据仓库就表现出了明显的不同:首先,数据湖的在功能上可以实现各种类型数据的存储,数据湖中的数据可以是非结构化的、未处理的形态,数据可以在确定需要使用时才会对数据进行对应处理与转换;而数据仓库则通常存放的是经过处理的、结构化的数据,数据存储的 Schema 在数据存储之前有需要被定义好。

20000.jpg

  其次,存储到数据湖中的数据通常会按照原始形态直接存储,随着业务和使用场景的发展,会使用不同的计算引擎对已经存储的数据进行分析与处理,数据湖中的数据在一个企业组织中通常会被多个不同应用、系统和部门使用和分析,覆盖的场景广泛并且范围也会动态延展,因此需要提供更多的灵活性以适应快速变化的应用场景;数据仓库中的数据通常使用场景是在数据收集期间就已经明确,数据仓库通常集中在 BI、业务、运营等商业决策相关场景中,数据仓库也可以把已经存在的数据转换到新场景,但在灵活性方面不如数据湖,需要有更多的数据转换时间和开发资源投入。

  二、阿里云数据湖

  1.强大的数据存储引擎

  数据湖一个重要目标是将所有企业数据能够集中存储,以供企业的各类应用在授权下进行访问。结合数据湖的这一设计目标以及元数据管理、自动化数据采集、自动化数据解析和处理等技术来解决各类与应用相关的日志埋点、采集与分析。

  阿里云的数据湖底层基于阿里云自研的分布式存储引擎搭建,提供体系化的数据采集能力,支持结构化/半结构化/非结构化数据源。数据湖统一存储,提供了数据的管理能力。冷热分层的存储方式解决了数据分散在各个集群,需要在不同存储系统中反复拷贝等运维困扰。同时,在大数据访问方面更加优化,支持基于 Ranger 的数据湖权限管理,支持混合云方案,总体成本可降低近 50%。

  2 与计算/AI/IoT 平台的深入结合

  数据湖可以对接多种差异性的计算引擎,运行在不同负载之上,多种计算引擎都共享同一套存储系统,打破数据孤岛,洞察数据价值。

  因为数据湖对存储数据的类型提供了充足的灵活性,没有传统“入仓”的各种限制,数据一产生,就能从对接的数据通道上传到数据湖,根据后续对接的分析需求,再进行数据抽取(extract)、转换(transform)、加载(load),生成的处理后数据可以再存储到数据湖中,在其他阶段或者分析中使用。这样的好处在于:一来对于数据内容的灵活性,可以让各类应用、智能物联网设备都可以轻松解决原数据的存储,而不需要设备消耗大量计算资源进行转换,降低终端智能设备能耗,当数据需要分析的时候再进行对应的转换;另一方面,数据湖中数据可以与多种计算与分析平台结合使用,对于企业来说,计算存储分离的资源规划和架构更灵活,在应对业务的快速变化时更加容易的构建应用平台和系统,提升效率,对于数据的分析,可以更快、更轻量,减少整体的成本投入。

u=2402508039,2113588564&fm=26&gp=0.jpg

  3 内部及外部的有效验证

  数经过二十年的发展,阿里巴巴集团已经成为一个数字经济体,阿里巴巴集团首先是阿里云数据湖产品的最佳实践者,后者首先支撑了阿里巴巴集团内部的电商、移动办公、文娱、物流、本地生活等各种复杂业务,建立了完善的自我实践机制,产品和方案得到有效的验证。同时,阿里云的数据湖方案也支撑了在线教育、互联网广告、新媒体、网络游戏等行业用户在快速发展过程中的实际业务需求,实现了技术的有效赋能。

  三、为什么基于OSS构建数据湖?

  海量弹性: 计算存储分离,存储规模弹性扩容

  生态开放:对Hadoop生态友好,且无缝对接阿里云各计算平台

  高性价比:统一存储池,避免重复拷贝,多种类型冷热分层

  更易管理:加密、授权、生命周期、跨区复制等统一管理


标签

收缩
  • 电话咨询

  • 4000-747-360
微信咨询 获取代理价(更低折扣)
更低报价 更低折扣 代金券申请
咨询热线: 15026612550