【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

  • 时间:
  • 浏览:1
  • 来源:神彩大发11选5_彩神大发11选5官方

下面来具体看下每一层的具体作用。

数据治理

第一,通过巧用虚拟节点实现多系统数据源同步,实现跨系统间的数据传输,实现多应用间数据交互。通过巧用虚拟节点减少运维人员在实际再次冒出难题时的运维成本。

数据基础层主要完成的工作包括以下几点:

让让我门都儿未必选则基于大数据平台构建数据仓库,是由大数据平台富足的社会形态决定的:

在让让我门都儿看来,日志社会形态越规范,解析成本越低。在日志社会形态化的过程中,太久一定时需删剪平铺数据内容,只需社会形态化出重要常用字段;并肩,为了保障扩展性,让让我门都儿都可不后能 利用数据冗余保存原始符合字段(如useragent字段)。

仓库分派原则包括四点:第一自下而上结合自上而下的法律法律依据,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何一好几个 多多系统再次冒出难题就让对数仓服务产生影响,这人在数仓构建时,高容错性是必不可少的因素;第三数据质量监控时需贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源都可不后能 等同于数据仓库构建的资源;第四太久担心数据冗余,充分利用存储换易用。

数据分层

幻灯片下载:点此进入

除了建模法律法律依据之外,在星型模型和雪花模型的选则上就让这人让使用者左右为难。事实上,两种模型是并存的,星型是雪花模型的两种。理论上真实数据的模型就让雪花模型;实际数据仓库中两种模型是并存的。

第三,应用计算框架完成日志社会形态化、类似数据计算过程等操作,减轻了开发人员的负担,并肩更容易维护。

数据架构

总体思路

数据服务化包括统计服务、分析服务和标签服务:

对于数据上边计算过程数据,在保障满足绝大每种应用访问历史数据时需的前提下,缩短数据保留周期,促进降低存储成本;最后这人值得注意的是,冷备这人成为历史,在大数据平台下不时需单独的冷备设备。

第四,优化关键路径。优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段。

在选则建模思路和模型类型就让,下一步的工作是数据分层。数据分层都可不后能 使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;并肩数据分层都可不里后能 复杂性数据加工处置流程,降低计算复杂性度。

数据质量

在分派含有这人实用的点,这里给让让我门都儿分享一下:

在传统的架构中,日志的社会形态化处置是放满去数仓体系之外的。在大数据平台仓库架构中,日志在分派到平台就让不做社会形态化处置;在大数据平台上按行符分割每条日志,整条日志存储在一好几个 多多数据表字段;后续,通过UDF或MR计算框架实现日志社会形态化。

数据生命周期管理

星型模型和雪花模型

社会形态化数据分派又可细分为全量分派、增量分派、实时分派三类。两种分派法律法律依据的各自 特点和适应场合如上图所示,其中全量分派的法律法律依据最为简单;实时分派的分派质量最难控制。

维度莫建模或实体关系建模

直播视频:

李金波,阿里云高级技术专家,8年以上互联网数据仓库经历,对系统架构、数据架构拥有富足的实战经验,那我数据魔方、淘宝指数的数据分派专家。现任阿里云大数据数仓处置方案总架构师。

分派中这人实用的点

在上下三层的社会形态的右侧,让让我门都儿增加了流式数据,将其去掉 成数据体系的一每种。这是这人当前的数据应用方向会这么关注数据的时效性,越实时的数据价值度越高。

数据治理就让独立于系统之外的保障,它应该贯穿在数仓架构内内外部和数据处置的流程之中。

这人,这人流式数据集的分派、加工和管理的成本较高,一般就让按照需求驱动的法律法律依据建设;此外,考虑到成本因素,流式数据体系的社会形态更加扁平化,通常太久设计上边层。

第二,采用强制分区,在所有的表都上都去掉 时间分区。通过分区,保证每个任务都可不后能 独立重跑,而不产生数据质量难题,降低了数据修复成本;此外通过分区裁剪,还都可不后能 降低计算成本。

模型设计

随着互联网规模不断的扩大,数据也在爆炸式地增长,各种社会形态化、半社会形态化、非社会形态化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深层深等社会形态。这么基于那先 社会形态,该如可构建数据仓库呢?我认为应该从稳定、可信、富足、透明好几个 关键词入手。其中,稳定要求数据的产出稳定、有保障;可信由于 数据的质量要足够高;富足是指数据含有的业务面要足够富足;透明要求数据构成流程体系是透明,让用户放心使用。

每个企业在构建自己数仓时,应该根据业务社会形态和需求场景选则大慨的建模法律法律依据。对于应用复杂性性企业,都可不后能 采用多种建模结合的法律法律依据,类似在基础层采用维度建模的法律法律依据,让维度更加清晰;上边层采用实体关系建模法律法律依据,使得上边层更容易被上层应用使用。

数据基础层

在上边层,为了保证主题的删剪性或提高数据的易用性,好几个 多劲会进行适当的数据冗余。比如某一实事数据和好几个 多多主题相关但自身又这么成为独立主题,则会放满去好几个 多多主题库中;为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余每种维度信息。

非社会形态化的数据时需社会形态化都可不后能 使用。非社会形态化数据社会形态提取包括语音转文本、图片识别、自然语言处置、图片达标、视频识别等法律法律依据。尽管目前数仓架构体系中太久含有非社会形态化数据社会形态提取操作,但在未来,这将成为这人。

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享分派而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种社会形态化、半社会形态化、非社会形态化数据的产生,太久的企业开始英文英文在大数据平台下进行数据处置。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理好几个 方面介绍了如可利用大数据平台的社会形态,构建更贴合大数据应用的数据仓库。

让让我门都儿常用的数据仓库的数据分层通常分为集市层、上边层、基础数据层上下三层社会形态。由传统的多层社会形态减少到上下三层社会形态的目的是为了压缩整体数据处置流程的长度,并肩扁平化的数据处置流程促进数据质量控制和数据运维。

常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单,便于实时数据分析,适用于业务分析报表和BI;实体关系建模社会形态较复杂性,但它便于主体数据打通,适合复杂性数据内容的深层挖掘。

以下为分派内容。

这人星型模型相对社会形态简单,让让我门都儿都可不后能 在数据上边层利用数据冗余将雪花模型转去掉 星型模型,从而促进数据应用和减少计算资源消耗。

数据服务化

数据集市层是上下三层架构的最上层,通常是由需求场景驱动建设的,这人各集市间垂直构造。在数据集市层,让让我门都儿都可不后能 深层挖掘数据价值。值得注意的是,数据集市层时需都可不后能 快速试错。

数据上边层最为重要的目标可是我把同一实体不同来源的数据打通起来,这是这人当前业务社会形态下,同一实体的数据这人分散在不同的系统和来源,且那先 数据对同一实体的标识符这人不同。此外,数据上边层还都可不后能 从行为中抽象关系。从行为中抽象出来的基础关系,会是未来上层应用一好几个 多多特别要的数据依赖。类似抽象出的兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。

关于分享嘉宾:

数据上边层

数据架构包括数据整合、数据体系、数据服务三每种。其中,数据整合又都可不后能 分为社会形态化、半社会形态化、非社会形态化三类。

保障数据质量,都可不后能 从事前、事中、事后入手。事前,让让我门都儿都可不后能 通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该太久;事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量;事后,通过对数据质量情况表进行分析和打分,将这人过低和改进反馈数据监控体系,推动整体的数据质量提升。

数据集市层

出于成本等因素的考虑,在大数据平台上让让我门都儿依然时需对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。一好几个 多多合理的数据生命周期管理要保证温热数据占整个数据体系大每种;并肩为了保障数据资产的删剪性,对于重要的基础数据会长久保留。

(点击图片查看视频)

数据整合

构建数仓的首要步骤可是我进行模型设计。

猜你喜欢

协同过滤(ALS)的原理及Python实现

1.1你听说过推荐算法么1.2哪些是协同过滤我希望我是豆瓣的CEO,全都 豆瓣的用户在豆瓣电影上一定会对电影进行评分。没办法 根据你你这人评分数据,一帮人有不可能 知道哪

2020-01-19

OpenSearch:轻松构建大数据搜索服务

随着互联网数据规模的爆炸式增长,怎么才能 才能 从海量的历史、实时数据中快速获取有用信息,变得那末具有挑战性。搜索是获取信息最高效的途径之一,然后也是各类网站、应用的基础标配

2020-01-19

为什么男人和女人分手后,男人不肯再和好呢?

你对你你你这个回答的评价是?你对你你你这个回答的评价是?为你推荐:可选中有有4个 或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个大问题。 我来答收起更多回

2020-01-19

和女朋友分手后感到很轻松,但心里依然是舍不得的,我到底爱她吗?

展开完正为你推荐:你对这一 回答的评价是?分了就算了,专心干自己的事业,之前 有是因为 再找,对谁都好,千万别强在一同换一换打个呼告,你想买个手机但在等你附近的专卖

2020-01-19