standard library
DataFunTalk:成就百万数据科学家! DataFunTalk:成就百万数据科学家! 目录 美团酒旅数据治理实践...................................................................................... 4 有赞数据治理之提质降本................................................................................ 25 滴滴数据指标体系建设实践............................................................................ 42 联邦学习与安全多方计算................................................................................ 69 京东超大规模联邦学习探索实践....................................................................92 微众银行在联邦推荐算法上的探索及应用................................................. 113 新一代联邦学习技术及应用实战................................................................. 143 爱奇艺数据中台的建设实践......................................................................... 176 金融资管数据中台体系探索实践................................................................. 203 贝壳商业化算法中台架构实践..................................................................... 226 DataFunTalk:成就百万数据科学家! 美团酒旅数据治理实践 分享嘉宾:李建舒 美团 技术专家 编辑整理:李梦 出 品 平 台 : DataFunTalk 导读:本文主要介绍美团酒旅数据治理的历程和实践经验,以及业务发展各个阶 段中数据体系遇到的问题和解决方案。最后,将探讨数据治理在现阶段的建设思 路和发展方向。 01 背景介绍 数据治理这个话题这两年非常火热,很多公司尤其大型互联网公司都在做一些数 据治理的规划和动作。为什么大家都要做数据治理?我个人的理解是,从数据产 生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题。 初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。 但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,我 们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。数 DataFunTalk:成就百万数据科学家! 据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,以 高质量、高可用、高安全的方式为业务提供数据。 1. 需要治理哪些问题 数据治理过程中哪些问题需要治理?总结了有五大类问题。 DataFunTalk:成就百万数据科学家!  质量问题,是最重要的问题,很多公司数据部门或者业务线组做数据治理 的一个大背景就是数据质量存在很多问题,比如数仓的及时性、准确性、 一致性、规范性和数据应用指标的逻辑一致性问题。  成本问题,互联网行业数据膨胀速度非常快,大型互联网公司在大数据基 础设施上的成本投入占比非常高,而且随着数据量的增加成本也将继续攀 升。  安全问题,尤其是业务特别关注的用户类数据,一旦泄露,对业务的影响 非常大,甚至能影响整个业务的生死。  标准化问题,当公司业务部门比较多的时候,各业务部门、开发团队的数 据标准不一致,在数据打通和整合过程中会出现很多问题。  效率问题,在数据开发和数据管理过程中都会遇到一些效率低的问题,很 多时候是靠堆人力在做。 2. 美团酒旅数据现状 美团酒旅业务从 2014 年成立为独立业务部门,到 2018 年成为国内酒旅业务重 要的在线预订平台,业务发展速度比较快,数据增长速度也非常快。2017 到 2018 两年里,生产任务数以每年超过一倍的速度增长,数据量的增长速度每年两倍多。 如果不做治理,按指数级增长趋势,未来数据生产任务的复杂性还是成本负担都 非常大。 针对我们当时面临的情况,总结了五大类问题:  标准化的规范缺失,开始建设的时候业务发展非常快,但多个业务线之间 的标准化和规范化建设都只是以规范文档的形式存在,每个人的理解不一 致,导致多个研发同学开发出来的数据标准就很难达到一致。 DataFunTalk:成就百万数据科学家!  数据质量问题比较多,突出在几个方面,第一个是数据冗余很多,从数据 任务增长的速度来看,新上线人多,下线任务少,数据表的生命周期控制 较少。第二个是在数据建设过程中很多应用层数据都是烟囱式建设,很多 指标口径没有统一的管理规范,数据一致性无法保证。  成本增长非常快,在某些业务线大数据存储和计算资源的机器费用占比已 经超过了 35%,如果不加以控制,大数据成本费用只会越来越高。  数据安全的控制,各业务线之间可以共用的数据比较多,而且每个业务线 没有统一的数据权限管理。  数据管理和运维效率低,数据使用和咨询多,数据 RD 需要花费大量时间 解答业务用户的问题。 02 治理实践 2018 年以前酒旅数据组也做过数据治理,从数仓建模、指标管理和应用上做优 化和流程规范,当时没有做体系化的数据治理规划。从 2018 年以后我们基于上 面提到的五个问题,我们做了一个整体的数据治理策略。 我们把数据治理的内容划分为几大部分:组织、标准规范、技术、衡量指标。整 体数据治理的实现路径是以标准化的规范和组织保障为前提,通过做技术体系整 体保证数据治理策略的实现。同时会做数据治理的衡量体系,随时观测和监控数 据治理的效果,保障数据治理长期向好发展。 DataFunTalk:成就百万数据科学家! 1. 标准化和组织保障 每个公司在做数据治理时都会提到标准化,我们总体思路也没有太大区别。数据 标准化包括三个方面:第一是标准制定,第二是标准执行,第三是在标准制定和 执行过程中的组织保障,比如怎么让标准能在数据技术部门、业务部门和相关商 业分析部门统一。 DataFunTalk:成就百万数据科学家! 从标准制定上,我们制定了一个全链路的数据标准方法,从数据采集、数仓开发、 指标管理到数据生命周期管理建立了很多标准,在标准化建立过程中联合组建了 一个业务部门的数据管理委员会。管理委员会是一个虚拟的组织,主要组成是技 术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产 品团队,这两个团队作为实现的负责人,各自对接技术团队和业务团队,比如技 术团队负责协调后台开发团队、大数据平台团队、数据分析系统团队等。业务则 会协调商业分析、产品运营和一些业务部门。业务各个部门分别出人把数据管理 委员会运行起来,为标准制定、执行提供组织保障。让大家对标准化制定能有更 加统一的认知,执行过程阻力也更小,还能定期在组织内同步信息。 2. 技术体系 在执行过程中也不希望完全通过人力和组织来推动达成,总体希望以一些自动化 的方式进行。下面介绍一下我们的技术体系。 ① 数据质量,数据质量是数据质量中最重要的一个问题,现在数据治理的大部分 问题都属于数据质量。这里有四大问题:  数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执 行。  数据一致性问题多,主要表现在数据指标的管理上。指标管理以前在文档 中定义指标,没有系统化的统一管理逻辑和查询逻辑。  数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP 引擎查询等,不能保证数据应用端的数据一致性。  产品非常多,业务数据产品入口有十多个,没有统一的入口,也没有人对 这些产品统一把关,导致数据应用和使用方式有很多分歧。 DataFunTalk:成就百万数据科学家! 我们的技术实现方式是为了解决上面这四大类质量问题,首先在数据仓库规范性 上进行统一,然后统一指标逻辑,在此之上统一数据服务接口,最后在产品上统 一用户产品入口。从这四大方向将常见的数据质量问题管控起来,具体技术实现 方式如下。 数仓建模规范 统一数仓建模规范分三大部分实现,以前我们只有事前的一些标准化规范,大家 按自己的理解去建模实现。在这个基础上增加了事中和事后两个部分,针对事中 开发了系统化工具,做数仓配置化开发。事后做规则化验证。事前会有标准化文 档给大家提前理解、宣贯,事中很多标准化的事项会通过配置化自动约束规范, 事后会有上线时的检验和上线后每周定期检验,检验数据仓库的建模规范是否符 合标准,把不符合标准的及时提示出来、及时改进。 DataFunTalk:成就百万数据科学家! 事前的标准化规范几个方向,第一是数据仓库的设计规范,在做一个新业务或模 块之前,以文档形式做一些设计规范。第二是开发规范,包括一些开发流程、代 码编写规范和注释信息。 这些形成之后还想在事中以系统化的方式进行控制,保证不会因为每个人的不同 理解而对数仓的规范化构成影响。这里主要包含三部分工具:  模型开发过程中的开发工具,主要控制模型的基础信息、数仓主题和分层 以及 ETL 代码生成。  命名规范工具,针对模型、表、字段、指标建了很多一些规范化的系统实 现,控制这些命名的标准化。  上线规则监控工具,上线过程中会监控一些数据规范,还有一些性能监控, 有问题会及时发现。 事后会定期监控,生成报告来看每个业务线、每个组、具体每个人的数仓规范性 情况。 DataFunTalk:成就百万数据科学家! 对于具体的实现方案,我举一个简单的例子,一个数仓开发配置化的命名规范工 具。我们工具的实质还是从规范化、标准化再到工具化,所以在前期做了一些规 范化、标准化,在通过工具化把标准化和规范化通过系统实现,有了工具之后, 比如人在数仓时,都会统一按相同的方式来命名,即便在几千个 ETL 里都有这个 字段也能非常快地进行定位。命名工具和数仓建模 ETL 工具也进行了打通,命名 审核通过后,直接点击就能在 ETL 工具的平台中生成一段代码,只需要将查询逻 辑补充进去就可以了。这样就达到了控制数仓命名

pdf文档 数据与安全 数据治理与安全典藏版合集

文档预览
中文文档 260 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共260页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
数据与安全 数据治理与安全典藏版合集 第 1 页 数据与安全 数据治理与安全典藏版合集 第 2 页 数据与安全 数据治理与安全典藏版合集 第 3 页
下载文档到电脑,方便使用
本文档由 路人甲 于 2022-09-01 06:30:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。