在数据应用过程中,数据采集和数据治理是两大核心抓手。本文继《方法论+实践,全面解析数据采集方案》之后,作者王灼洲通过两大挑战、三大原则详细阐述了对于企业数据治理的思考。主要内容如下:
·数据治理的定义和重要性
·数据治理面临的两大挑战
·数据治理的三大原则
一、数据治理的定义和重要性
在讨论数据治理之前,我们需要对于数据治理下一个明确的定义,数据治理到底包括了哪些范畴。从我们的视角来讲,数据治理,是指“组织对数据的可用性、完整性和安全性的整体管理”。
数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;
数据的完整性,是指我们收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;
数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。
数据治理的核心,就是帮助我们可以更早、更及时、更高效的发现埋点问题和数据问题,确保后续数据应用的正确性和价值传递。因此,数据治理的重要性,是毋庸置疑的,它是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。
二、数据治理面临的两大挑战
在进行数据治理的过程中,通常会面临两大类挑战。
第一类挑战,是由于客观的技术问题带来的。
技术方面带来的挑战,其实比较容易理解,业务越复杂,数据应用越多,需要采集的数据源就会越多,需要处理的数据问题也会越多,自然就会有更大的挑战。
具体来说,这些技术细节上的挑战包括:
·数据传输方面的挑战:比如数据如何通过公网进行可信传输;
·数据准确性方面的挑战:如何保证数据不重复、不丢失;
·时间同一性方面的挑战:客户端时间不准确时如何处理;
·兼容性方面的挑战:不同系统、不同设备之间的兼容性如何处理;
·性能影响方面的挑战:在数据采集的过程中,如何最大限度地减少对客户端性能和业务的影响;
·可测试性方面的挑战:如何在数据治理开发过程中方便地进行调试和自测。
除此之外,数据治理,或者说数据治理中的采集部分,还会面临用户隐私与安全方面的挑战,包括如何应对GDPR和工信部等法规的要求,如何在组织内部对敏感字段进行审核,如何进行数据在不同行、不同列上的权限控制,以及如何在传输和处理过程中对数据进行加密和解密。
针对第一类挑战,我们建议可以使用统一的数据采集和数据导入工具,比如使用专业的数据采集SDK,可以将多端数据采集工作进行统一化、专业化和标准化,最大限度地降低在数据采集或者导入的过程中,出现问题的各种可能性。
第二类挑战,是由于人或组织架构的问题带来的。
这些挑战主要体现在:关键角色权责不统一;多个部门之间配合不到位;数据治理各个相关角色缺乏共同语言;不同角色的付出与收益脱节;谁来对数据的质量负责等。
要想彻底解决这些挑战是非常难的,这是一个漫长的过程。不过,我们也可以使用一定的技术手段来缓解这些问题。比如,我们可以使用统一的数据模型,像神策的Event-User-Item模型,可以在一定程度上解决各个组织架构和部门缺乏共同语言的问题,同时也能缓解跨部门、跨业务带来的一些挑战。
数据治理横跨多个环节,是一场“持久战”,并不是一蹴而就的事情,它需要我们不断地投入时间和精力,同时也是一个极易出错的过程。因此,在数据治理的各个环节,需要有专业的人员进行咨询、支持、协助和统筹,比如像神策数据的专业分析师等角色,他们是数据治理的专业人员,可以在一定程度上协助客户解决问题。
三、数据治理的原则
结合过去五年累计服务+家企业客户的经验,我们总结了数据治理的三大原则:
1.不要先污染后治理,而是应该从源头控制
这个原则比较好理解,医院一样,一般都是因为已经“生病了”医院,这个时候不管采用何种治疗方案,都会对我们的身体有一定的伤害,即使康复了,也有可能留下后遗症。因此,我们平时更应该多看“保健医生”,确保我们尽量不要生病,即便无法完全规避,最起码也可以及时发现异常,通过适当的锻炼增强体质。
一旦数据被污染了,发现、制定方案和清洗均是一个漫长的过程,最终还不一定能达到我们的预期。比如,数据的治理需要伴随App发版,但即使我们新版本发出去了,用户也不一定会升级,从而导致部分数据一直被污染。
如果借助数据治理产品,比如神策的SDG,就可以在数据接入或者数据校验阶段,在产品系统内通过对上报数据的字段设置一定的校验规则,当有数据导入并且校验未通过时,就会在质量看版中进行报警和展示,埋点研发/分析师便可以集中定位/查看/反馈埋点问题。
字段规则如下:
·设置字段为必要字段,则该字段不能为空值或者不上报;
·枚举校验,可以设置字段的枚举值内容;
·正则表达式校验,可以设置字段满足的正则表达式;
·区间校验,可以针对数值类型字段设置其数值区间;
·等值校验,可以设置该字段的值为特定值,可以理解为只有一个值的特殊枚举。
因此,对于数据治理,不要先污染后治理,而是应该从源头控制。
2.数据治理的过程要贯穿到整个业务迭代的过程中
在我们刚开始进行数据治理时,通常情况下,由于内部的重视,能够在数据治理方面取得较好的成果。但随着业务的持续迭代,数据应用的需求以及系统本身也在不断发生变化,数据治理也需要随之进行不断地更新与调整。在这个阶段,由于对数据治理的重视程度下降、组织架构以及人员变更、流程不稳定、不全面等因素,数据治理的结果一般很难保持在一个较高的基线,反而会越来越差,直至无法满足最终的数据应用需求。
以在线推荐系统为例,如果用于给机器学习训练的Item数据流、曝光和点击事件导入有延迟、故障,会直接影响在线服务,比如出现刷不出新条推荐系统fail的情况。
数据治理相关的产品,一般都会提供支持自主设置规则的监控能力,比如连续3时每个Item数据流上报量于条,当上报量在设置的时间范围内不满足预期时,会自动上报到报警平台并展示。
因此,数据治理的过程要贯穿到整个业务迭代的过程中,业务发生了变更,组织架构发生了变更,数据治理方案和流程也应该随着进行变更。
3.以产品化、组件化的思路来解决,不能只依赖于人工
神策数据提供了标准的数据采集SDK,将匿名ID生成、基础属性采集、数据打包压缩加密、本地缓存、网络传输、时间校准、远程控制等通用功能,都进行了产品化与标准化处理。除此之外,还可以将数据治理过程中通用需求和通用治理方案,以产品化的方式进行沉淀。
数据治理,我把它理解为“纪检委”的角色,不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查;因为没有完美的方案满足业务发展过程中遇到的所有问题,所以我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。
作者介绍
王灼洲先生是《Android全埋点解决方案》《iOS全埋点解决方案》作者,神策数据治理研发部负责人。有10+年AndroidiOS相关开发经验,是国内第一批从事Android研发工作,开发和维护国内第一个商用的开源AndroidiOS数据埋点SDK。
王灼洲先生曾就职于北京天宇朗通通信设备股份有限公司,担任Android系统工程师。毕业于北京理工大学,软件工程专业。
关于神策数据
神策数据是专业的大数据分析和营销科技服务提供商。公司围绕用户级大数据分析和管理需求,推出神策分析、神策用户画像、神策智能运营、神策智能推荐、神策客景等产品。
此外,还提供大数据相关咨询和完整解决方案。神策数据积累了中国银联、小米、中邮消费金融、海通证券、广发证券、东方证券、中原银行、百信银行、中青旅、平安寿险、四川航空、VIPKID、东方明珠、华润、有赞、百姓网、货拉拉、闪送、驴妈妈、Keep、36氪、拉勾、VUE、春雨医生、聚美优品、边锋游戏、捞月狗、纷享销客等余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。希望更深入了解神策数据或有数据驱动相关问题咨询,请咨询,由专业的咨询顾问为您解答。