前言
我在阅读《DAMA数据管理知识体系指南》的时候,想要内化DAMA的价值体系,并且融入到自己的工作中。
所以我想通过D系列的更新,记录自己对DAMA体系的核心知识内化与思考,并且我准备在全部内化完以后去考取CDGA以及CDGP系列的证书,达到对工作起到一定的帮助。
数据是什么,在我大学的时候,我认为数据只是一堆数字,在当时我以为数据是一堆很无聊的东西,当时我从事的是渗透测试的相关工作,从当时的视角来看,我曾以为有价值的是所谓的工程技术,但是随着我进入到数据治理的方向后,才意识到我需要换一种视角去理会方向的,因此也是我做这个方向的价值。
数据的价值
数据是业务的驱动的因素,优秀的数据驱动公司可以依赖数据反哺公司的业务,达到快速相应,数据推动的效果,现如今优秀的互联网公司都是建立在数据之上的,譬如淘宝的搜索推荐,工厂对销量的预测及生产。在数据是与财务和实物资产,在某些时候,组织优秀的数据管理实践下的数据资产,其价值优于实物资产。
在组织的内部,我们进行数据治理或者数据如下的六个目的:
理解并满足企业和利益相关方的要求
获取、存储保护数据资产,并保障其完整性、可用性、机密性
确保数据和信息的质量
确保利益相关方的隐私和保密性
确保数据可以被有效的使用于为企业创造价值的活动
防止数据被未经授权的用户访问、操作和使用,以及防止被授权的用户进行未经授权的操作和使用。
什么是数据
数据并非是任意一串没有意义的数字或者文字,相反进行分析而在一起的事实和统计数据。
它同时也是一种表示方式,它既是对其代表对象的解释,自身也是必须被解释的对象。如果我们了解一个体系的约定,就可以解释其中的数据(类似不同类型游戏中不同的约定,本质是数据的不同体系)。同时,数据并非天然存在的,它需要被知识去创造。
从学术视角看,数据可通过量化(如数值)或质化(如文本、图像)方式描述事物的属性、状态或关系,其核心价值在于通过加工处理转化为具有决策意义的信息,进而升华为知识与智慧。
在数据分析领域,数据是各类统计模型、算法的输入基础,也是验证假设、揭示规律的核心依据。
按照数据的结构分类
按照数据的结构进行分类,数据可以分为结构化数据、半结构化数据、非结构化数据。
按照数据的性质分类
按照数据的性质,数据可以分为定性数据和定量数据。
定量数据指的是数值型数据,可以用数值表示,能计算大小的数据,也是我们遇到最多类型的数据,譬如我们从小到大各种考试的成绩,淘宝购物车里的价格。
而定性数据指的是文本型数据,它也可以是一种分类,无法用数值描述,只能描述类别或特征,比如用户的身份标签,商品的颜色款式。
为什么要对数据进行管理
因为我们人类会对拥有相同概念的事物进行不同的表示方法,所以数据会呈现出多元的形态,比如日期的表示。在一个组织的内部,我们也常常会因为各种原因,对一个相同的想法用不同的方式进行表达。
因此,我们使用数据架构、建模、治理,以及元数据和数据质量管理会帮助大家共同理解和使用数据。当数据跨越多个组织的时候,拥有高度一致性的数据标准会有利于解决成倍增加的数据问题。这样对于组织来说,我们才能以新得方式使用数据创建产品、共享信息、提炼知识,并提高组织的成功率。
从数据到信息
什么是信息?
信息是上下文中的数据,因为数据和信息并非是一个彼此分离,而是相互交织的概念,所以数据和信息都必须去被管理,如果将它们的用户和客户的需求一起管理,则会提高彼此的质量。
简单说,数据是 “看得见、摸得着” 的原始材料,就像做饭用的食材,经过整理、分析后才能变成 “有营养的饭菜”(信息) 。
从信息到资产
依靠数据资产做出的决策并进行高效的企业运营是现代企业的常态,我们利用数据去洞察用户、创造新的产品和服务,并通过削减成本和控制风险提高运营效率。
企业如果想要保证竞争力,不能只依靠直觉或本能进行决策,而是利用数据驱动,也就是通过业务领导力和专业技术知识结合,以高效且专业的方式进行管理。
因此为了成为真正的数据驱动型企业,企业必须规划如何获取和管理以支持业务战略的数据,抓住机会以新的方式利用数据。
数据管理的流程
典型的固定流程
为了从事数据管理的流程,我们必须有一个标准的流程,典型的三步走的方法就是:
了解组织拥有的数据(数据资产盘点、数据分类与分级、数据质量评估、数据血缘追踪)
理解数据可能实现的价值(数据价值评估模型、数据产品化思维)
确定如何利用数据资产以达到组织的目标(制定数据战略与治理框架、构建数据平台与架构)
在这个过程,我们需要平衡战略和运营的需求,这个需要一些原则去实现:
数据处理的原则
数据是资产,不同于实物资产,它在使用的时候不会被消耗。
数据的价值可以用经济术语来表达,因为它具有价值,我们可以用定性或者定量的方法来评价数据的价值,为了做出更好的数据决策,我们应该开发一个一致的方法评估其数据的价值,同时评估低质量数据的代价和高质量数据的收益。
管理数据的首要目标是确定数据的用途,我们需要理解利益相关方的要求,然后对数据进行衡量,保障数据的质量。
什么是元数据:用于管理和指导数据使用的数据被称为元数据,元数据是源自数据被创建、处理和使用相关的一系列流程,它包括架构、建模、管理、治理、数据质量开发、系统开发、IT和业务运营分析等。
数据管理需要技术和非技术技能及协作能力,单个团队无法管理组织的全部数据。
数据管理可以存在局部应用的可能,但是只有放眼于整个企业,才能发挥出它最大的作用。这是数据管理和数据治理紧密相联的原因。
数据是流动的,我们数据的管理必须不断发展前进,才能跟得上数据创建和使用方式及消费者的步伐。
管理数据包括管理与数据相关的风险,数据除了是一种资产,还代表了组织潜在的风险,它可能被丢失、滥用和被盗,因此数据相关的风险必须作为数据生命周期的一部分进行管理。
数据管理需要高层领导的支持,包括协调、合作和共担责任,需要来自管理层的愿景和目标的支持。
数据管理面临的挑战
首先就是我们必须认识到,数据资产和传统资产的区别:
数据不是有型的,它的价值随着时间的推移而变化(旧的数据可能在新的背景下无法具有过往的价值),但是数据是耐用且无法被磨损的;数据虽然易于传输和复制,但是一旦丢失或损毁,是不容重现的;数据的流动的,一份数据可以同时被多人使用,被多次使用后会产生更多的数据,因此大多数组织必须管理不断增加的数据及清理数据集之间的关系;大多数经营性商业组织的交易涉及信息交换。这些信息都是以电子形式交换的,会形成数据轨迹,除了记录已经发生的交换,这些数据轨迹还可以提供有关组织运作方式的信息。
同时数据的估值现如今也是很难有一套固定的标准体系的,价值是某项事物收益与其成本之间的关系。对于某些资产而言,如股票,其计算价值会很容易,只需要计算卖出价格和买入成本之间的差额就可以得出。
但是对于数据,其数据的成本估值和收益估值都没有一个统一的标准。
常见的数据估值成本可以有如下的类型:
数据丢失后的更换成本
数据丢失对组织的影响
获取和存储数据的成本
风险缓解成本和数据相关的潜在风险成本
改进数据的成本
高质量数据的收益
竞争对手对数据的支付意愿
数据潜在的销售价格
创新性使用数据的预期收入
数据的价值是与其应用场景相关联的,并且通常具有时效性。
尽管如此,组织中的某些类型的数据依旧随着时间的推移始终具有价值。
赋予数据价值是赋予数据管理活动价值的基础,数据估值过程也可以用作变革管理的一种手段。
管理后的高质量数据的业务价值
因为我们管理数据的目的是利用数据,所以我们的数据必须满足业务的需求,这样收集、存储、访问数据才具有意义, 所以,在与消费者合作时,我们必须定义数据的质量。管理数据质量不应该被认为是事后考量。
低质量数据的成本来源于:
废弃返工
应急措施和隐性修正流程
组织效率低或生产力水平低
组织内部冲突
工作满意度低
客户不满意
机会成本,包括创新能力受限
合规成本或者罚款
声誉受损
高质量数据的收益:
提升客户体验
提高生产力
降低风险
快速把握商机
增加收入
从洞察客户、产品、流程和商机中获得优势
我们如何思考,对数据进行利用
如果我们将数据视为自己创造的产品,那么我们可以在整个生命周期中做出更好的决策,这些决策需要系统性的思考,涉及如下内容:
首先是数据连接业务流程的方式,然后是业务流程的支持技术和业务流程之间的关系,除此之外我们还要考虑到系统的设计及系统产生和存储的数据,最后还有数据可能用于推进战略的方式。
在平时的工作中,我希望能够不断尝试从其中的某一个点切入,达到从普通的执行层到思考如何做的更加胜任,最后成为专家,如果后续我有更多的思考,也会继续更新。