作为一个资深数据从业者,以下是我对公司级数据中台建设的规划路线,基于我个人认识、经历与推断提炼而来。在这里也感谢之前一家公司的工作经历,虽然是在一家数据建设很杂乱的初创公司,但其实也锻炼了自己,跳出大公司高度规范化的体系,不断调整认识,理论如何结合实际而落地,总结出一个适合的数据中台该如何建设。
一、全面收集企业信息,构建数据资产库
目标:数据集中归档
衡量标准:所有稳定的业务数据是否已接入并归档,维度库数据是否为公司范围内通用
协作部门:各业务系统、主数据系统
步骤:
1.接入所有已稳定的业务系统数据,数据集中存储
2.对业务系统事实数据进行归档
3.对维度数据进行统一
二、数据资产梳理,建立数据标准,初步数据治理
目标:数据的数据可查
衡量标准:数据字典全面完善、元数据完善可用
协作部门:业务部门、业务系统、数据开发
步骤:
1.对数据资产梳理,形成数据字典
2.元数据管理,整理与维护现有表信息
3.建立数据标准,保证数据质量,对异常、缺失等数据提供补充或剔除逻辑或标识
三、业务实体进行数据建模,保证复用性与性能
目标:主要业务实体、主要业务过程数据模型完善,为数据集市建立打基础
衡量标准:业务实体档案全面,主要业务实体数据模型完善并可高度复用
协作部门:业务部门、数据开发
步骤:
1.对主要业务实体进行档案管理,出档案表
2.对主要业务实体进行维度建模,加工形成可复用明细层
3.基于主要业务实体的数据模型,建立指标,并尝试体系化
4.结合开发性能,对事实表数据建未清逻辑,分完结表与未清表存储与使用
四、及时满足数据指标与基础数据分析需求
目标:建立数据集市
衡量标准:是否能以较低的成本满足业务指标与数据分析需求
协作部门:业务部门、数据开发
步骤:
1.基于事实表与维度表构建总线矩阵,链通企业内数据
2.完善各业务实体数据模型,保证复用性
3.基于各数据模型,完整完善产出数据指标,对指标尝试分域体系化
五、数据治理
目标:提升数据质量
衡量标准:数据指标唯一、无歧义,低成本保持数据产出,数据安全保持较低风险
协作部门:业务部门、数据开发
步骤:
纵向上:数据分层,从ods层到cdm层到ads层,严格按流程规范分层执行;
横向上:表分类,分事实表,主数据,维度表,配置表;
业务上:数据指标口径统一,保证统计指标只有一个解释,在公司层面将指标定义规范化:
源头上:数据来源梳理,保证来源准确,无交叉定义
规范上:元数据管理,分业务元数据(表名、表结构、字段枚举值、更新频率、对应业务场景)、技术元数据(字段类型)、管理元数据(负责人)
执行上:按使用频率、任务执行成本,划分常用数据、冷却数据,合理分配开发资源
落地上:cdm层,字段落表逻辑确定,制定规则过滤不必要的数据
安全上:按表、表数据标签/数据行控制权限,建立人员与角色对应关系,表与角色的对应关系,标签与角色的对应关系
六、满足业务对象场景化分类与业务对象画像
目标:数据标签完善、可用
衡量标准:是否能满足业务对象场景化分类与业务对象画像
协作部门:业务部门、数据开发
步骤:
1.基于业务场景,对数据模型加工,得到标签
2.对业务对象构建特征空间,建立业务对象相似度标签,如种子用户、高潜力用户的相似用户划分
七、数据服务
目标:场景化数据服务
衡量标准:场景化数据分析与决策需求是否能得到满足
协作部门:业务部门、数据开发
步骤:
1.基于常见的数据分析场景,提供数据分析支持
2.基于常见决策场景,提供数据决策与算法支持
注:六、七点写得比较松散,但是十分重要,于业务视角是最体现数据产品实用价值的,时间关系暂不展开,以后有需要再另开专题拆分叙述。