拾穗数据

Back

数据治理工程师学习路线 - L1 治理入门#

[!abstract] 定位 L1 阶段的核心是理解数据治理的基本概念和价值,能够参与基础的数据治理工作,如数据质量检查、元数据维护等。

这份指南适合谁?#

  • 0-1 年工作经验,对数据治理方向感兴趣
  • 数据开发/分析转型数据治理
  • 业务人员转型数据管理相关岗位
  • 想了解数据治理是什么、做什么

常见困惑:数据治理到底是什么?#

“数据治理听起来很虚,具体做什么?”#

数据治理的本质:让数据可信、可用、可管。

不治理的痛点治理后的状态
数据质量差,报表对不上数据一致、可信
找不到想要的数据数据可被发现、理解
不知道数据从哪来数据血缘清晰
数据安全无保障数据分级保护
口径定义混乱统一标准定义

”数据治理和数据开发有什么区别?“#

维度数据开发数据治理
核心目标让数据流动起来让数据有序可信
工作内容ETL、数仓建设标准制定、质量管理
关注点功能实现、性能规范、质量、安全
技能偏重编程、系统设计流程、规范、协调

[!tip] 两者关系 数据开发是”修路”,数据治理是”交通规则”。没有路,规则没意义;没有规则,路会乱成一团。

“数据治理需要很强的技术吗?”#

看具体方向

治理方向技术要求核心能力
数据标准业务理解、规范制定
数据质量SQL、规则配置
元数据管理系统配置、数据建模
数据安全安全技术、合规知识

阶段目标#

  1. 理解数据治理:明白为什么要治理、治理什么
  2. 掌握基础技能:能做数据质量检查、元数据维护
  3. 熟悉治理工具:会使用数据治理平台
  4. 建立治理意识:在日常工作中识别治理问题

核心技能#

1. 数据治理基础概念#

先理解”是什么”和”为什么”,再学”怎么做”

数据治理 vs 数据管理

概念定义关系
数据治理 (Governance)决策权、策略、标准制定规则
数据管理 (Management)具体执行、技术实现执行规则

DAMA 数据管理知识体系

                 ┌─────────────────────┐
                 │     数据治理        │
                 │   (核心与管理)      │
                 └──────────┬──────────┘

     ┌──────────┬──────────┼──────────┬──────────┐
     ↓          ↓          ↓          ↓          ↓
┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐
│数据架构 ││数据建模 ││数据存储 ││数据安全 ││数据集成 │
└─────────┘└─────────┘└─────────┘└─────────┘└─────────┘
     ↓          ↓          ↓          ↓          ↓
┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐
│元数据   ││数据质量 ││主数据   ││数仓/BI  ││文档管理 │
└─────────┘└─────────┘└─────────┘└─────────┘└─────────┘
plaintext

相关知识数据治理概述DAMA知识体系数据治理框架

2. 数据质量基础#

数据质量是治理的核心目标之一

数据质量六大维度

维度含义检查示例
完整性数据不缺失必填字段非空
准确性数据正确金额为正数
一致性多处数据一致订单状态和支付状态匹配
及时性数据按时到达T+1 数据凌晨 6 点前就位
唯一性无重复数据主键不重复
有效性符合业务规则年龄在合理范围内

数据质量检查 SQL 示例

-- 完整性检查:必填字段非空
SELECT COUNT(*) as null_count
FROM orders
WHERE user_id IS NULL OR order_time IS NULL;

-- 唯一性检查:主键不重复
SELECT order_id, COUNT(*) as cnt
FROM orders
GROUP BY order_id
HAVING COUNT(*) > 1;

-- 准确性检查:金额为正
SELECT COUNT(*) as invalid_count
FROM orders
WHERE amount <= 0;

-- 一致性检查:状态匹配
SELECT COUNT(*) as mismatch_count
FROM orders
WHERE order_status = 'paid'
  AND payment_status != 'success';
sql

相关知识数据质量管理数据质量规则数据质量监控

3. 元数据管理基础#

元数据是”关于数据的数据”,是找到和理解数据的钥匙

元数据类型

类型内容作用
技术元数据表结构、字段类型、存储位置技术人员使用
业务元数据业务含义、计算口径、负责人业务人员理解
操作元数据数据血缘、任务调度、运行日志运维和问题排查

元数据管理核心能力

          ┌─────────────────┐
          │    数据目录     │  ← 找到数据
          └────────┬────────┘

     ┌─────────────┼─────────────┐
     ↓             ↓             ↓
┌─────────┐  ┌─────────┐  ┌─────────┐
│业务术语 │  │技术元数据│  │数据血缘 │
│ 理解数据 │  │描述数据 │  │追溯数据 │
└─────────┘  └─────────┘  └─────────┘
plaintext

相关知识元数据管理数据目录数据血缘

4. 数据标准基础#

数据标准是统一数据定义的基础

数据标准内容

标准类型内容示例
命名标准表名、字段命名规范user_id, order_amount
编码标准枚举值、状态码定义订单状态:1-待付款,2-已付款
术语标准业务术语统一定义GMV = 所有订单金额之和
口径标准指标计算口径DAU = 当日登录的去重用户数

为什么需要数据标准

没有标准有标准
同一个指标多个定义统一定义,结果一致
字段名混乱命名规范,易于理解
沟通成本高术语统一,沟通顺畅

相关知识数据标准管理数据字典业务术语表

5. SQL 基础能力#

数据治理工作离不开 SQL 查询

必备 SQL 技能

技能用途重要程度
基础查询查看数据必须
聚合统计数据质量统计必须
多表关联一致性检查重要
子查询复杂质量规则重要

数据治理常用 SQL 模式

-- 数据分布分析
SELECT status, COUNT(*) as cnt,
       ROUND(COUNT(*)*100.0/SUM(COUNT(*)) OVER(), 2) as pct
FROM orders
GROUP BY status;

-- 字段空值率分析
SELECT
    COUNT(*) as total,
    SUM(CASE WHEN user_name IS NULL THEN 1 ELSE 0 END) as null_count,
    ROUND(SUM(CASE WHEN user_name IS NULL THEN 1 ELSE 0 END)*100.0/COUNT(*), 2) as null_rate
FROM users;

-- 数据时效性检查
SELECT MAX(update_time) as latest_update,
       TIMESTAMPDIFF(HOUR, MAX(update_time), NOW()) as hours_ago
FROM orders;
sql

学习资源#

推荐书籍#

  • 《DAMA 数据管理知识体系指南》- 数据管理圣经
  • 《数据治理》- 入门概念
  • 《数据质量管理》- 质量管理专题

实践建议#

  1. 检查你现有项目的数据质量问题
  2. 整理一份数据字典
  3. 画出一个数据表的血缘关系

这个阶段的难点#

难点原因突破方法
概念太多太抽象数据治理体系复杂先理解核心概念,逐步扩展
不知道从哪开始没有系统性学习从数据质量入手,最直观
业务理解不够治理需要懂业务多和业务沟通,理解数据含义
缺少实践机会很多公司治理不成熟自己发现问题,推动改进

可胜任的岗位#

岗位名称核心要求薪资范围(参考)
数据治理专员基础治理工作8-15K
数据质量分析师质量检查、问题分析10-18K
元数据管理员元数据维护10-15K
数据管理助理数据管理相关工作8-12K

给这个阶段同学的建议#

做的事情#

  • 从质量入手:数据质量问题最直观,容易出成果
  • 建立敏感性:在日常工作中识别数据问题
  • 学习业务:数据治理的目标是服务业务
  • 整理文档:养成文档化的习惯

避免的事情#

  • 只关注工具,忽略方法论
  • 不懂业务就定标准
  • 发现问题不推动解决

[!quote] 关键心态 数据治理的价值不在于”治”本身,而在于让数据更好地服务业务。始终记住这个目标。


下一阶段预告#

完成 L1 后,你可以进入 L2 治理实践,学习:

  • 数据质量体系建设
  • 数据血缘分析
  • 数据安全基础
  • 数据治理平台使用
数据治理工程师 L1:治理入门
https://blog.ss-data.cc/blog/data-governance-l1-intro
Author 石头
Published at 2025年1月5日
Comment seems to stuck. Try to refresh?✨