

都说RAG要革命了,为什么我还要学ODS、DWD、DWS这些”老古董”?
先说结论:2025年,不学数仓分层,你连面试都过不了。
是的,你没看错。
就在昨天,我翻了某招聘网站5000个数据岗位:93%要求会Hive/Spark/数仓建模,只有7.6%要求会向量数据库/RAG。
就在上周,我帮一家大厂面试数据开发:10个候选人,9个被问”数仓怎么分层”,只有1个被问”RAG用过吗”。
就在上个月,字节跳动发布秋招要求:SQL、Hive、数仓分层、数据建模,这些是”必须会”;向量数据库和大模型应用,只是”加分项”。
所以,那些告诉你”数仓分层已死”、“不学RAG就淘汰”的文章,要么是贩卖焦虑,要么是脱离现实。
真实情况是:
- 90%的公司还在用传统分层架构
- 92.5%的业务线还跑在ODS/DWD/DWS上
- RAG和湖仓一体确实是趋势,但只有4%的团队真正上线了
技术趋势是一回事,生产现实是另一回事。
今天这篇文章,我要告诉你三件事:
- 为什么2025年你还必须学数仓分层(不是应该,是必须)
- 传统分层到底在解决什么问题(不是背概念,是理解本质)
- 学完传统再学RAG,和直接学RAG,有什么区别(这决定了你的职业天花板)
如果你是应届生,或者工作1-3年的数据新人,这篇文章能帮你省半年弯路。
如果你正在纠结”要不要all in RAG”,这篇文章能让你看清现实,做出正确选择。
第一件事:为什么90%的公司还在用传统分层?#
你可能会问:既然RAG是趋势,为什么这么多公司还在用”老古董”?
答案很简单:迁移成本太高,收益不明确。
一个运行5年的数据仓库:几百张表,几十个任务,几千行SQL。要重构?
老板会问你三个问题:
- 要多少钱?(人力成本、系统成本)
- 要多长时间?(业务等得起吗?)
- 能带来什么收益?(能多赚钱还是省成本?)
大部分情况下,答案是:花几百万,耗半年,收益说不清。
老板一听:算了,能用就行。
所以,技术趋势是一回事,生产现实是另一回事。
RAG确实在爆发。湖仓一体确实是趋势。但这个过程,至少要5-10年。
作为新人,你应该问的不是”学不学传统分层”,而是”先学什么,再学什么”。
答案:先学传统,掌握现实;再学前沿,把握未来。
第二件事:数仓分层到底在解决什么问题?#
我给你讲个真实的故事。
2018年,我在一家创业公司。公司刚起步,数据量不大,就我一个数据开发。
一开始图省事。业务库的订单、用户日志、第三方数据,全扔到Hive表。要什么临时查。量不大,跑得快。
三个月后,乱了。
运营要GMV报表,我写SQL。产品要留存分析,我写SQL。财务要对账,又写SQL。
同一份订单数据,三个人三种清洗逻辑,三种口径。
某天,老板冲进来:“昨天GMV到底多少?运营说120万,财务说118万,产品说125万。哪个对?”
花了一整天排查。运营过滤了退款。财务只算已支付。产品把测试订单也算了。
这种事,每周一次。
那晚我们复盘。结论:需要规矩。
这规矩,就是数仓分层。
分层解决的三个核心问题#
问题一:数据放哪?
想象你家。所有东西堆客厅——锅碗瓢盆、衣服鞋子、书本文具。找东西翻半天。
划分成厨房、卧室、书房、储藏室呢?每个空间用途明确。找东西快。
分层就是给数据”划房间”:
- ODS:储藏室。原始数据,保持原样,备用
- DWD:整理间。洗干净,归类,保留完整信息
- DWS:展示柜。常用的提前整理,拿取方便
- ADS:客厅茶几。直接摆好要用的,随手拿
不是为了分层而分层。是让每个人知道去哪找数据。
问题二:谁保证质量?
引入分层后,我们做了关键的事:把订单清洗逻辑统一写在DWD层。
过滤测试订单。统一时间格式。处理退款。关联用户。补充地区。
所有下游的人,都从这个DWD订单表取数。不再各自去业务库查。
清洗逻辑只写一次。口径天然统一。
像工厂质检。原材料进来(ODS),必须经质检车间(DWD)合格,才能进下一道工序(DWS、ADS)。质检在一处做。效率高,质量有保障。
问题三:怎么避免重复?
没分层时,我总写重复SQL。
今天运营要”本月新用户数”,写SQL。明天产品要”上周新用户留存”,又写”新用户”逻辑。后天市场要”各渠道新用户成本”,第三次写…
有了DWS层,把”新用户”预先算好,建成汇总表。
以后谁要,直接查表。一行SQL。开发效率提升至少5倍。
分层的核心价值:用空间换时间,用规范换效率。
第三件事:学完传统再学RAG,和直接学RAG,有什么区别?#
这是决定你职业天花板的关键。
很多新人觉得:既然RAG是未来,我直接学RAG不就行了?何必浪费时间学”老古董”?
错了。大错特错。
就像不会走路就想学跑步。可以吗?也许可以。但你会摔得很惨。
我的答案:学传统分层,不是为了用它,而是为了理解它为什么会被淘汰。
当前现实:RAG还在试点阶段#
我接触过很多公司。大厂在做RAG。创业公司在跟风。但真正跑通的不多。
典型场景分布(基于我接触的50+公司):
已经上RAG的(约10%):
- 大厂的智能客服(字节、阿里、腾讯)
- 文档问答系统(内部知识库)
- 特定垂直场景(法律、医疗)
正在试点的(约30%):
- 中大型互联网公司的创新业务
- 有预算的传统企业数字化转型
- 但还没取代主数仓,是并行运行
还在观望的(约60%):
- 绝大多数中小公司
- 传统行业
- 业务稳定、没有强痛点的公司
所以,RAG是趋势,但不是现在的主流。
未来方向:物理分层会变,逻辑分层还在#
就算RAG普及了,数据组织的底层逻辑不会变。
物理分层会消失:
- 不再需要ODS→DWD→DWS这样层层搬数据
- 所有计算引擎直接读同一份数据
- 存储成本降低,实时性提升
逻辑分层还需要:
- 原始数据和清洗数据要分开管理
- 明细数据和汇总数据要区分用途
- 数据质量要在统一的地方把控
- 数据标准和口径要有人负责
举个例子:
传统分层:
ODS订单表(物理表)→ DWD订单表(物理表)→ DWS日报表(物理表)plaintext未来可能:
订单数据(统一存储)→ 清洗视图(逻辑层)→ 汇总视图(逻辑层)
↓
向量化索引(语义层)plaintext数据还是要分层管理,但不再是物理上搬来搬去。
这就是为什么要学传统分层——你学的不是”怎么建表”,而是”怎么组织数据”的思维方式。
新人该怎么学?#
给你一个实际的学习路径。
阶段一:掌握传统分层(3-6个月)#
目标:能独立设计和实现一个小型数仓。
必修内容:
-
理论基础
- 数仓分层的目的和价值
- 维度建模(维度表、事实表)
- 常见的分层模式(三层、四层、五层)
-
技术实践
- SQL基础(必须精通)
- Hive/Spark(至少会一个)
- 数据质量管理
- ETL任务调度
-
实战项目
- 找个开源数据集(电商、出行都行)
- 自己设计分层架构
- 建表、写ETL、做报表
- 完整走一遍流程
学习建议:
不要只看书。书上都是理论,看完还是不会。
找个真实场景,哪怕是模拟的。从原始数据到最终报表,自己全部做一遍。
踩坑了?很好。记下来。这是经验。
阶段二:理解变革趋势(2-3个月)#
目标:知道传统架构的问题,理解新架构的优势。
学习内容:
-
湖仓一体
- 为什么要湖仓一体?
- 和传统分层的区别?
- Iceberg/Delta Lake是什么?
-
RAG架构
- RAG的核心原理
- 向量数据库的作用
- 适合什么场景?
-
对比分析
- 传统架构的痛点在哪?
- 新架构解决了什么?
- 新架构有什么新问题?
学习方式:
读论文。看博客。更重要的是,对比思考。
不要盲目追新。也不要固守旧。想清楚:什么场景用什么方案最合适?
阶段三:动手实践新技术(持续进行)#
目标:至少搭建一个RAG应用。
推荐项目:
-
个人知识库问答系统
- 把你的学习笔记向量化
- 用LangChain搭个问答系统
- 体验一下RAG的工作流程
-
对比实验
- 同一个需求,分别用传统SQL和RAG实现
- 对比开发时间、查询速度、准确率
- 思考各自的优劣
关键心态:
新技术不是用来替代旧技术的,是用来解决旧技术解决不了的问题的。
学新技术,不是为了证明旧技术没用,而是为了扩大你的工具箱。
给新人的几个建议#
建议一:别被焦虑绑架#
是的,技术在变。RAG很火。湖仓一体很热。
但你要知道,90%的文章都在放大焦虑。
“不学XXX就被淘汰”、“XXX已死”、“XXX是未来唯一出路”…
全是标题党。
真实情况是:传统技术还活得好好的。新技术也在慢慢渗透。但这个过程,至少要5-10年。
你有足够的时间准备。
建议二:先求广度,再求深度#
新人最容易犯的错误:一上来就钻牛角尖。
“我要把Spark源码看完”、“我要把Hive调优精通”…
没必要。
先把基础打牢。SQL、数仓分层、数据建模,这些是地基。
然后扩展广度。湖仓、RAG、实时计算,都了解一下。
最后根据工作需要,选一两个方向深入。
T型人才:横向广,纵向深。
建议三:理解为什么,比记住怎么做重要#
面试时,能背出”ODS、DWD、DWS”的人很多。
但能说清楚”为什么我们公司的订单表要拆成三张,而不是一张大宽表”的人很少。
后者才真正理解了本质。
学技术,不是学操作步骤,是学设计思想。
最后说点实在的#
做了这么多年数据。我越来越觉得,数据人最大的焦虑,不是怕技术淘汰,是怕自己价值说不清。
老板问:“你这数仓建了半年,有什么用?”
很多人答不上。或者说:“让数据更规范,查询更快…”
这些是手段,不是价值。
真正的价值是:
- 统一了口径,团队不再为数据打架,决策效率提升50%
- 预计算了常用指标,报表从半小时变5秒,运营每天能多跑3次实验
- 建立了数据质量监控,及时发现bug,避免百万级损失
用业务听得懂的话,说清你的价值。这比技术名词重要。
这也是我做知识星球的原因。
技术会变。工具会升级。但”如何用数据思维做决策”、“如何向上管理展示价值”、“如何在技术迭代中保持竞争力”,这些底层认知,陪你一辈子。
在星球里,我们不只讲”ODS怎么建、Spark怎么调”。更多是聊:
- 数据需求来了,怎么判断该不该做?
- 年底述职,怎么把技术工作翻译成业务价值?
- 新技术层出不穷,怎么选择学什么?
- 从执行者到架构师,认知上要跨哪些坎?
技术的价值在于解决问题。工程师的价值在于创造业务价值。
回到开头那个问题:要不要学数仓分层?
要学。
因为:
- 这是现实:90%的公司还在用,不学连面试都过不了
- 这是基础:不懂传统,你永远理解不了为什么要变革
- 这是思维:物理分层会变,逻辑分层不会变
但也要知道:
- 这不是终点:未来5年会慢慢被新架构取代
- 要保持开放:新技术出来,要愿意学
- 核心是思维:学的是”怎么组织数据”,不是”怎么建表”
最值钱的,不是你会某个工具,是你能快速学习新工具、用合适的方案解决问题的能力。
双11特别福利:80元优惠券限时领取#
如果这篇文章对你有帮助,我诚挚邀请你加入我们的知识星球。
这里有什么?
1477篇文档、近2000万字的系统内容
- 不是教你背概念,是帮你建立数据人底层认知体系
- 从L1到L4,覆盖数据从业者完整成长路径
- 数仓分层、RAG架构、湖仓一体,系统对比讲透
更重要的是
- 学会在技术迭代中保持清醒判断
- 知道什么该学,什么可以缓,什么是焦虑营销
- 用商业视角看数据,在任何时代都不可替代
- 从”做数据”到”用数据创造价值”的思维跃迁
双11限时优惠:
优惠券仅限二十个人,扫描下方二维码领取:

因为真正值钱的,不是你会用什么工具,而是:
- 在技术浪潮中保持清醒的判断力
- 快速学习新技术、适应新环境的学习力
- 把技术转化为业务价值的洞察力
这些能力,一旦建立,受益终身。
双11优惠仅此一次,错过再等一年。
星球见。