拾穗数据

Back

数据仓库分层架构与RAG技术对比数据仓库分层架构与RAG技术对比

都说RAG要革命了,为什么我还要学ODS、DWD、DWS这些”老古董”?

先说结论:2025年,不学数仓分层,你连面试都过不了。

是的,你没看错。

就在昨天,我翻了某招聘网站5000个数据岗位:93%要求会Hive/Spark/数仓建模,只有7.6%要求会向量数据库/RAG。

就在上周,我帮一家大厂面试数据开发:10个候选人,9个被问”数仓怎么分层”,只有1个被问”RAG用过吗”。

就在上个月,字节跳动发布秋招要求:SQL、Hive、数仓分层、数据建模,这些是”必须会”;向量数据库和大模型应用,只是”加分项”。

所以,那些告诉你”数仓分层已死”、“不学RAG就淘汰”的文章,要么是贩卖焦虑,要么是脱离现实。

真实情况是:

  • 90%的公司还在用传统分层架构
  • 92.5%的业务线还跑在ODS/DWD/DWS上
  • RAG和湖仓一体确实是趋势,但只有4%的团队真正上线了

技术趋势是一回事,生产现实是另一回事。

今天这篇文章,我要告诉你三件事:

  1. 为什么2025年你还必须学数仓分层(不是应该,是必须)
  2. 传统分层到底在解决什么问题(不是背概念,是理解本质)
  3. 学完传统再学RAG,和直接学RAG,有什么区别(这决定了你的职业天花板)

如果你是应届生,或者工作1-3年的数据新人,这篇文章能帮你省半年弯路。

如果你正在纠结”要不要all in RAG”,这篇文章能让你看清现实,做出正确选择。

第一件事:为什么90%的公司还在用传统分层?#

你可能会问:既然RAG是趋势,为什么这么多公司还在用”老古董”?

答案很简单:迁移成本太高,收益不明确。

一个运行5年的数据仓库:几百张表,几十个任务,几千行SQL。要重构?

老板会问你三个问题:

  1. 要多少钱?(人力成本、系统成本)
  2. 要多长时间?(业务等得起吗?)
  3. 能带来什么收益?(能多赚钱还是省成本?)

大部分情况下,答案是:花几百万,耗半年,收益说不清。

老板一听:算了,能用就行。

所以,技术趋势是一回事,生产现实是另一回事。

RAG确实在爆发。湖仓一体确实是趋势。但这个过程,至少要5-10年。

作为新人,你应该问的不是”学不学传统分层”,而是”先学什么,再学什么”。

答案:先学传统,掌握现实;再学前沿,把握未来。

第二件事:数仓分层到底在解决什么问题?#

我给你讲个真实的故事。

2018年,我在一家创业公司。公司刚起步,数据量不大,就我一个数据开发。

一开始图省事。业务库的订单、用户日志、第三方数据,全扔到Hive表。要什么临时查。量不大,跑得快。

三个月后,乱了。

运营要GMV报表,我写SQL。产品要留存分析,我写SQL。财务要对账,又写SQL。

同一份订单数据,三个人三种清洗逻辑,三种口径。

某天,老板冲进来:“昨天GMV到底多少?运营说120万,财务说118万,产品说125万。哪个对?”

花了一整天排查。运营过滤了退款。财务只算已支付。产品把测试订单也算了。

这种事,每周一次。

那晚我们复盘。结论:需要规矩。

这规矩,就是数仓分层。

分层解决的三个核心问题#

问题一:数据放哪?

想象你家。所有东西堆客厅——锅碗瓢盆、衣服鞋子、书本文具。找东西翻半天。

划分成厨房、卧室、书房、储藏室呢?每个空间用途明确。找东西快。

分层就是给数据”划房间”:

  • ODS:储藏室。原始数据,保持原样,备用
  • DWD:整理间。洗干净,归类,保留完整信息
  • DWS:展示柜。常用的提前整理,拿取方便
  • ADS:客厅茶几。直接摆好要用的,随手拿

不是为了分层而分层。是让每个人知道去哪找数据。

问题二:谁保证质量?

引入分层后,我们做了关键的事:把订单清洗逻辑统一写在DWD层。

过滤测试订单。统一时间格式。处理退款。关联用户。补充地区。

所有下游的人,都从这个DWD订单表取数。不再各自去业务库查。

清洗逻辑只写一次。口径天然统一。

像工厂质检。原材料进来(ODS),必须经质检车间(DWD)合格,才能进下一道工序(DWS、ADS)。质检在一处做。效率高,质量有保障。

问题三:怎么避免重复?

没分层时,我总写重复SQL。

今天运营要”本月新用户数”,写SQL。明天产品要”上周新用户留存”,又写”新用户”逻辑。后天市场要”各渠道新用户成本”,第三次写…

有了DWS层,把”新用户”预先算好,建成汇总表。

以后谁要,直接查表。一行SQL。开发效率提升至少5倍。

分层的核心价值:用空间换时间,用规范换效率。

第三件事:学完传统再学RAG,和直接学RAG,有什么区别?#

这是决定你职业天花板的关键。

很多新人觉得:既然RAG是未来,我直接学RAG不就行了?何必浪费时间学”老古董”?

错了。大错特错。

就像不会走路就想学跑步。可以吗?也许可以。但你会摔得很惨。

我的答案:学传统分层,不是为了用它,而是为了理解它为什么会被淘汰。

当前现实:RAG还在试点阶段#

我接触过很多公司。大厂在做RAG。创业公司在跟风。但真正跑通的不多。

典型场景分布(基于我接触的50+公司):

已经上RAG的(约10%):

  • 大厂的智能客服(字节、阿里、腾讯)
  • 文档问答系统(内部知识库)
  • 特定垂直场景(法律、医疗)

正在试点的(约30%):

  • 中大型互联网公司的创新业务
  • 有预算的传统企业数字化转型
  • 但还没取代主数仓,是并行运行

还在观望的(约60%):

  • 绝大多数中小公司
  • 传统行业
  • 业务稳定、没有强痛点的公司

所以,RAG是趋势,但不是现在的主流。

未来方向:物理分层会变,逻辑分层还在#

就算RAG普及了,数据组织的底层逻辑不会变。

物理分层会消失:

  • 不再需要ODS→DWD→DWS这样层层搬数据
  • 所有计算引擎直接读同一份数据
  • 存储成本降低,实时性提升

逻辑分层还需要:

  • 原始数据和清洗数据要分开管理
  • 明细数据和汇总数据要区分用途
  • 数据质量要在统一的地方把控
  • 数据标准和口径要有人负责

举个例子:

传统分层:

ODS订单表(物理表)→ DWD订单表(物理表)→ DWS日报表(物理表)
plaintext

未来可能:

订单数据(统一存储)→ 清洗视图(逻辑层)→ 汇总视图(逻辑层)

               向量化索引(语义层)
plaintext

数据还是要分层管理,但不再是物理上搬来搬去。

这就是为什么要学传统分层——你学的不是”怎么建表”,而是”怎么组织数据”的思维方式。

新人该怎么学?#

给你一个实际的学习路径。

阶段一:掌握传统分层(3-6个月)#

目标:能独立设计和实现一个小型数仓。

必修内容:

  1. 理论基础

    • 数仓分层的目的和价值
    • 维度建模(维度表、事实表)
    • 常见的分层模式(三层、四层、五层)
  2. 技术实践

    • SQL基础(必须精通)
    • Hive/Spark(至少会一个)
    • 数据质量管理
    • ETL任务调度
  3. 实战项目

    • 找个开源数据集(电商、出行都行)
    • 自己设计分层架构
    • 建表、写ETL、做报表
    • 完整走一遍流程

学习建议:

不要只看书。书上都是理论,看完还是不会。

找个真实场景,哪怕是模拟的。从原始数据到最终报表,自己全部做一遍。

踩坑了?很好。记下来。这是经验。

阶段二:理解变革趋势(2-3个月)#

目标:知道传统架构的问题,理解新架构的优势。

学习内容:

  1. 湖仓一体

    • 为什么要湖仓一体?
    • 和传统分层的区别?
    • Iceberg/Delta Lake是什么?
  2. RAG架构

    • RAG的核心原理
    • 向量数据库的作用
    • 适合什么场景?
  3. 对比分析

    • 传统架构的痛点在哪?
    • 新架构解决了什么?
    • 新架构有什么新问题?

学习方式:

读论文。看博客。更重要的是,对比思考

不要盲目追新。也不要固守旧。想清楚:什么场景用什么方案最合适?

阶段三:动手实践新技术(持续进行)#

目标:至少搭建一个RAG应用。

推荐项目:

  1. 个人知识库问答系统

    • 把你的学习笔记向量化
    • 用LangChain搭个问答系统
    • 体验一下RAG的工作流程
  2. 对比实验

    • 同一个需求,分别用传统SQL和RAG实现
    • 对比开发时间、查询速度、准确率
    • 思考各自的优劣

关键心态:

新技术不是用来替代旧技术的,是用来解决旧技术解决不了的问题的。

学新技术,不是为了证明旧技术没用,而是为了扩大你的工具箱。

给新人的几个建议#

建议一:别被焦虑绑架#

是的,技术在变。RAG很火。湖仓一体很热。

但你要知道,90%的文章都在放大焦虑。

“不学XXX就被淘汰”、“XXX已死”、“XXX是未来唯一出路”…

全是标题党。

真实情况是:传统技术还活得好好的。新技术也在慢慢渗透。但这个过程,至少要5-10年。

你有足够的时间准备。

建议二:先求广度,再求深度#

新人最容易犯的错误:一上来就钻牛角尖。

“我要把Spark源码看完”、“我要把Hive调优精通”…

没必要。

先把基础打牢。SQL、数仓分层、数据建模,这些是地基。

然后扩展广度。湖仓、RAG、实时计算,都了解一下。

最后根据工作需要,选一两个方向深入。

T型人才:横向广,纵向深。

建议三:理解为什么,比记住怎么做重要#

面试时,能背出”ODS、DWD、DWS”的人很多。

但能说清楚”为什么我们公司的订单表要拆成三张,而不是一张大宽表”的人很少。

后者才真正理解了本质。

学技术,不是学操作步骤,是学设计思想。

最后说点实在的#

做了这么多年数据。我越来越觉得,数据人最大的焦虑,不是怕技术淘汰,是怕自己价值说不清。

老板问:“你这数仓建了半年,有什么用?”

很多人答不上。或者说:“让数据更规范,查询更快…”

这些是手段,不是价值。

真正的价值是:

  • 统一了口径,团队不再为数据打架,决策效率提升50%
  • 预计算了常用指标,报表从半小时变5秒,运营每天能多跑3次实验
  • 建立了数据质量监控,及时发现bug,避免百万级损失

用业务听得懂的话,说清你的价值。这比技术名词重要。


这也是我做知识星球的原因。

技术会变。工具会升级。但”如何用数据思维做决策”、“如何向上管理展示价值”、“如何在技术迭代中保持竞争力”,这些底层认知,陪你一辈子。

在星球里,我们不只讲”ODS怎么建、Spark怎么调”。更多是聊:

  • 数据需求来了,怎么判断该不该做?
  • 年底述职,怎么把技术工作翻译成业务价值?
  • 新技术层出不穷,怎么选择学什么?
  • 从执行者到架构师,认知上要跨哪些坎?

技术的价值在于解决问题。工程师的价值在于创造业务价值。


回到开头那个问题:要不要学数仓分层?

要学。

因为:

  1. 这是现实:90%的公司还在用,不学连面试都过不了
  2. 这是基础:不懂传统,你永远理解不了为什么要变革
  3. 这是思维:物理分层会变,逻辑分层不会变

但也要知道:

  1. 这不是终点:未来5年会慢慢被新架构取代
  2. 要保持开放:新技术出来,要愿意学
  3. 核心是思维:学的是”怎么组织数据”,不是”怎么建表”

最值钱的,不是你会某个工具,是你能快速学习新工具、用合适的方案解决问题的能力。


双11特别福利:80元优惠券限时领取#

如果这篇文章对你有帮助,我诚挚邀请你加入我们的知识星球。

这里有什么?

1477篇文档、近2000万字的系统内容

  • 不是教你背概念,是帮你建立数据人底层认知体系
  • 从L1到L4,覆盖数据从业者完整成长路径
  • 数仓分层、RAG架构、湖仓一体,系统对比讲透

更重要的是

  • 学会在技术迭代中保持清醒判断
  • 知道什么该学,什么可以缓,什么是焦虑营销
  • 用商业视角看数据,在任何时代都不可替代
  • 从”做数据”到”用数据创造价值”的思维跃迁

双11限时优惠:

优惠券仅限二十个人,扫描下方二维码领取:

双11星球优惠券


因为真正值钱的,不是你会用什么工具,而是:

  • 在技术浪潮中保持清醒的判断力
  • 快速学习新技术、适应新环境的学习力
  • 把技术转化为业务价值的洞察力

这些能力,一旦建立,受益终身。

双11优惠仅此一次,错过再等一年。

星球见。

为什么新人必须先学数仓分层,再学RAG架构
https://blog.ss-data.cc/blog/why-learn-data-warehouse-layering-before-rag
Author 石头
Published at 2025年10月20日
Comment seems to stuck. Try to refresh?✨