拾穗数据

Back

数据架构与技术栈概念图数据架构与技术栈概念图

一个数据架构师的认知升级之路:为什么说2025年,最贵的不是技术,而是架构思维

那个被95后挑战的架构评审会#

周三下午3点,阳光透过会议室的百叶窗,在白板上投下一道道光影。

张磊站在投影仪前,点开他准备了两周的架构方案PPT。36岁,阿里P7,8年数据仓库经验,这次是公司新电商业务的核心数据平台架构评审。

第一页,经典的分层架构图:ODS → DWD → DWS → ADS,每一层的职责写得清清楚楚。第二页,详细的ER图,30多个实体,上百个关系,维度建模的范式应用得一丝不苟。第三页,技术选型:Hive做存储,Spark做计算,Presto做查询…

“这套架构我在上家公司用过,支撑了日均10亿条数据的处理,非常稳定。“张磊的声音很自信。

台下坐着十几个人。CTO在最前面,手指轻轻敲着桌面。业务负责人在看手机。最让张磊在意的,是坐在角落那个95后——李明,去年校招进来的应届生,现在是2-1级别,但据说在字节做过湖仓一体的项目。

讲到第15页,李明举手了。

“张哥,我有个问题。“他的声音不大,但很清晰,“为什么我们还在用这种传统的分层架构?”

张磊愣了一下:“这是经典的数据仓库架构啊,Kimball的维度建模方法论,业界验证了二十多年…”

“但是,“李明打开笔记本,投屏到大屏幕上,“字节现在的架构是这样的:一个数据湖存储所有原始数据,用Iceberg做表格式,Flink做实时计算,Spark做批处理,所有计算引擎直接访问同一份数据。不需要分层ETL,不需要数据搬运,实时和离线用同一套架构。”

会议室里突然安静了。

“而且成本只有传统架构的40%,实时性从小时级降到分钟级,数据不一致的问题基本消失了。“李明补充道。

CTO抬起头,看向张磊:“小张,你了解湖仓一体吗?”

张磊的手心开始出汗。说实话,他听过这个词,也看过几篇文章,但一直觉得是新概念的炒作,没当回事。“我…了解一些,但我觉得成熟度还不够…”

“腾讯、美团、快手、百度,去年都切到湖仓架构了。“CTO缓缓说道,“市场规模从2022年的15亿,2025年预计要到100亿。如果我们还在用五年前的架构,怎么和别人竞争?”

那天晚上,张磊一个人在办公室坐到深夜。窗外的城市灯火通明,他面前的屏幕上是一行行搜索结果:“湖仓一体”、“Data Lakehouse”、“Iceberg”、“Delta Lake”、“实时数仓”…

他突然意识到,自己引以为傲的8年经验,可能正在变成职业发展的枷锁。

我们都陷入了”经验主义陷阱”#

这些年做咨询,我见过太多像张磊这样的数据架构师。不是不努力,不是不专业,而是被过去的成功经验困住了。

心理学上有个概念叫”功能固着”(Functional Fixedness)——当你用一种方法解决问题太多次后,就会本能地排斥其他方法,即使新方法更优。

第一个陷阱:技术惯性#

“我在上家公司就是这么做的,挺好用的啊。”

这是我最常听到的话。但问题是,上家公司的场景和现在一样吗?三年前的技术栈和现在的生态一样吗?

美团L8的架构师老王跟我分享过一个故事:“2021年我主导搭建了一套实时数仓,Lambda架构,批流两条链路。当时觉得特别牛,解决了实时性问题。但维护成本太高了,两套代码,经常数据不一致。2024年切到湖仓架构后,一套代码搞定批流,团队从20个人减到12个,成本降了60%。”

“最讽刺的是,当初我还觉得湖仓一体不成熟,坚持用Lambda。现在回头看,我那不是坚持技术原则,是技术固执。“

第二个陷阱:概念过载#

“新概念太多了,今天Data Mesh,明天Data Fabric,后天又是Lakehouse,学不动了。”

这是另一种常见的心态——用学不动来掩饰不想学

但你有没有想过,真的是概念太多吗?还是你没抓住核心?

字节跳动3-1级别的架构专家在一次内部分享中说得特别好:“这些概念背后,本质只有一个:如何用更低的成本、更快的速度、更灵活的方式处理数据。

  • Data Warehouse(数据仓库):结构化数据,事先建模,查询快但不灵活
  • Data Lake(数据湖):所有数据都存,灵活但查询慢,容易变成数据沼泽
  • Data Lakehouse(湖仓一体):兼具两者优点,用开放表格式(Iceberg/Delta/Hudi)在数据湖上实现仓库的能力
  • Data Mesh(数据网格):去中心化,按业务域组织数据,适合大型组织
  • Data Fabric(数据编织):用AI和元数据管理连接分散的数据,强调自动化

你看,本质就是在”成本、效率、灵活性”三个维度上的不同权衡。抓住这个,所有概念都清晰了。

第三个陷阱:架构自嗨#

“这个架构设计得真漂亮,从理论上讲完美!”

然后业务根本用不上,或者实施成本高到落不了地。

阿里某事业部去年有个真实案例。某P8主导设计了一套”完美”的数据中台架构,PPT做了200页,引用了十几篇论文,架构图画得像艺术品。评审的时候所有技术专家都说好。

半年后项目黄了。为什么?业务根本不需要那么复杂的东西

他们只是想快速看到用户画像,帮助营销做精准投放。结果这套架构要接入7个系统,迁移50个表,开发3个月。业务等不及,自己用Excel + Python搞了个简单版本,反而跑起来了。

“建筑师设计房子,是为了让人住得舒服,而不是为了获得设计大奖。数据架构师也一样。“

湖仓一体不是新瓶装旧酒,是认知范式的转变#

很多人把湖仓一体理解成”数据仓库+数据湖”,这就大错特错了。

真正理解湖仓一体,需要三个认知层次:

第一层:技术层面——统一的存储和计算分离#

传统架构的痛点:

数据湖(HDFS/S3)
    ↓ 清洗ETL(搬数据)
数据仓库(Hive)
    ↓ 再次清洗(又搬数据)
数据集市(MySQL)
    ↓ 给业务用(还要搬)
plaintext

每搬一次数据,就多一份存储成本,多一次延迟,多一个数据不一致的风险。

湖仓一体的方案:

统一存储层(对象存储 + 开放表格式Iceberg/Delta)

    元数据层(表结构、分区、版本管理)

多引擎直接访问(Spark/Flink/Presto/Trino)
plaintext

所有计算引擎直接读同一份数据,零拷贝,零延迟,零不一致。

腾讯数据平台团队的实测数据:

  • 存储成本:降低50%(不需要多份副本)
  • ETL成本:降低70%(大部分搬运消失)
  • 实时性:从小时级到秒级

第二层:业务层面——批流一体的实时能力#

美团外卖的真实场景:

以前(Lambda架构):

  • 批处理链路:每天凌晨跑T+1数据,Hive表
  • 流处理链路:Flink实时计算,写到HBase
  • 业务要看数据:要查两个地方,还要手动合并,经常对不上

现在(湖仓架构):

  • 流式写入:订单数据直接写Iceberg表
  • 批量计算:T+1的汇总用Spark,直接读Iceberg
  • 实时查询:想看实时数据,Presto直接查Iceberg

同一张表,既支持流式增量更新,又支持批量历史分析,还能实时Ad-hoc查询。

一个外卖订单从产生到分析师能查到,延迟从4小时降到30秒。业务方说:“终于不用看昨天的数据做今天的决策了。“

第三层:组织层面——数据民主化的基础设施#

这是最容易被忽视,但最重要的一层。

字节跳动为什么能做到”数据驱动”?不是因为数据团队有多强,而是因为业务团队能自己用数据

他们的湖仓架构 + DataLeap平台,让产品经理也能:

  • 用SQL直接查询生产数据(不用求数据团队)
  • 用可视化工具拖拽出报表(不用等3天取数)
  • 用低代码搭建简单的数据流程(不用写代码)

数据中台失败的根本原因,就是只有数据团队能用,业务用不起来。湖仓一体+低代码工具,才是真正的数据民主化。

大厂都在怎么做?(2024-2025最新实践)#

字节跳动:最激进的湖仓实践#

技术栈:

  • 存储:自研ByteLake(兼容S3协议)
  • 表格式:Iceberg为主,Hudi做实时更新
  • 计算:Flink(实时)+ Spark(批处理)+ ByConity(查询)
  • 平台:DataLeap统一数据开发

关键数据(2024年):

  • 90%的数据已迁移到湖仓架构
  • PB级数据的查询响应时间 < 5秒
  • 数据新鲜度从小时级提升到分钟级
  • 成本同比下降35%

最值得学习的点: 字节没有照搬开源方案,而是根据自己的规模和场景做了大量优化。比如他们的Iceberg引擎支持”增量物化视图”,既有实时性,又不牺牲查询性能。

阿里云:商业化最成功的湖仓产品#

产品矩阵:

  • MaxCompute(自研湖仓引擎,兼容开源格式)
  • DataLake Analytics(serverless查询)
  • Hologres(实时数据仓库)
  • DataWorks(开发治理平台)

典型案例:某头部电商

  • 场景:双11实时大屏,需要秒级更新GMV
  • 传统方案:预先聚合+缓存,数据刷新有延迟
  • 湖仓方案:流式写入Hologres,查询实时聚合
  • 效果:支撑10亿级用户,查询延迟100ms内

最值得学习的点: 阿里的湖仓方案强调”云原生”,存算完全分离,可以根据业务波动弹性扩缩容。双11高峰扩到5000节点,平时缩到500节点,只为实际使用付费

腾讯:开源生态的深度应用#

技术选型:

  • 存储:COS(腾讯云对象存储)
  • 表格式:Iceberg + DLF(数据湖格式)
  • 计算:Spark、Flink、Presto社区版
  • 治理:DataOmnis平台

特色实践: 腾讯视频的推荐系统,需要处理:

  • 视频内容特征(结构化)
  • 用户行为日志(半结构化)
  • 视频理解算法输出(非结构化)

用湖仓架构统一存储后,训练样本生成时间从2天缩短到2小时,模型迭代速度提升10倍。

最值得学习的点: 腾讯贡献了大量开源项目(如DLake、Flink on Iceberg优化等),站在社区肩膀上做深度优化,既享受生态红利,又不被厂商绑定。

美团:最务实的架构演进#

演进路径:

  • Phase 1(2020-2021):评估POC,小范围试点
  • Phase 2(2022-2023):核心业务迁移,双写双读
  • Phase 3(2024):全面切换,下线老架构

最大的经验教训: 美团L9的VP在内部分享中说:“最大的坑不是技术,是组织。

传统架构下,有专门的ETL团队、数仓团队、BI团队。湖仓架构来了,这些团队怎么办?每个团队都怕丢饭碗,各种阻挠。

最后的解决方案:重新定义角色

  • ETL工程师 → 数据集成工程师(负责实时流和数据质量)
  • 数仓工程师 → 数据建模工程师(定义表结构和元数据)
  • BI工程师 → 数据产品经理(设计数据应用)

技术升级容易,组织升级很难。但不升级组织,技术也落不了地。

数据架构师的认知升级:从画图到定义价值#

认知1:架构的本质是trade-off,不是追求完美#

有个阿里P8问我:“湖仓一体这么好,为什么还有公司在用传统数仓?”

我反问他:“你觉得什么叫’好’?”

  • 对于一个10人的创业公司,MySQL + Metabase就够了,搞湖仓是浪费
  • 对于一个数据量TB级的公司,云数仓(Snowflake/BigQuery)最省心
  • 对于一个PB级且有实时需求的大厂,湖仓才是最优解

没有完美的架构,只有最适合的架构。

判断标准只有三个:

  1. 成本:TCO(总拥有成本)= 软件费 + 硬件费 + 人力成本
  2. 效率:开发效率 + 查询效率 + 运维效率
  3. 风险:技术风险 + 迁移风险 + 人才风险

认知2:从”怎么做”到”为什么做”#

Level 1架构师(初级): 知道怎么用技术 “我会搭建Spark集群,会写Hive SQL,会优化Flink任务。”

Level 2架构师(中级): 知道怎么选技术 “这个场景用Flink比Spark好,因为实时性要求高。”

Level 3架构师(高级): 知道为什么需要这个技术 “业务说要实时数据,但我分析后发现,真正的痛点不是实时性,而是数据质量差。解决方案不是上Flink,而是建立数据质量监控体系。”

最顶级的架构师,是能用最简单的方案解决问题的人。

腾讯某业务线要做”千人千面”推荐,找到架构团队,上来就说要上强化学习、图神经网络、实时特征工程…

负责的9级架构师听完,说了一句话:“你们的用户才100万,用规则推荐不行吗?”

最后用了最简单的协同过滤 + 几条规则,效果反而比复杂模型好。省了3个月开发时间,省了50万预算,最重要的是,业务能看懂,能随时调整。

认知3:技术是手段,商业价值是目的#

去年我帮一家新零售公司做架构咨询,CTO特别纠结:“我们是用Databricks的商业湖仓,还是自己搭开源的?”

我问他:“你们的核心竞争力是什么?”

“供应链效率。”

“那数据架构对供应链效率有什么帮助?”

“能更快发现滞销品,更准确预测需求…”

“那你觉得用Databricks和自建,哪个能更快实现这个价值?”

“Databricks,开箱即用。”

“那还纠结什么?”

“但是成本…”

“你算过吗?Databricks一年30万美金,自建团队至少要3个人,一年人力成本就100万人民币,还要半年开发时间。这半年里,供应链的损耗多少钱?”

他愣了,然后说:“我懂了,我们的价值是供应链优化,不是自研数据平台。”

很多架构师陷入技术选型的纠结,根本原因是忘了商业目标是什么。

立即行动:数据架构师的30天进化计划#

如果你是像张磊那样的传统架构师,不要焦虑,也不要急着全盘否定过去。重要的是从现在开始升级认知

Week 1:认知破冰(理解新范式)#

Day 1-2:系统学习湖仓一体

  • 推荐阅读:Databricks的Lakehouse论文
  • 视频学习:Iceberg/Delta Lake官方教程
  • 关键理解:不是学怎么用,是学为什么这样设计

Day 3-4:对比分析

  • 列出你现在架构的痛点(至少10个)
  • 分析湖仓能解决哪些,不能解决哪些
  • 诚实回答:哪些是技术问题,哪些是组织问题

Day 5-7:行业调研

  • 找3个同行聊天(用脉脉、LinkedIn)
  • 问他们的架构选型和踩坑经验
  • 总结出”什么场景适合湖仓”的判断标准

Week 2-3:技术验证(动手实践)#

实战任务:用开源组件搭建一个mini湖仓

Day 8-10:环境搭建

  • 用Docker快速部署:MinIO(对象存储)+ Spark + Iceberg
  • 导入一个真实数据集(可以用公司脱敏数据)
  • 跑通基本的写入和查询

Day 11-14:核心功能验证

  • 测试ACID事务:并发写入 + 回滚
  • 测试time travel:查询历史版本数据
  • 测试schema evolution:修改表结构不影响老数据
  • 测试批流一体:Spark批处理 + Flink流处理读同一张表

Day 15-21:性能对比

  • 找一个现有的批处理任务(比如每日汇总)
  • 用湖仓方案重写
  • 对比:执行时间、资源消耗、代码复杂度
  • 记录:什么场景有提升,什么场景没差别

Week 4:方案设计(输出价值)#

交付物:一份10页的架构演进方案

必须包含:

  1. 现状分析(2页)

    • 当前架构痛点(用数据说话)
    • 业务未来需求(不是自己想象,要和业务聊)
  2. 技术方案(3页)

    • 推荐的湖仓架构(画图)
    • 核心技术选型(说明为什么)
    • 和现有架构的对比(表格)
  3. 迁移路径(3页)

    • 分几个阶段,每个阶段做什么
    • 风险点和应对措施
    • 需要的资源和周期
  4. ROI分析(2页)

    • 成本节省:存储、计算、人力
    • 效率提升:开发效率、数据时效性
    • 业务价值:能支撑哪些新业务

最关键的是:用业务听得懂的语言,说明为什么要做这件事。

进阶:持续进化的三个习惯#

习惯1:每周读一篇架构文章

  • 推荐来源:Databricks博客、阿里云开发者社区、InfoQ架构专栏
  • 不是为了学技术细节,是为了看行业趋势
  • 每篇文章写3条takeaway

习惯2:每月做一次技术分享

  • 内部团队分享也行,外部meetup更好
  • 主题:你最近的实践和思考
  • 目的:逼自己系统总结,建立个人品牌

习惯3:每季度和3个业务方深聊

  • 不要只等需求来了才接触业务
  • 主动了解他们的痛点和未来规划
  • 思考:数据架构能为他们创造什么价值

关于35岁焦虑,我想说的#

张磊的故事有后续。

那次评审会之后,他没有选择逃避,而是主动找到CTO:“给我3个月时间,我重新设计一版方案。”

他做了什么?

  • 用2周时间,把Databricks、Iceberg、Delta Lake的文档全看了一遍
  • 用1个月时间,在自己电脑上搭了个测试环境,跑了50多个实验
  • 用2周时间,去字节、美团请教了4个做过湖仓的朋友
  • 用2周时间,重新设计方案,重点不是技术炫技,而是解决业务痛点
  • 最后1周,准备演讲,练习了20遍

3个月后的二次评审会,他的方案获得了全票通过。CTO当场说:“这才是P7该有的架构能力。”

6个月后,项目上线,实时性从4小时降到15分钟,成本节省42%。张磊也因此在年底晋升答辩中,成功升到P8。

他的经验只有一条:承认差距,快速学习,用结果说话。


36岁,在很多人眼里已经是职业生涯的下半场。但张磊告诉我:“我现在才觉得真正入门了。以前只会套用经验,现在才懂得思考本质。

8年经验,可能只是1年经验用了8次。也可能是在8年里不断进化,每年都在破圈。

关键不在年龄,而在于你是否还在成长。

技术会过时,框架会迭代,但架构思维和商业sense,会陪你走到退休。

湖仓一体只是一个技术趋势,下一个趋势可能是Data Fabric,或者AI-Native架构,或者我们现在想象不到的东西。

但如果你建立了”用商业价值倒推技术选型”的思维方式,掌握了”快速学习新技术”的方法论,培养了”跨部门沟通”的软技能…

那么,无论技术怎么变,你永远不会被淘汰。

写在最后#

凌晨两点,写完这篇文章。窗外的城市已经安静下来,只有零星的灯光还亮着。

我想起刚入行时,老师傅跟我说的一句话:“数据架构师的价值,不是建了多牛的系统,而是帮业务少走多少弯路。

当时不理解,现在懂了。

所有的架构设计,本质上都是在回答两个问题:

  1. 这个架构能为业务创造什么价值?
  2. 有没有更简单的方式达到同样效果?

如果你能回答清楚这两个问题,无论是湖仓一体,还是任何新技术,你都能快速判断该不该用,怎么用。

愿每个数据架构师,都能从”画图的”变成”创造价值的”。

愿我们的技术选型,不是为了炫技,而是为了真正解决问题。

愿35岁的你我,不是在焦虑中等待淘汰,而是在学习中持续进化。


架构的最高境界,是让复杂的技术变得简单,让简单的方案创造价值。

当所有大厂都在谈湖仓一体的时候,最聪明的人在思考:这个架构,到底能为我的业务创造多少价值?

答案对了,用什么技术都是对的。答案错了,再先进的技术也是错的。

当所有大厂都在搞湖仓一体,你还在画数据仓库的ER图?
https://blog.ss-data.cc/blog/data-lakehouse-architecture-upgrade
Author 石头
Published at 2025年10月10日
Comment seems to stuck. Try to refresh?✨