拾穗数据

Back

上一篇文章发出去之后,有个读者留言说:道理我都懂,地基要打好。但问题是,我们公司的数据系统已经跑了七八年了,中间换过三拨人,现在连”地基在哪”都说不清了。

这条留言让我想多说几句。

因为他说的不是个例。这几乎是我见过的所有中型以上公司的常态。

我想请你试着回答一个问题:你公司的某条业务数据——比如”昨天的订单转化率”——从最初被埋点采集,到最终出现在老板看的报表上,中间经过了几道手?经过了哪些系统?被谁处理过?在哪一步被聚合、被过滤、被重新定义过?

大多数人答不上来。

不是因为他们不称职。而是这个系统,真的已经复杂到没有任何一个人能从头到尾讲清楚了。

这件事是怎么发生的?不是一夜之间,而是十几年来,我们每”解决”一个问题,就往系统上加了一层。层层叠叠,加到今天,系统本身成了最大的问题。


每一层,当初都是来”救命”的#

我们先倒回去看看这些层是怎么来的。

最早的时候,没什么数据系统。业务数据就在生产数据库里。需要出个报表?写条 SQL 直接查。简单粗暴,但够用。

后来数据量大了,直接查生产库扛不住。于是有人说:我们把数据抽出来,放到一个专门做分析的地方吧。这就是数据仓库的由来。配套地,还需要一套搬运数据的工具——ETL,把数据从这边抽出来、洗干净、装到那边去。

这一层解决了”分析不能影响生产”的问题。合理。

再后来,业务越来越多样,数据格式五花八门——有结构化的表格,有半结构化的日志,有非结构化的文本和图片。传统数据仓库装不下这些东西了。于是数据湖出现了:别管什么格式,先都扔进来再说。

这一层解决了”数据类型太杂收不进来”的问题。也合理。

但数据湖很快有了自己的问题:什么都往里扔,扔着扔着就成了数据沼泽——进去的东西再也找不到了。于是又有人搞出了 Lakehouse,试图把数据湖的灵活和数据仓库的规范结合起来。

再往上走。业务部门说:我也不懂什么仓库不仓库的,我就想知道”月活用户”到底是怎么算的,你们技术这边三个团队给我三个数字。于是语义层(Semantic Layer)出现了,试图统一业务指标的定义。

每一层都有道理。每一层都是在解决上一层解决不了的问题。

但每一层加进来,都带来了三个副作用。

第一,多了一批新工具。新的系统、新的配置、新的维护。

第二,多了一批只懂这一层的人。搞 ETL 的不太懂数据仓库的建模逻辑,搞仓库的不太懂数据湖那边的存储策略,搞语义层的不太懂底下数据是怎么流上来的。每个人都是自己那层的专家,但没人是整条链路的专家。

第三,层与层之间的”接缝”成了最危险的地方。数据在这些接缝里被转换、被重定义、被悄悄改变了含义。而这些变化,往往没有文档记录。

十几年下来,你面前的不再是一个系统,而是一摞系统。像一栋不断加盖的楼——一楼是砖混的,二楼是钢结构的,三楼是木头搭的,四楼不知道谁加的,用的材料谁也说不清。每一层单独看都挺结实,但整栋楼?没有一张完整的图纸。


AI 不只是又一层,它是一层全新品种的东西#

现在,AI 工具来了。

很多人把 AI 理解成”上层应用”——就是在已有的数据系统上面,加一个更聪明的查询工具。你用自然语言问它问题,它帮你写 SQL、帮你做分析、帮你出结论。

这个理解没错,但不完整。

AI 工具不只是用数据的工具。它本身就是对数据的一层新的抽象。

什么意思?

传统的每一层——ETL、数据仓库、数据湖、语义层——虽然复杂,但它们的处理逻辑是确定性的。一条 SQL 写在那里,你看得懂它在做什么。一个 ETL 脚本跑了什么转换,你打开代码能看到。一个指标的定义写在语义层的配置文件里,你去查就能查到。

AI 这一层不一样。

当你让一个大语言模型去”分析销售数据并给出建议”,它做了什么?它读了哪些数据?它怎么理解这些字段的?它为什么得出这个结论而不是那个?它有没有忽略某些异常值?它的”推理过程”是什么?

你不知道。

不是因为技术还不够成熟。而是这类模型的工作方式本身就决定了,它的推理过程是不可完全审计的。你给它输入,它给你输出。中间那个黑盒,是真的黑。

这让 AI 成为了数据系统历史上最特殊的一层:它是第一层连创造它的人都无法完全解释其行为的工具。

以前的每一层,至少在理论上是可以被完全理解的。你花够多的时间,看够多的代码和文档,你能弄清楚数据在这一层发生了什么。AI 这一层,你花再多时间,可能也做不到。


当黑盒叠在黑盒上面#

你可能会说:也没那么严重吧?AI 工具不就是个辅助嘛,最后还是人在做决策。

我也希望是这样。但实际情况正在往另一个方向走。

我见过一个团队,用 AI 工具自动生成每周的业务分析报告。老板看了觉得不错,分析有理有据,结论清晰。于是慢慢地,人工审核的环节就省掉了——反正 AI 写得比人还好,何必多此一举?

直到有一次,报告里的一个关键指标明显偏离了业务直觉。回头去查,发现是上游某个数据源的口径悄悄变了——一个字段的计算方式被调整了,但没有人通知下游。AI 工具照样读了这个数据,照样做了分析,照样给出了一个看起来很合理的结论。

如果是人来做这个分析,有可能会在取数的时候发现不对。但 AI 不会”觉得不对”。它没有业务直觉。它只是在你给它的数据上做计算,然后用流畅的语言包装成一个看起来可信的答案。

这就是黑盒叠在黑盒上的后果。

底层数据的问题,被中间若干层的转换掩盖了。AI 作为最上面的一层,又用它强大的表达能力把问题进一步包装了。最后呈现给决策者的,是一个光鲜亮丽的结论——但地基里的裂缝,一层都没有被修复。

更麻烦的是问责。

出了问题,你去查。先查 AI 的输出——它只是基于输入做推理,没毛病。再查语义层的指标定义——定义是对的。再查数据仓库的模型——模型也没问题。一路查到 ETL 脚本,再查到数据源,最后发现是三个月前某个上游系统的一次”小调整”引发的。

这条排查链路,跨越五六层系统,涉及三四个团队,可能要花一两周。而在这一两周里,基于错误数据做出的决策已经产生了后果。

层数越多,排查越难。而 AI 这一层的加入,让排查难度不是线性增长,而是指数级增长——因为你甚至无法确定 AI 在这一步”做了什么”。


这不是”别用 AI”的意思#

写到这里,我需要停一下,说清楚一件事。

我不是在说不该用 AI。这不是一篇反技术的文章。

每一层技术被加进来,都是因为真实的需求。ETL 是需要的,数据仓库是需要的,数据湖是需要的,AI 工具也是需要的。技术的演进没有错。

错的是加层的方式。

具体来说,是我们在加每一层的时候,很少有人停下来问:这一层和下面那层的接缝,谁来负责?数据在穿过这个接缝的时候,含义有没有变?变了的话,这个变化有没有被记录下来、被理解、被持续维护?

大多数时候,没有人问这些问题。因为项目有 deadline,需求在排队,老板要结果。先加上去再说,跑通了就行。

于是接缝越来越多,理解接缝的人越来越少。每一层的专家都在,但通晓层与层之间关系的人——那种能从数据源一路讲到最终报表、知道每一步发生了什么的人——几乎绝迹了。

AI 工具的加入让这个问题变得更加紧迫,原因很简单:它是第一层自己也说不清自己在做什么的工具。以前的层好歹是透明的,你愿意花时间就能搞懂。AI 这一层,你必须从外部去验证它的输出,因为你无法从内部理解它的过程。

这意味着,那个”通晓全局的人”现在不只需要理解传统的数据链路,还需要理解 AI 这一层的特性——它能做什么,不能做什么,在什么情况下可能出错,出了错怎么发现。


数据从业者存在的真正意义#

这几年,“数据从业者会不会被 AI 取代”的讨论一直没停过。

我的判断是:搬数据的会被取代,但看透层与层之间连接的人不会。

事实上,后者会变得比任何时候都重要。

因为系统在变得越来越复杂,层在变得越来越多,而 AI 的加入让最上面那层变成了黑盒。这个时候,组织里最需要的,是有人能够做那个”翻译官”——不是翻译语言,而是翻译层与层之间的逻辑关系。

这条数据从哪来?经过了几次转换?每次转换改变了什么?最终呈现的数字和最初的原始数据之间,有多大的距离?这个距离里藏了多少假设、多少近似、多少可能出错的地方?

能回答这些问题的人,就是这个系统里最不可替代的人。

这不是一个很炫酷的角色。不像写 AI 应用那么时髦,不像搞大模型那么热门。但它是真正决定一个组织能不能信任自己数据的关键角色。

一个没有人看透的系统,产出的任何结论都是可疑的。


地基之上,层叠之间#

上一篇我说,地基打好了,什么工具放上去都能跑。

这一篇想补一句:光有好地基还不够。你还得知道地基上面垒了多少层,每一层是什么,层和层之间是怎么咬合的。

这才是当前数据系统的真实困境——不是哪一层有问题,而是层数太多、接缝太密,没有人再看得清全貌。AI 工具在这个节点上出现,加速了这个过程。它让系统变得更强大,也让系统变得更不透明。

悲观地说,这个趋势不会逆转。技术只会越来越复杂,层只会越来越多。

但换个角度看,这恰恰说明了一件事:在所有人都在追新工具、新模型、新概念的时候,那个愿意沉下心去理解”层与层之间到底发生了什么”的人,反而拥有了最稀缺的能力。

不是最新的能力。是最稀缺的。

这两个词的区别,值得想一想。


石头 拾穗数据

你公司的数据系统,已经没有人能完全看懂了
https://blog.ss-data.cc/blog/data-system-layering-misunderstood
Author 石头
Published at 2026年3月8日
Comment seems to stuck. Try to refresh?✨