你公司的数据系统，已经没有人能完全看懂了 • 拾穗数据随想

上一篇文章发出去之后，有个读者留言说：道理我都懂，地基要打好。但问题是，我们公司的数据系统已经跑了七八年了，中间换过三拨人，现在连”地基在哪”都说不清了。

这条留言让我想多说几句。

因为他说的不是个例。这几乎是我见过的所有中型以上公司的常态。

我想请你试着回答一个问题：你公司的某条业务数据——比如”昨天的订单转化率”——从最初被埋点采集，到最终出现在老板看的报表上，中间经过了几道手？经过了哪些系统？被谁处理过？在哪一步被聚合、被过滤、被重新定义过？

大多数人答不上来。

不是因为他们不称职。而是这个系统，真的已经复杂到没有任何一个人能从头到尾讲清楚了。

这件事是怎么发生的？不是一夜之间，而是十几年来，我们每”解决”一个问题，就往系统上加了一层。层层叠叠，加到今天，系统本身成了最大的问题。

每一层，当初都是来”救命”的#

我们先倒回去看看这些层是怎么来的。

最早的时候，没什么数据系统。业务数据就在生产数据库里。需要出个报表？写条 SQL 直接查。简单粗暴，但够用。

后来数据量大了，直接查生产库扛不住。于是有人说：我们把数据抽出来，放到一个专门做分析的地方吧。这就是数据仓库的由来。配套地，还需要一套搬运数据的工具——ETL，把数据从这边抽出来、洗干净、装到那边去。

这一层解决了”分析不能影响生产”的问题。合理。

再后来，业务越来越多样，数据格式五花八门——有结构化的表格，有半结构化的日志，有非结构化的文本和图片。传统数据仓库装不下这些东西了。于是数据湖出现了：别管什么格式，先都扔进来再说。

这一层解决了”数据类型太杂收不进来”的问题。也合理。

但数据湖很快有了自己的问题：什么都往里扔，扔着扔着就成了数据沼泽——进去的东西再也找不到了。于是又有人搞出了 Lakehouse，试图把数据湖的灵活和数据仓库的规范结合起来。

再往上走。业务部门说：我也不懂什么仓库不仓库的，我就想知道”月活用户”到底是怎么算的，你们技术这边三个团队给我三个数字。于是语义层（Semantic Layer）出现了，试图统一业务指标的定义。

每一层都有道理。每一层都是在解决上一层解决不了的问题。

但每一层加进来，都带来了三个副作用。

第一，多了一批新工具。新的系统、新的配置、新的维护。

第二，多了一批只懂这一层的人。搞 ETL 的不太懂数据仓库的建模逻辑，搞仓库的不太懂数据湖那边的存储策略，搞语义层的不太懂底下数据是怎么流上来的。每个人都是自己那层的专家，但没人是整条链路的专家。

第三，层与层之间的”接缝”成了最危险的地方。数据在这些接缝里被转换、被重定义、被悄悄改变了含义。而这些变化，往往没有文档记录。

十几年下来，你面前的不再是一个系统，而是一摞系统。像一栋不断加盖的楼——一楼是砖混的，二楼是钢结构的，三楼是木头搭的，四楼不知道谁加的，用的材料谁也说不清。每一层单独看都挺结实，但整栋楼？没有一张完整的图纸。

AI 不只是又一层，它是一层全新品种的东西#

现在，AI 工具来了。

很多人把 AI 理解成”上层应用”——就是在已有的数据系统上面，加一个更聪明的查询工具。你用自然语言问它问题，它帮你写 SQL、帮你做分析、帮你出结论。

这个理解没错，但不完整。

AI 工具不只是用数据的工具。它本身就是对数据的一层新的抽象。

什么意思？

传统的每一层——ETL、数据仓库、数据湖、语义层——虽然复杂，但它们的处理逻辑是确定性的。一条 SQL 写在那里，你看得懂它在做什么。一个 ETL 脚本跑了什么转换，你打开代码能看到。一个指标的定义写在语义层的配置文件里，你去查就能查到。

AI 这一层不一样。

当你让一个大语言模型去”分析销售数据并给出建议”，它做了什么？它读了哪些数据？它怎么理解这些字段的？它为什么得出这个结论而不是那个？它有没有忽略某些异常值？它的”推理过程”是什么？

你不知道。

不是因为技术还不够成熟。而是这类模型的工作方式本身就决定了，它的推理过程是不可完全审计的。你给它输入，它给你输出。中间那个黑盒，是真的黑。

这让 AI 成为了数据系统历史上最特殊的一层：它是第一层连创造它的人都无法完全解释其行为的工具。

以前的每一层，至少在理论上是可以被完全理解的。你花够多的时间，看够多的代码和文档，你能弄清楚数据在这一层发生了什么。AI 这一层，你花再多时间，可能也做不到。

当黑盒叠在黑盒上面#

你可能会说：也没那么严重吧？AI 工具不就是个辅助嘛，最后还是人在做决策。

我也希望是这样。但实际情况正在往另一个方向走。

我见过一个团队，用 AI 工具自动生成每周的业务分析报告。老板看了觉得不错，分析有理有据，结论清晰。于是慢慢地，人工审核的环节就省掉了——反正 AI 写得比人还好，何必多此一举？

直到有一次，报告里的一个关键指标明显偏离了业务直觉。回头去查，发现是上游某个数据源的口径悄悄变了——一个字段的计算方式被调整了，但没有人通知下游。AI 工具照样读了这个数据，照样做了分析，照样给出了一个看起来很合理的结论。

如果是人来做这个分析，有可能会在取数的时候发现不对。但 AI 不会”觉得不对”。它没有业务直觉。它只是在你给它的数据上做计算，然后用流畅的语言包装成一个看起来可信的答案。

这就是黑盒叠在黑盒上的后果。

底层数据的问题，被中间若干层的转换掩盖了。AI 作为最上面的一层，又用它强大的表达能力把问题进一步包装了。最后呈现给决策者的，是一个光鲜亮丽的结论——但地基里的裂缝，一层都没有被修复。

更麻烦的是问责。

出了问题，你去查。先查 AI 的输出——它只是基于输入做推理，没毛病。再查语义层的指标定义——定义是对的。再查数据仓库的模型——模型也没问题。一路查到 ETL 脚本，再查到数据源，最后发现是三个月前某个上游系统的一次”小调整”引发的。

这条排查链路，跨越五六层系统，涉及三四个团队，可能要花一两周。而在这一两周里，基于错误数据做出的决策已经产生了后果。

层数越多，排查越难。而 AI 这一层的加入，让排查难度不是线性增长，而是指数级增长——因为你甚至无法确定 AI 在这一步”做了什么”。

这不是”别用 AI”的意思#

写到这里，我需要停一下，说清楚一件事。

我不是在说不该用 AI。这不是一篇反技术的文章。

每一层技术被加进来，都是因为真实的需求。ETL 是需要的，数据仓库是需要的，数据湖是需要的，AI 工具也是需要的。技术的演进没有错。

错的是加层的方式。

具体来说，是我们在加每一层的时候，很少有人停下来问：这一层和下面那层的接缝，谁来负责？数据在穿过这个接缝的时候，含义有没有变？变了的话，这个变化有没有被记录下来、被理解、被持续维护？

大多数时候，没有人问这些问题。因为项目有 deadline，需求在排队，老板要结果。先加上去再说，跑通了就行。

于是接缝越来越多，理解接缝的人越来越少。每一层的专家都在，但通晓层与层之间关系的人——那种能从数据源一路讲到最终报表、知道每一步发生了什么的人——几乎绝迹了。

AI 工具的加入让这个问题变得更加紧迫，原因很简单：它是第一层自己也说不清自己在做什么的工具。以前的层好歹是透明的，你愿意花时间就能搞懂。AI 这一层，你必须从外部去验证它的输出，因为你无法从内部理解它的过程。

这意味着，那个”通晓全局的人”现在不只需要理解传统的数据链路，还需要理解 AI 这一层的特性——它能做什么，不能做什么，在什么情况下可能出错，出了错怎么发现。

数据从业者存在的真正意义#

这几年，“数据从业者会不会被 AI 取代”的讨论一直没停过。

我的判断是：搬数据的会被取代，但看透层与层之间连接的人不会。

事实上，后者会变得比任何时候都重要。

因为系统在变得越来越复杂，层在变得越来越多，而 AI 的加入让最上面那层变成了黑盒。这个时候，组织里最需要的，是有人能够做那个”翻译官”——不是翻译语言，而是翻译层与层之间的逻辑关系。

这条数据从哪来？经过了几次转换？每次转换改变了什么？最终呈现的数字和最初的原始数据之间，有多大的距离？这个距离里藏了多少假设、多少近似、多少可能出错的地方？

能回答这些问题的人，就是这个系统里最不可替代的人。

这不是一个很炫酷的角色。不像写 AI 应用那么时髦，不像搞大模型那么热门。但它是真正决定一个组织能不能信任自己数据的关键角色。

一个没有人看透的系统，产出的任何结论都是可疑的。

地基之上，层叠之间#

上一篇我说，地基打好了，什么工具放上去都能跑。

这一篇想补一句：光有好地基还不够。你还得知道地基上面垒了多少层，每一层是什么，层和层之间是怎么咬合的。

这才是当前数据系统的真实困境——不是哪一层有问题，而是层数太多、接缝太密，没有人再看得清全貌。AI 工具在这个节点上出现，加速了这个过程。它让系统变得更强大，也让系统变得更不透明。

悲观地说，这个趋势不会逆转。技术只会越来越复杂，层只会越来越多。

但换个角度看，这恰恰说明了一件事：在所有人都在追新工具、新模型、新概念的时候，那个愿意沉下心去理解”层与层之间到底发生了什么”的人，反而拥有了最稀缺的能力。

不是最新的能力。是最稀缺的。

这两个词的区别，值得想一想。

石头 拾穗数据