拾穗数据

Back

上个月,一个做了四年数据分析的朋友跟我吐槽:年初绩效面谈,领导说今年团队要”全面拥抱 AI”,让每个人都要有 AI 相关的产出。他问公司有没有培训计划,领导笑了笑说,“这个嘛,你们自己先学起来。”

他挂了电话,打开浏览器搜了一下”数据分析师学 AI”,看到的全是”7天精通大模型""AI 淘汰你只需要3个月”之类的标题。关掉浏览器,继续写 SQL。

我觉得他的反应特别正常。

一个尴尬的现实#

今年 3 月,HR Dive 的一份报告捅破了一层窗户纸:超过七成的企业在招聘和考核中开始要求 AI 相关技能,但真正投入预算做系统性培训的,不到三成。

翻译成人话就是:公司希望你会,但不打算教你。

这不是哪一家公司的问题,是整个行业的集体默契。原因也不复杂——技术变化太快,企业自己也没想清楚该培训什么。等它们想清楚了,黄花菜可能都凉了。

所以你面对的局面是:JD 上写着”熟悉大模型应用优先”,但没人告诉你这句话到底意味着什么。是要你能微调模型?还是会用 ChatGPT 写个总结就行?是要你搭 RAG 系统?还是知道 RAG 是什么缩写就够了?

模糊,是这件事最让人焦躁的地方。

问题不在”要不要学”,在”学什么才对”#

我见过不少数据同行,其实不是不想学,是真的不知道该从哪儿下手。

有人花两个月啃完了 Transformer 的论文,发现工作中完全用不上。有人跟着教程搭了个 chatbot demo,跑通了很开心,但不知道下一步该干嘛。还有人买了三个课程,每个听了两节,最后一个也没听完。

不是你不够努力,是方向不对。

数据从业者学 AI,和算法工程师学 AI 是两回事。算法工程师关心的是模型本身——架构、训练、推理优化。而数据分析师和数据工程师,关心的应该是另一个问题:AI 怎么跟我现有的工作连起来?

这个问题一旦想清楚,路径就没那么混乱了。

从你已经会的东西往外长#

我一直觉得,数据人学 AI 有一个天然优势,就是你已经有了”地基”。你懂 SQL,你理解数据怎么流转,你知道一个业务指标背后的口径是怎么定的。这些东西看起来平平无奇,但在 AI 落地的语境里,它们是稀缺能力。

为什么?因为大模型再聪明,它不知道你公司的数据仓库长什么样,不知道你的业务指标怎么算,更不知道哪张表的数据质量有坑。而你知道。

所以与其从零开始啃机器学习,不如从你的日常工作场景出发,看看 AI 能在哪些环节帮上忙。比方说:

向量数据库,是离你最近的第一步。 你每天都在和数据打交道,向量数据库本质上就是一种新的数据存储和检索方式——不是按关键词匹配,而是按语义相似度去查。pgvector 直接装在 PostgreSQL 里,如果你本来就用 PG,学习成本几乎为零。MilvusQdrant 适合更大规模的场景,Weaviate 在多模态上有优势。这不是什么遥远的新技术,就是数据基础设施的自然延伸。

MCP 协议,是数据工程师该重点关注的方向。 今年行业里一个重要变化是 Model Context Protocol 逐渐成为 AI 调用外部工具的标准协议。说白了,就是让大模型能直接查你的 SQL 数据库、调用你的 BI 系统。以前你写接口对接一个新工具要折腾半天,现在有了统一标准。数据工程师天然适合做这件事——你本来就是修路的人,现在路的规格变了而已。

Embedding 工程,是最容易被低估的技能。 很多人觉得 Embedding 就是”把文本变成向量”,五分钟就理解了。但真到生产环境里,选什么模型、怎么评估中文效果、检索精度和召回率怎么平衡,每一步都是学问。这个领域现在特别缺有工程经验的人,因为学术界关心的是 benchmark 分数,但生产环境关心的是:这个方案上线后,用户能不能找到他想要的东西。

进阶的路,也不是看不见#

把基础打下来之后,再往前走就清晰多了。

RAG 正在快速进化。 最早的 RAG 就是”检索 + 生成”,简单粗暴。但现在已经发展出 Self-RAG(模型自己判断要不要检索)、Corrective RAG(检索结果不靠谱时自动纠偏)、Graph RAG(用知识图谱增强检索)这些新架构。如果你在公司负责内部知识库、客服系统或者搜索模块,这些东西直接就能用上。

LLMOps 是大模型上线之后的必修课。 模型部署了就完事了吗?远没有。成本怎么控?效果怎么监控?幻觉怎么检测?Token 消耗怎么优化?这些问题,做过数据 pipeline 运维的人一点都不陌生——换个对象而已。

AI Agent 框架也值得了解。 LangGraphCrewAIAutoGen 各有各的适用场景,不用全学,但得知道它们在解决什么问题。简单说就是:让 AI 不止是回答问题,而是能拆解任务、调用工具、自主完成一整套工作流。数据团队里,自动化报表生成异常监控告警数据质量检查,都是 Agent 能落地的场景。

至于 DatabricksSnowflakeBigQuery 这些平台,今年一个明显趋势是它们都在往 AI 原生方向整合。如果你本来就在用其中某个平台,留心看看它们新出的 AI 功能,可能比你另起炉灶学一个新工具要实际得多。

别等路修好了再出发#

说到底,我想讲的道理其实很朴素:别等公司来教你,也别等市面上出现一个”完美的学习路径”。

技术在变化的时候,没有谁手里的地图是完整的。但你不需要地图完整才能出发。有几年数据经验的人,其实你已经在路上了——你缺的不是从头来过的勇气,而是一个从已有技能往外延伸的方向感。

向量数据库EmbeddingMCPRAGLLMOps——这些名词听起来多,但拆开来看,每一个都有你熟悉的影子。存储和检索,你做过。数据管道,你搭过。系统监控和运维,你也不陌生。AI 没有发明新的底层逻辑,它只是在你已有的地基上加了一层新楼。

关键是现在就动手,哪怕每周花几个小时,从一个具体的技术点开始,做个小项目,跑通一个 demo。三个月后回头看,你会发现自己已经比大多数”打算学”的人走远了。

最后说一句。上面提到的这几个方向——向量数据库MCPEmbeddingRAGLLMOps——知识库里刚刚做了一轮系统性补充。

这次更新的核心是向量数据库专题,四个主流产品全部从入门到生产走完:Milvus(架构解析 + 索引选型 + RAG 集成)、Qdrant(Payload 过滤 + 量化配置)、pgvector(SQL 向量查询 + ivfflat/hnsw 调优)、Weaviate(Cross-references + 多模态检索)。四套系列,合计 40+ 篇,全部在库里。

不是论文翻译,不是概念堆砌。是我自己用过之后,发现知识库里没有可以参考的东西,才补进去的。

「小穗」助手已经接入全部文档,有具体问题可以直接问它。如果你想系统梳理这次更新了什么,可以点击阅读原文查看完整更新公告。


石头 | 拾穗数据

公司说要 AI 技能,却不给培训——数据人的自救路径
https://blog.ss-data.cc/blog/ai-survival
Author 石头
Published at 2026年3月13日
Comment seems to stuck. Try to refresh?✨