公司说要 AI 技能，却不给培训——数据人的自救路径 • 拾穗数据随想

上个月，一个做了四年数据分析的朋友跟我吐槽：年初绩效面谈，领导说今年团队要”全面拥抱 AI”，让每个人都要有 AI 相关的产出。他问公司有没有培训计划，领导笑了笑说，“这个嘛，你们自己先学起来。”

他挂了电话，打开浏览器搜了一下”数据分析师学 AI”，看到的全是”7天精通大模型""AI 淘汰你只需要3个月”之类的标题。关掉浏览器，继续写 SQL。

我觉得他的反应特别正常。

一个尴尬的现实#

今年 3 月，HR Dive 的一份报告捅破了一层窗户纸：超过七成的企业在招聘和考核中开始要求 AI 相关技能，但真正投入预算做系统性培训的，不到三成。

翻译成人话就是：公司希望你会，但不打算教你。

这不是哪一家公司的问题，是整个行业的集体默契。原因也不复杂——技术变化太快，企业自己也没想清楚该培训什么。等它们想清楚了，黄花菜可能都凉了。

所以你面对的局面是：JD 上写着”熟悉大模型应用优先”，但没人告诉你这句话到底意味着什么。是要你能微调模型？还是会用 ChatGPT 写个总结就行？是要你搭 RAG 系统？还是知道 RAG 是什么缩写就够了？

模糊，是这件事最让人焦躁的地方。

问题不在”要不要学”，在”学什么才对”#

我见过不少数据同行，其实不是不想学，是真的不知道该从哪儿下手。

有人花两个月啃完了 Transformer 的论文，发现工作中完全用不上。有人跟着教程搭了个 chatbot demo，跑通了很开心，但不知道下一步该干嘛。还有人买了三个课程，每个听了两节，最后一个也没听完。

不是你不够努力，是方向不对。

数据从业者学 AI，和算法工程师学 AI 是两回事。算法工程师关心的是模型本身——架构、训练、推理优化。而数据分析师和数据工程师，关心的应该是另一个问题：AI 怎么跟我现有的工作连起来？

这个问题一旦想清楚，路径就没那么混乱了。

从你已经会的东西往外长#

我一直觉得，数据人学 AI 有一个天然优势，就是你已经有了”地基”。你懂 SQL，你理解数据怎么流转，你知道一个业务指标背后的口径是怎么定的。这些东西看起来平平无奇，但在 AI 落地的语境里，它们是稀缺能力。

为什么？因为大模型再聪明，它不知道你公司的数据仓库长什么样，不知道你的业务指标怎么算，更不知道哪张表的数据质量有坑。而你知道。

所以与其从零开始啃机器学习，不如从你的日常工作场景出发，看看 AI 能在哪些环节帮上忙。比方说：

向量数据库，是离你最近的第一步。 你每天都在和数据打交道，向量数据库本质上就是一种新的数据存储和检索方式——不是按关键词匹配，而是按语义相似度去查。pgvector 直接装在 PostgreSQL 里，如果你本来就用 PG，学习成本几乎为零。Milvus、Qdrant 适合更大规模的场景，Weaviate 在多模态上有优势。这不是什么遥远的新技术，就是数据基础设施的自然延伸。

MCP 协议，是数据工程师该重点关注的方向。 今年行业里一个重要变化是 Model Context Protocol 逐渐成为 AI 调用外部工具的标准协议。说白了，就是让大模型能直接查你的 SQL 数据库、调用你的 BI 系统。以前你写接口对接一个新工具要折腾半天，现在有了统一标准。数据工程师天然适合做这件事——你本来就是修路的人，现在路的规格变了而已。

Embedding 工程，是最容易被低估的技能。 很多人觉得 Embedding 就是”把文本变成向量”，五分钟就理解了。但真到生产环境里，选什么模型、怎么评估中文效果、检索精度和召回率怎么平衡，每一步都是学问。这个领域现在特别缺有工程经验的人，因为学术界关心的是 benchmark 分数，但生产环境关心的是：这个方案上线后，用户能不能找到他想要的东西。

进阶的路，也不是看不见#

把基础打下来之后，再往前走就清晰多了。

RAG 正在快速进化。最早的 RAG 就是”检索 + 生成”，简单粗暴。但现在已经发展出 Self-RAG（模型自己判断要不要检索）、Corrective RAG（检索结果不靠谱时自动纠偏）、Graph RAG（用知识图谱增强检索）这些新架构。如果你在公司负责内部知识库、客服系统或者搜索模块，这些东西直接就能用上。

LLMOps 是大模型上线之后的必修课。模型部署了就完事了吗？远没有。成本怎么控？效果怎么监控？幻觉怎么检测？Token 消耗怎么优化？这些问题，做过数据 pipeline 运维的人一点都不陌生——换个对象而已。

AI Agent 框架也值得了解。 LangGraph、CrewAI、AutoGen 各有各的适用场景，不用全学，但得知道它们在解决什么问题。简单说就是：让 AI 不止是回答问题，而是能拆解任务、调用工具、自主完成一整套工作流。数据团队里，自动化报表生成、异常监控告警、数据质量检查，都是 Agent 能落地的场景。

至于 Databricks、Snowflake、BigQuery 这些平台，今年一个明显趋势是它们都在往 AI 原生方向整合。如果你本来就在用其中某个平台，留心看看它们新出的 AI 功能，可能比你另起炉灶学一个新工具要实际得多。

别等路修好了再出发#

说到底，我想讲的道理其实很朴素：别等公司来教你，也别等市面上出现一个”完美的学习路径”。

技术在变化的时候，没有谁手里的地图是完整的。但你不需要地图完整才能出发。有几年数据经验的人，其实你已经在路上了——你缺的不是从头来过的勇气，而是一个从已有技能往外延伸的方向感。

向量数据库、Embedding、MCP、RAG、LLMOps——这些名词听起来多，但拆开来看，每一个都有你熟悉的影子。存储和检索，你做过。数据管道，你搭过。系统监控和运维，你也不陌生。AI 没有发明新的底层逻辑，它只是在你已有的地基上加了一层新楼。

关键是现在就动手，哪怕每周花几个小时，从一个具体的技术点开始，做个小项目，跑通一个 demo。三个月后回头看，你会发现自己已经比大多数”打算学”的人走远了。

最后说一句。上面提到的这几个方向——向量数据库、MCP、Embedding、RAG、LLMOps——知识库里刚刚做了一轮系统性补充。

这次更新的核心是向量数据库专题，四个主流产品全部从入门到生产走完：Milvus（架构解析 + 索引选型 + RAG 集成）、Qdrant（Payload 过滤 + 量化配置）、pgvector（SQL 向量查询 + ivfflat/hnsw 调优）、Weaviate（Cross-references + 多模态检索）。四套系列，合计 40+ 篇，全部在库里。

不是论文翻译，不是概念堆砌。是我自己用过之后，发现知识库里没有可以参考的东西，才补进去的。

「小穗」助手已经接入全部文档，有具体问题可以直接问它。如果你想系统梳理这次更新了什么，可以点击阅读原文查看完整更新公告。

石头 | 拾穗数据