- 工作内容:解决跟语言相关的具体任务,比如:
- 让机器看懂文字:分词(把 “我爱北京天安门” 拆成 “我 / 爱 / 北京 / 天安门”)、命名实体识别(找出 “张三” 是人名);
- 让机器分析情绪:判断一条评论是 “好评” 还是 “差评”;
- 让机器翻译句子:把中文 “你好” 翻译成英文 “Hello”。
- 核心技能:更擅长 “小而精” 的算法,比如传统 NLP 模型(LSTM、BiLSTM)、小模型微调,不太碰超大规模的模型(比如参数量低于 10 亿的模型)。
- 类比:好比 “开飞机”,知道怎么操控特定的工具(NLP 算法)完成具体任务,但不用关心飞机的发动机怎么造。
- 工作内容:处理参数量上亿甚至万亿的大模型(比如 GPT-4、LLaMA),工作范围更广:
- 训练大模型:用海量数据(比如几十亿条文本)让模型 “变聪明”;
- 优化大模型:让模型跑得更快、更省内存(比如原本需要 100 块 GPU,优化后只用 50 块);
- 让大模型落地:比如把 GPT-4 接入企业客服系统,让它能回答用户问题。
- 核心技能:必须懂分布式训练(多台电脑一起训练模型)、大模型架构(比如 Transformer),还要会处理 TB 级数据。
- 类比:好比 “造火箭”,不仅要懂发动机(模型架构),还要懂燃料(训练数据)、发射流程(模型部署),目标是让整个系统跑起来。
- NLP 工程师:解决 “怎么让机器懂人话” 的具体问题;
- 大模型工程师:解决 “怎么造一个超级智能的语言机器,并让它干活” 的问题。
- 日常工作:
- 用海量数据(比如网页、书籍、聊天记录)训练大模型,就像用各种食材炒菜;
- 调整训练参数(比如学习率、batch size),让模型 “学得更快更准”,比如同样的食材,调整火候让菜更好吃;
- 处理训练中的问题:比如模型 “过拟合”(学傻了,只会背答案),需要调整数据或参数。
- 核心技能:
- 精通深度学习框架(PyTorch/TensorFlow),懂分布式训练(用 1000 台电脑一起训练);
- 数学好(懂梯度下降、反向传播),能看懂大模型论文(比如 GPT 系列论文)。
- 适合人群:喜欢研究底层算法,能坐得住调参的人。
- 日常工作:
- 优化模型运行速度:比如原本模型回答一个问题要 10 秒,优化到 1 秒;
- 减少模型占用的内存:比如把 100GB 的模型压缩到 10GB,让普通电脑也能跑;
- 部署模型到不同设备:比如把模型部署到手机、服务器、机器人上。
- 核心技能:
- 懂模型量化(把高精度数字变成低精度,比如 float32→float16)、剪枝(去掉模型里没用的 “零件”);
- 熟悉推理框架(TensorRT、ONNX Runtime),会写 C++/CUDA 代码优化速度。
- 适合人群:喜欢跟硬件、性能打交道,追求 “用最少资源办最大事” 的人。
- 日常工作:
- 把大模型接入具体业务场景:比如用大模型做智能客服、写营销文案、分析合同;
- 设计 “大模型 + 外部工具” 的方案:比如让模型查数据库、调 API(比如查天气、订机票);
- 优化用户交互:比如设计聊天机器人的对话流程,让用户感觉更自然。
- 核心技能:
- 懂 LangChain、LlamaIndex 等工具,会搭 RAG 系统(让模型结合企业知识库);
- 熟悉业务场景,能把 “用户需求” 翻译成 “模型能做的事”(比如 “智能客服” 需要模型理解问题 + 查历史对话记录)。
- 适合人群:喜欢跨界,既懂点技术又懂业务,擅长 “让技术落地” 的人。
- 日常工作:
- 用特定领域的数据(比如医疗数据、法律数据)调整通用大模型,让它更专业;
- 比如用 10 万条医疗问答数据微调 GPT-4,让它能回答患者的简单提问;
- 优化 prompt(提示词):比如设计一个 prompt,让模型写代码时更规范。
- 核心技能:
- 懂 LoRA、PEFT 等微调技术(用少量数据就能调大模型,省算力);
- 熟悉特定领域的知识(比如医疗术语、法律条文),知道怎么准备高质量的微调数据。
- 适合人群:对某个行业(如医疗、金融)有了解,想让模型 “术业有专攻” 的人。
- 日常工作:
- 收集和清洗大模型训练数据:比如从网页爬取文本后,去掉广告、重复内容、脏话;
- 构建高质量数据集:比如把医疗文档整理成 “问题 - 答案” 对,给微调工程师用;
- 管理数据流程:比如设计一个管道,让每天新产生的业务数据自动进入模型训练系统。
- 核心技能:
- 精通 Python 数据处理(Pandas、Spark),懂 ETL(提取 - 转换 - 加载);
- 懂数据标注流程(比如找外包团队标注 10 万张图片,教模型识别物体)。
- 适合人群:有大数据开发经验(比如 Hadoop/Spark),喜欢跟数据打交道的人(之前用户问过大数据转大模型,这岗位很适合切入)。
- 如果你数学好、喜欢算法:选训练工程师,挑战大模型底层优化;
- 如果你擅长编程、懂硬件:选推理工程师,优化模型性能很有成就感;
- 如果你懂业务、喜欢搭系统:选应用工程师,容易看到落地成果;
- 如果你有行业经验(如医疗、法律):选微调工程师,用领域知识让模型增值;
- 如果你有大数据经验:选数据工程师,先从处理训练数据切入,再慢慢学模型知识。
大模型领域还在快速变化,岗位分工可能越来越细,但核心就是这几类,选一个方向深耕即可!