【NLP算法面经】本科双非，头条+腾讯 NLP 详细面经（★附面题整理★）

【NLP算法面经】本科双非，头条+腾讯 NLP 详细面经（★附面题整理★）

🌟 嗨，你好，我是青松！

🌈 自小刺头深草里，而今渐觉出蓬蒿。

NLP Github 项目推荐：

【AI 藏经阁】：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
【AI 算法面经】：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
【大模型（LLMs）面试笔记】：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题，适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间，不错过金三银四涨薪窗口，迅速收获心仪的Offer 🎉🎉🎉

文章目录

- 写在前面
- 字节跳动
- - - 1面: 60分钟
    - 2面: 60分钟
    - 3面：20分钟
    - HR面: 20分钟
- 腾讯：校招日常实习
- - - 1面: 25分钟
    - 2面：60分钟+8小时下来做题。。。
    - 3面,GM面：30分钟
    - HR面
- 随便唠唠
大模型（LLMs）高频面题全面整理（🌟2025 Offer 必备🌟）
- 一、大模型进阶面
- - [💯 DeepSeek篇](https://t.zsxq.com/YmHO4)
  - [💯 大模型编辑篇](https://t.zsxq.com/YmHO4)
  - [💯 大模型压缩篇](https://t.zsxq.com/YmHO4)
  - [💯 分布式训练篇](https://t.zsxq.com/YmHO4)
- 二、大模型微调面
- - [💯 有监督微调（SFT）篇](https://t.zsxq.com/YmHO4)
  - [💯 高效微调篇](https://t.zsxq.com/YmHO4)
  - [💯 提示学习篇](https://t.zsxq.com/YmHO4)
  - [💯 人类对齐训练（RLHF）篇](https://t.zsxq.com/YmHO4)
  - [💯 Prompt 工程篇](https://t.zsxq.com/YmHO4)
- 三、大模型（LLMs）基础面
- - [💯 大模型（LLMs）架构篇](https://t.zsxq.com/YmHO4)
  - [💯 注意力机制（Attention）篇](https://t.zsxq.com/YmHO4)
  - [💯 Transformer 理论篇](https://t.zsxq.com/YmHO4)
- 四、NLP 任务实战面
- - [💯 文本分类篇](https://t.zsxq.com/YmHO4)
  - [💯 命名实体识别（NER）篇](https://t.zsxq.com/YmHO4)
  - [💯 关系抽取篇](https://t.zsxq.com/YmHO4)
  - [💯 检索增强生成（RAG）篇](https://t.zsxq.com/YmHO4)
- 五、NLP 基础面
- - [💯 分词（Tokenizer）篇](https://t.zsxq.com/YmHO4)
  - [💯 词嵌入（Word2Vec）篇](https://t.zsxq.com/YmHO4)
  - [💯 卷积神经网络（CNN）篇](https://t.zsxq.com/YmHO4)
  - [💯 循环神经网络（RNN）篇](https://t.zsxq.com/YmHO4)
  - 💯 长短期记忆网络（LSTM）篇
  - [💯 BERT 模型篇](https://t.zsxq.com/YmHO4)
  - [💯 BERT 变体篇](https://t.zsxq.com/YmHO4)
  - [💯 BERT 实战篇](https://t.zsxq.com/YmHO4)
- 六、深度学习面
- - [💯 激活函数篇](https://t.zsxq.com/YmHO4)
  - [💯 优化器篇](https://t.zsxq.com/YmHO4)
  - [💯 正则化篇](https://t.zsxq.com/YmHO4)
  - [💯 归一化篇](https://t.zsxq.com/YmHO4)
  - [💯 参数初始化篇](https://t.zsxq.com/YmHO4)
  - [💯 过拟合篇](https://t.zsxq.com/YmHO4)
  - [💯 集成学习篇](https://t.zsxq.com/YmHO4)
  - [💯 模型评估篇](https://t.zsxq.com/YmHO4)

写在前面

先说一下背景：本科双非，硕士211，没论文，一段半年的大厂NLP实习，3个TOP5 NLP比赛，1个两位数的数据挖掘比赛。

字节跳动

1面: 60分钟

实习，难点，收获，怎么解决
XGBOOST ，LGB，GBDT 的区别
一阶优化器，二阶优化器
Attention怎么做，self-attention怎么做
Transformer细节，Bert细节（多头和缩放）
过拟合怎么解决
标签平滑怎么做的
交叉熵，相对熵
Bagging, boosting , 偏差，方差关系
CRF理论与代码实现细节
CRF与HMM关系，区别
维特比，beam-search 时间复杂度，区别

「编程题」：编辑距离，完全二叉树的节点个数（都是很经典的leetcode原题）

2面: 60分钟

实习，竞赛，问了30分钟
开源代码阅读情况
XGBOOST ，LGB 生长策略，分类策略
BERT细节
少样本情况怎么缓解

「编程题」：15分钟写一个k-means，没写完时间不够

3面：20分钟

聊人生，说前两面反馈给的好，就不问问题了。

HR面: 20分钟

讲一件你觉得很有难度的事，怎么解决的。
来段英语口语。

剩下时间就是问问题时间了。

腾讯：校招日常实习

1面: 25分钟

实习，竞赛
优化器，系统的讲一下
实际场景下做softmax容易出现一些问题，怎么解决（面试的时候没明白什么意思，面试结束后询问，他是说实际场景做softmax很容易出现下溢问题，这个可以用每个维度减去一个固定值就可以了）
过拟合解决方法，正则项为什么能减缓过拟合
权重衰减等价于哪个正则项
传统机器学习方法了解哪些

「编程题」：打家劫舍II

2面：60分钟+8小时下来做题。。。

实习，问得巨细，怎么和测试沟通，怎么和需求沟通，团队有几人，负责啥，难点是啥，你做了啥

「编程题」：leetcode-887,super egg drop，提前不知道这题是leetcode题，自己一直在硬做，后来给实习同事分享，同事告诉我是leetcode题很难得一道题。这题难的一*，面试里面剩余30分钟没做出来（基本属于刚理解题意），下来之后做了2个小时想出一个暴力解，被打回，第二天，想了3个小时，想到二分解法，被打回，又想了3个小时，想到数学解法。。。过了。（三种解法都对的，不过面试官要求给出具体的策略和步骤，数学法比较直接可以直接给出，其他两种需要输出最优路径）。太菜了。。。。

3面,GM面：30分钟

比较水，没问技术问题，全程实习竞赛。

HR面

就问了啥时候能去，能去多久这种问题

随便唠唠

难度上，总体感觉面的两个岗位，除了腾讯二面的编程题，其他都不是很难（可能是只是实习面试的原因），两家没有奇奇怪怪的问题，面试体验都很好，知识点范围基本都在面经百度第一页能找到。不过感觉自己比较幸运，遇到的字节面试官出的题都很常规，我同学面头条出的题，遇到了取数对弈，螺丝螺母匹配等烧脑问题。

大模型（LLMs）高频面题全面整理（🌟2025 Offer 必备🌟）

一、大模型进阶面

💯 DeepSeek篇

【大模型进阶面之 DeepSeek篇】你必须要会的高频面题 查看答案

一、概念篇
- Deepseek-V3的主要特点有哪些？
- DeepSeek-V3在推理速度方面表现出色的原因有哪些？
二、模型结构篇
- MLA
  - 什么是多头潜在注意力（MLA）？
  - MLA的计算流程是什么样的？
  - 训练时MLA需要配置哪些超参？
  - MLA相对于MHA有哪些改进？
- MoE
  - 什么是MoE？
  - DeepSeekMoE包含哪两种专家类型？
  - Share 专家和Router 专家的作用是什么？
  - 讲一下DeepSeekMoE的计算流程？
  - DeepSeekMoE是如何实现负载均衡的？
- MTP
  - 什么是Multi-Token Prediction（MTP）？
  - Multi-Token Prediction（MTP）有何作用？
  - 讲一下Multi-Token Prediction（MTP）的预测流程？
三、预训练篇
- Prefix-Suffix-Middle (PSM)数据格式是什么样的？
- DeepSeek预训练数据为何使用Prefix-Suffix-Middle (PSM)格式？
- 介绍一下Byte-level BPE？
- DeepSeek是如何进行长上下文扩展的？
- DeepSeek的使用YaRN进行长上下文扩展有哪两个阶段？
- DeepSeek预训练追求极致的训练效率的做法有哪些？
- 批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）有何区别？
- 使用MTP为何在提高计算效率的同时还能提升效果？
**四、有监督微调篇
- DeepSeek的SFT有哪几种数据？
- DeepSeek是如何构造Reasoning Data数据的？
- DeepSeek两种不同类型的SFT数据，区别是什么？
- DeepSeek在SFT训练时是如何加速训练过程的？
五、强化学习篇
- DeepSeek有哪两种奖励模型？
- Rule-Based RM和Model-Based RM的区别是什么？
- Rule-Based RM用在什么地方？有何作用？
- Model-Based RM用在什么地方？有何作用？
- DeepSeek是如何降低奖励欺诈风险的？
- DeepSeek为何使用Group Relative Policy Optimization（GRPO）？
- DeepSeek为何放弃Critic模型来估计状态的价值？
- DeepSeek是如何进行Self-Rewarding的？
- DeepSeek-V3从DeepSeek-R1中蒸馏知识有哪些影响？

💯 大模型编辑篇

【大模型进阶面之模型魔改篇】你必须要会的高频面题 查看答案

模型编辑（Model Editing）核心目标是什么？
对比重新预训练和微调，模型编辑的优势和适用场景是什么？
如何用模型编辑修正大语言模型中的知识错误？
如何量化评估模型编辑的五大性质？
模型编辑局部性如何避免“牵一发而动全身”的问题？
知识缓存法（如SERAC）的工作原理是什么？
附加参数法（如T-Patcher）如何在不改变原始模型架构的情况下实现编辑？
知识缓存法和附加参数法的优缺点有何优缺点？
ROME方法如何通过因果跟踪实验定位知识存储位置？
元学习法（如MEND）如何实现“学习如何编辑”？
元学习法的双层优化框架如何设计？
More …

💯 大模型压缩篇

【大模型进阶面之模型压缩篇】你必须要会的高频面题 查看答案

💯 为什么需要对大模型进行压缩和加速？
💯 什么是低秩分解？
💯 什么是奇异值分解（SVD）？
💯 权值共享为什么有效？
💯 什么是模型量化？
💯 什么是混合精度分解？
💯 什么是基于反馈的知识蒸馏？
💯 什么是基于特征的知识蒸馏？
💯 模型蒸馏的损失函数是什么？
💯 描述一下剪枝的基本步骤？
More …

💯 分布式训练篇

【大模型进阶面之分布式训练篇】你必须要会的高频面题 查看答案

PS架构和Ring-AllReduce架构有何不同？

什么是张量并行，如何使用集群计算超大矩阵？

讲一讲谷歌的GPipe 算法？
讲一讲微软的PipeDream算法？
ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？
用DeepSpeed进行训练时主要配置哪些参数？
More …

二、大模型微调面

💯 有监督微调（SFT）篇

【大模型微调面之 SFT篇】你必须要会的高频面题 查看答案

💯 从零训练一个大模型有哪几个核心步骤？
💯 为什么要对LLM做有监督微调（SFT）？
💯 如何将一个基础模型训练成一个行业模型？
💯 如何准备SFT阶段的训练数据？
💯 如何自动生成指令构建SFT的训练数据？
💯 LM做有监督微调（SFT）变傻了怎么办？
💯 有监督微调（SFT）和人工偏好对齐（RLHF）有何区别？
More …

💯 高效微调篇

【大模型微调面之 PEFT篇】你必须要会的高频面题 查看答案

💯 全量微调与参数高效微调的区别是什么？
💯 什么是轻度微调？轻度微调有哪些常用方法？
💯 什么是BitFit微调？
💯 分层微调如何设置学习率？
💯 什么是适配器微调？适配器微调有哪些优势？
💯 讲一讲IA3微调？
💯 提示学习（Prompting）代表方法有哪些？
💯 指令微调（Instruct-tuning）和提示学习（Prompting）的区别是什么？
💯 详细说明LoRA的工作原理及其优势？
💯 LoRA存在低秩瓶颈问题，ReLoRA和AdaLoRA分别通过哪些方法改进？
💯 动态秩分配（如AdaLoRA）如何根据层的重要性调整秩？
More …

💯 提示学习篇

【大模型微调面之提示学习篇】你必须要会的高频面题 查看答案

💯 提示学习（Prompting）代表方法有哪些？
💯 前缀微调（Prefix-tining）的核心思想？
💯 提示微调（Prompt-tuning）的核心思想？
💯 P-tuning 的动机是什么？
💯 P-tuning v2 进行了哪些改进？
💯 提示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
💯 提示微调（Prompt-tuning）与 fine-tuning 区别是什么？
More …

💯 人类对齐训练（RLHF）篇

【大模型微调面之 RLHF篇】你必须要会的高频面题 查看答案

💯 RLHF有哪几个核心流程？

💯 RLHF与SFT的本质区别是什么？为什么不能只用SFT？

💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)？如何缓解？

💯 在强化学习中，基于值函数的和基于策略的的优化方法有何区别？

💯 什么是近端策略优化（PPO）？

💯 RLHF中的PPO主要分哪些步骤？

💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异？

💯 DPO如何通过隐式奖励建模规避强化学习阶段？

💯 DPO vs PPO：训练效率与性能上限的对比分析？

💯 RLHF训练数据的格式是什么样的？

💯 Prompt 工程篇

【大模型微调面之提示工程篇】你必须要会的高频面题 查看答案

💯 Prompt工程与传统微调的区别是什么？
💯 如何规范编写Prompt？
💯 上下文学习三种形式（零样本、单样本、少样本）的区别？
💯 如何通过预训练数据分布和模型规模优化上下文学习效果？
💯 思维链（CoT）的核心思想是什么？
💯 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思广益（如 Self-Consistency）三种 CoT 模式有何异同？
More …