百度、腾讯、阿里大模型面试，一面到三面

本文总结了作者在腾讯、阿里、百度等公司的大模型算法岗面试经历。面试内容涵盖了大模型的基础知识、结构差异、位置编码、预训练与推理、RLHF（包括PPO和DPO的区别）、超长上下文处理、智能体组件等。此外，还涉及了数据清洗、模型幻觉、复读问题、工具调用等实际应用问题。面试官注重考察候选人的基础知识、项目经验、问题解决能力以及对大模型技术的深入理解。整体面试体验良好，面试官专业且愿意深入探讨，面试难度适

Java程序员周瑜

1073人浏览 · 2025-05-08 22:33:30

Java程序员周瑜 · 2025-05-08 22:33:30 发布

一面

自我介绍和项目介绍
介绍一下了解的大模型有哪些，这些模型在结构上有什么差异
说一下大模型常用的位置编码有哪些，各有什么优缺点
介绍一下大模型的预训练后训练以及推理是怎么做的，并且详细问了 RLHF 的做法，包括 PPO 算法的原理，以及 DPO 和 PPO 的区别
大模型的超长上下文是怎么做的，比如说 KIMI
大模型智能体是怎么工作的，有哪些组件
场景题：如何训练一个大模型，可以做到精确的提取摘要
代码：股票的四个题
1. 买卖股票的最佳时机
  1. 买卖股票的最佳时机 II
    1. 买卖股票的最佳时机 III
      1. 买卖股票的最佳时机 IV

整体来说一面偏基础，问的问题也主要是一些大模型的八股问题，没有太多发散性的问题，难度不大。但是考察的还是挺全面的，整个面试一个半小时多

二面

自我介绍
因为之前是做 CV 的，所以面试官问了 CV 和 NLP 的区别和联系，在 Transformer 的大背景下，CV、NLP，包括语音等，能否实现大一统
训练大模型的时候数据怎么清洗，怎么处理，怎么配比，怎样操作能更容易使模型达到更好的性能
什么是大模型的幻觉，如何减轻幻觉问题
大模型的复读问题是怎么产生的，业内一般有什么解决办法
大模型的工具调用怎么实现
Agent 有哪几部分构成，了解哪些具体的实现方法
开放题：之前训练大模型的时候遇到过什么困难，你是怎么解决的
代码：实现一个 Tokenizer，只能用 PyTorch 基础语法

二面相比于一面更加看重综合素质，喜欢考察分析问题解决问题的能力，对于一些细节知识点的考察并不多。二面也面试了一个多小时，面试官还是挺专业的。

三面

首先过项目，但是问的特别细致，尤其是一个 Agent 的项目，从背景，到动机，再到做法，最后的结果，都问的非常细，大概有半个小时的时间
开放题：你觉得当前大模型还存在怎样的问题，有什么解决办法吗
开放题：让你自己设计一个 Agent，会怎么做，为什么这样做
找工作比较在意的点是什么，除了薪资还有什么
对文心一言这个产品了解吗，有哪些优点和值得改进的点
如果给你发 Offer，你到这个团队能做出什么贡献

三面整体来说更加综合，不止有一些技术问题，还有职业规划这些问题，更加考察整体的能力。面试官应该是这个团队的大老板，看问题更加系统和全面，整体面下来还是比较有压力的。

总结

整体下来感觉面试官都是非常专业的，面试深度和广度都很可以，三场面试层层递进。面试官人也不错，如果比较满意的话也愿意多花时间来聊，而不是严格的卡一个小时这种完任务式的面试。

腾讯

背景:本弱鸡 211 本硕，nlp，无论文有实习（老板没资源且放养），本科有 acm 经历（1 铜），面试 pcg 日常实习。

一面

Q1：了解什么机器学习算法，讲一下原理？

当时只记得实体识别用到了隐马尔可夫模型，讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。

Q2：讲一下 Bert 的结构和怎么训练的，怎么用 bert 做下游任务？

八股，双向 transformer encoder 结构，预训练任务包括 MLM 和 NSP，详细讲了讲。下游任务做过文本分类、关系提取等，用 cls 做预测；也可以做摘要生成等任务。

Q3：有没有了解过 LLM，有自己调过吗，了解 RLHF 过程吗？

自己训练过 llama3 和 glm（8、9B），跑过 sft 和 dpo，有看过一些技术报告。当时用 deepspeed 跑的，然后讲了讲 RLHF 三个过程，最后 PPO 四个模型的作用。

Q4：有了解强化学习吗？能不能详细说说 PPO 是什么？

只通过 RLHF 了解过一点，好像跟面试官想要的答案不一致，跳过。

Q5：怎么扩展大模型的最大输入长度？

改变 transformer 结构（GQA，MQA，flash attention等），旋转位置编码 RoPE 等（只看过论文，自己用的很少，就想到啥说啥）

Q6：有了解过模型训练方法吗？

没用过（感觉要凉）

Q7：有了解过文生图吗？

有了解过一些项目，diffusion 和 clip 原理，之前有自己跑过 unet+diffusion+vae 做文生图任务，讲了下为什么这么做。

Q8：手撕快排

当天晚上收到了参加二面的邮件，小激动。

二面

二面没有手撕代码，问了问项目：

讲一下微调大模型是怎么做的，数据集怎么构建，数据怎么处理
看项目中用了 RAG，讲一下设计流程
其中文本 chunk 怎么做的，为什么这么做
中间有没有遇到什么困难，怎么提高召回，如果文本输入大模型后效果不好怎么办
怎么提高大模型的外推性
有了解过文生图任务吗（怎么又问这个）

然后草草结束，一天后流程结束（挂了，继续努力）

阿里

部门与岗位：淘天集团 - 搜推智能产品事业部 - 多模态大模型

一面

首先是自我介绍和过项目，面试官还一起探讨项目用到的方法，可行性之类的
介绍一下 CLIP
了解 LoRA 吗，LoRA 微调的原理是什么
了解哪些多模态大模型，简要介绍几个
BLIP 的三个损失函数分别是什么，数据是怎样清洗的
BLIP2 相对于 BLIP 有哪些改进，BLIP3 又有哪些改进
Qwen-VL 的三个训练流程分别是什么，有什么作用
视觉编码器和 LLM 连接时，使用 BLIP2 中 Q-Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好，说说各自的优缺点
代码：实现多头自注意力

一面比较常规，几乎都是八股问题，我觉得只要了解常见的多模态大模型都问题不大，主要还是要理解各个模型设计的动机是什么，这也是面试最喜欢考察的

二面

自我介绍和过项目，简要问了项目中使用某些方法的动机，以及是否会导致其他的问题
了解 Transformer 吗，编码器和解码器的注意力有什么区别，在计算注意力中时除以 \sqrt{d_k} 的原因是什么
后来有哪些比较经典的基于 Transformer 的语言模型，Qwen 相比于原始 Transformer 有哪些结构上的改动，Qwen2 又有哪些改进
了解 RLHF 吗，DPO 和 PPO 有什么区别，Loss 是什么样的，各自的优缺点是什么
介绍一下 CLIP，还了解什么其他的对比学习方法
开放题：了解哪些多模态大模型，目前多模态大模型最大的问题是什么
代码：1143. 最长公共子序列

二面其实也偏常规，几乎也都是八股问题，但是也考察了一些对模型的理解以及知识面的广度，整体来说比一面的难度大一些

三面

自我介绍，然后详细过了一下项目
了解哪些大模型和多模态大模型，然后就聊了大模型这一路是怎么发展过来的，Transformer、BERT、GPT、LLaMA、Qwen 这些，以及当时的 o1 推理模型
平常有尝试过训练过大模型吗，规模小一点的也没关系
聊天，包括职业规划等等

三面比较轻松，面试官说知识点前面两面都考察过了，三面就轻松一些，大概40来分钟吧

总结

整体来说面试体验比较好，问的问题都不难，面试官也都不错，遇到一些卡壳的地方也会进行引导讨论，面试氛围很轻松。三面应该是加面的大老板面，从交流可以看出来对整个大模型这块的理解还是很深刻的，收获不小。

百度

部门与岗位：百度TPG - 文心一言团队- 大模型算法岗

一面

自我介绍和项目介绍
介绍一下了解的大模型有哪些，这些模型在结构上有什么差异
说一下大模型常用的位置编码有哪些，各有什么优缺点
介绍一下大模型的预训练后训练以及推理是怎么做的，并且详细问了 RLHF 的做法，包括 PPO 算法的原理，以及 DPO 和 PPO 的区别
大模型的超长上下文是怎么做的，比如说 KIMI
大模型智能体是怎么工作的，有哪些组件
场景题：如何训练一个大模型，可以做到精确的提取摘要
代码：股票的四个题
1. 买卖股票的最佳时机
  1. 买卖股票的最佳时机 II
    1. 买卖股票的最佳时机 III
      1. 买卖股票的最佳时机 IV

二面

自我介绍
因为之前是做 CV 的，所以面试官问了 CV 和 NLP 的区别和联系，在 Transformer 的大背景下，CV、NLP，包括语音等，能否实现大一统
训练大模型的时候数据怎么清洗，怎么处理，怎么配比，怎样操作能更容易使模型达到更好的性能
什么是大模型的幻觉，如何减轻幻觉问题
大模型的复读问题是怎么产生的，业内一般有什么解决办法
大模型的工具调用怎么实现
Agent 有哪几部分构成，了解哪些具体的实现方法
开放题：之前训练大模型的时候遇到过什么困难，你是怎么解决的
代码：实现一个 Tokenizer，只能用 PyTorch 基础语法

三面

首先过项目，但是问的特别细致，尤其是一个 Agent 的项目，从背景，到动机，再到做法，最后的结果，都问的非常细，大概有半个小时的时间
开放题：你觉得当前大模型还存在怎样的问题，有什么解决办法吗
开放题：让你自己设计一个 Agent，会怎么做，为什么这样做
找工作比较在意的点是什么，除了薪资还有什么
对文心一言这个产品了解吗，有哪些优点和值得改进的点
如果给你发 Offer，你到这个团队能做出什么贡献

这份《AI产品经理学习资料包》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以在文末CSDN官方认证二维码免费领取【保证100%免费】
资料包：完整版文末本链接获取

AI产品经理，0基础小白入门指南
作为一个零基础小白，如何做到真正的入局AI产品？

什么才叫真正的入局？

是否懂 AI、是否懂产品经理，是否具备利用大模型去开发应用能力，是否能够对大模型进行调优，将会是决定自己职业前景的重要参数。

你是否遇到这些问题：
1、传统产品经理

不懂Al无法对AI产品做出判断，和技术沟通丧失话语权
不了解 AI产品经理的工作流程、重点
2、互联网业务负责人/运营
对AI焦虑，又不知道怎么落地到业务中想做定制化AI产品并落地创收缺乏实战指导
3、大学生/小白
就业难，不懂技术不知如何从事AI产品经理想要进入AI赛道，缺乏职业发展规划，感觉遥不可及
为了帮助开发者打破壁垒，快速了解AI产品经理核心技术原理，学习相关AI产品经理，及大模型技术。从原理出发真正入局AI产品经理。

这里整理了一些AI产品经理学习资料包给大家
📖AI产品经理经典面试八股文
📖大模型RAG经验面试题
📖大模型LLMS面试宝典
📖大模型典型示范应用案例集99个
📖AI产品经理入门书籍
📖生成式AI商业落地白皮书

🔥作为AI产品经理，不仅要懂行业发展方向，也要懂AI技术，可以帮助大家：
✅深入了解大语言模型商业应用，快速掌握AI产品技能
✅掌握AI算法原理与未来趋势，提升多模态AI领域工作能力
✅实战案例与技巧分享，避免产品开发弯路

这份《AI产品经理学习资料包》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
资料包：完整版本文末链接获取

AI大模型学习福利
作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

大模型&AI产品经理如何学习
求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程
网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击文末前往获取

3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以文末链接或私信免费领取【保证100%免费】🆓

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大