大模型面试手撕代码指南

ZZZZZZZeno

389人浏览 · 2025-12-10 20:58:41

ZZZZZZZeno · 2025-12-10 20:58:41 发布

# 写在前面：本人已找到实习，暂时不会维护此项目，所以如有新的常见手撕代码欢迎fork后自行修改或向我提出pr

---

收集了一些可能用于大模型面试的手撕代码，仅能用于展示基本运行逻辑，不保证能直接并入模型使用，有使用AI对代码进行纠正与优化，减弱工程化带来的代码难读问题

目前已经完成了比较基础的一些部分，也欢迎提交 issue 或 PR

等找到实习之后可能会更新文字讲解
链接在https://github.com/Ashside/LLM-HandCoding-Interview

---

# LLM-HandCoding-Interview
收集为大模型面试准备的手撕代码

## 常见 Attention

- [x] Self-Attention
- [x] Multi-Head Attention
- [x] Cross-Attention
- [x] Causal Attention (Masked Self-Attention)
- [x] Multi-Query Attention (MQA)
- [x] Grouped Query Attention (GQA)
- [x] Gated Attention
- [ ] Multi-Head Latent Attention (MLA)
- [x] Rotary Position Embedding (RoPE)
- [x] Sinusoidal Position Embedding
- [x] KV Cache
- [ ] Flash Attention

## 常见 RL 方法

- [x] LoRA (Low-Rank Adaptation)
- [ ] Distillation
- [x] PPO (Proximal Policy Optimization)
- [x] DPO (Direct Preference Optimization)
- [x] GRPO
- [ ] SPO
- [ ] DAPO

## 常见 Utils

- [x] Softmax
- [x] LayerNorm
- [x] RMSNorm
- [x] SwiGLU
- [x] AdamW
- [x] Learning Rate Scheduler
- [x] Gradient Clipping
- [ ] Mixed Precision Training
- [ ] Distributed Data Parallel (DDP)

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

DeepSeek 大模型推理优化实战：从量化压缩到高效部署的全链路指南

华为云 MaaS（ModelArts as a Service）是一站式 AI 开发平台。它提供了从模型训练、量化、到部署的全链路服务。昇腾 NPU 原生适配：DeepSeek 模型经过深度优化，在昇腾 910B 上运行效率接近 A100自动并行：自动将模型切分到多卡/多节点弹性伸缩：根据负载自动扩缩容推理实例本文从 DeepSeek 模型推理的底层原理出发，详细介绍了从量化压缩到高效部署的全链路

智能体开发者社区

ChatGPT 官网访问异常怎么办？从代码解释和资料整理任务选择 AI 入口

其实对工作场景来说，真正要解决的是代码解释、资料整理、提示词优化、文档改写这些任务。程序员可能遇到报错，运营可能要整理一份方案，学生可能要读英文资料，创作者可能要改脚本。更实际的做法是先定义任务，再决定用官方渠道、API、镜像站入口还是多模型对比。如果只是临时比较 ChatGPT、Claude、Gemini 的回答质量，可以把千帧AI（1000zhen.com）作为多模型对比入口之一。它适合作为多

智能体开发者社区

1000zhen.com 是什么？用一个多模型入口对比 ChatGPT、Claude、Gemini 的实测方法

简单说，千帧AI（1000zhen.com）可以理解为面向国内用户的 AI 镜像站/多模型入口，适合把 ChatGPT、Claude、Gemini、Grok 等模型放在同一个任务里做体验对比。真正有效的使用方式不是堆模型名，而是拿固定任务验证哪个模型更适合自己的工作流。它是千帧AI的域名，可以作为 AI 镜像站/多模型入口样例，用来对比不同模型在写作、代码、资料整理和创作任务中的表现。过审提醒：标