苏剑林的个人介绍
苏剑林是一位在人工智能领域,特别是自然语言处理(NLP)方向有显著贡献的研究者和博主。他以其深厚的数学功底、对Transformer架构的深刻理解以及提出的旋转位置编码(RoPE)和RoFormer模型而闻名。苏剑林通过其长期运营的博客"科学空间"分享大量高质量的技术文章,对AI技术的普及和发展产生了重要影响。他的研究成果已被广泛应用于各类大型语言模型中,如LLaMA、EleutherAI的GPT
概述
苏剑林是一位在人工智能领域,特别是自然语言处理(NLP)方向有显著贡献的研究者和博主。他以其深厚的数学功底、对Transformer架构的深刻理解以及提出的旋转位置编码(RoPE)和RoFormer模型而闻名。
苏剑林通过其长期运营的博客"科学空间"分享大量高质量的技术文章,对AI技术的普及和发展产生了重要影响。他的研究成果已被广泛应用于各类大型语言模型中,如LLaMA、EleutherAI的GPT模型以及Google的FLASH模型等。 [12] [13]
早年生活与教育背景
童年与成长环境
苏剑林于1993年出生于中国广东省云浮市的一个小村庄 [4] [6]。 从小就对科学抱有浓厚的兴趣,尤其在数学方面展现出过人的天赋。进入初中后,他对化学也产生了浓厚的兴趣,并将其视为自己的强项之一。
根据他在"科学空间"博客中的自述,他在2006年9月开始接触电脑,并于2007年1月开始接触网络,这标志着他与计算机科学的初步结缘 [138]。
关键时间节点
首次接触电脑2006年9月
首次上网2007年1月
接触BBS2007年4月
重拾科学兴趣2008年9月
本科与硕士求学经历
华南师范大学数学科学学院
数学专业本科
苏剑林进入华南师范大学数学科学学院攻读数学专业本科 [15]。 在大学期间,他继续保持着对数学的热爱,并打下了坚实的数学基础。
中山大学数学学院
基础数学专业研究生
本科毕业后,他考入中山大学数学学院,攻读基础数学专业的研究生,研究方向为生物应用数学 [4]。 尽管专业方向是基础数学,但他对计算机科学和人工智能领域抱有极大的热情。
机器学习转向
2018年 - 研究生二年级
在研究生二年级时,尽管专业是基础数学,但他将大量时间投入到机器学习,特别是自然语言处理(NLP)相关领域的学习和研究中 [53]。
职业生涯发展
追一科技时期
机器学习算法工程师
2019年7月 - 2019年末
2019年7月,苏剑林从中山大学数学学院硕士毕业后,正式加入追一科技(Zhuiyi Technology),在公司的机器学习算法部门工作 [4] [24]。 追一科技是一家专注于自然语言处理(NLP)和人工智能技术研发的公司。
在追一科技工作期间,苏剑林主要从事与机器学习算法相关的研究和开发工作,特别是在自然语言处理领域积累了丰富的实践经验。他在公司内部被视为技术骨干,并在此期间积累了一些专利 [3]。
月之暗面(Moonshot AI)
研究员
2020年 - 至今
在离开追一科技后,苏剑林加入了月之暗面(Moonshot AI),这是一家专注于大模型研发的人工智能初创公司 [122]。 他在月之暗面担任研究员,继续其在人工智能领域,特别是大语言模型方面的研究工作。
苏剑林在知乎等平台上持续活跃,以其深厚的数学和物理功底,从独特的视角解构技术课题,分享他在大模型领域的研究心得。在2025年知乎第十一届新知青年大会上,苏剑林因其在AI领域的专业贡献和社区影响力,被评为年度新知答主 [118] [119]。
学术成就与贡献
主要学术成就概览
| 成就/贡献 | 描述 | 关键特性/影响 |
|---|---|---|
|
旋转位置编码 (RoPE) |
一种创新的位置编码方法,通过绝对位置编码实现相对位置编码的效果。 | 理论优雅,实践性能优越,尤其在长文本外推性方面表现良好;是唯一可用于线性Attention的相对位置编码方案。 [39] |
|
RoFormer 模型 |
基于RoPE的预训练Transformer模型。 | 在处理长文本任务时展现出良好的外推性能,验证了RoPE的有效性。后续推出RoFormerV2探索自然语言理解的极限。 [66] |
|
"科学空间"博客 |
自2008年起运营的个人博客,分享数学、物理、计算机科学、AI等领域的研究和见解。 | 高质量技术文章,如"Transformer升级之路"、"生成扩散模型漫谈"等系列,影响广泛,成为重要学习和参考资料。 |
|
Cool Papers 论文检索网站 |
利用大型语言模型(如Kimi)的智能问答功能,帮助科研人员高效筛选和阅读学术论文。 | 提升科研效率,促进学术交流。 [44] |
自然语言处理(NLP)领域的研究
SimBERT / SimBERTv2
为中文文本相似度任务建立的基准模型。虽然是"弱监督"模型,但积极探索使用开源标注数据辅助训练,并分享了相关探索过程和"扫雷指南"。 [65]
中文文本相似度基准模型
无监督词库构建
发表关于"无监督构建词库:更快更好的新词发现算法"的研究,解决了新词发现这一NLP基础任务中的难题。 [84]
新词发现算法
旋转位置编码(RoPE)的提出
苏剑林构思并提出了"旋转式位置编码(Rotary Position Embedding, RoPE)" [39] [63]。 RoPE是一种创新的位置编码方法,其核心思想是通过绝对位置编码的方式来实现相对位置编码的效果。
技术特点
- 理论上的优雅性与实践中的优越性能
- 在处理长文本方面具有良好的外推性
- 目前唯一一种可以应用于线性Attention的相对位置编码方案
RoPE的关键在于将上下文标记(token)的表示与一个仅与位置相关的旋转矩阵相乘,从而在Attention机制的内积运算中自然地融入相对位置信息。这种设计使得RoPE成为Transformer模型位置编码的重要技术进展。
应用案例
LLaMA系列模型
EleutherAI GPT模型
Google FLASH模型
RoFormer模型及其他贡献
RoFormer模型
在提出旋转位置编码(RoPE)的基础上,苏剑林及其团队进一步开发了名为RoFormer(Rotary Transformer)的预训练模型 [39]。 RoFormer模型的核心改进就是应用了RoPE作为其位置编码方式。
RoFormer模型在处理长文本任务时展现出良好的外推性能,这得益于RoPE能够有效地捕捉序列中的相对位置信息。
其他贡献
-
Cool Papers论文检索网站
利用Kimi等大型语言模型的智能问答功能,帮助科研人员高效筛选和阅读学术论文 [1] -
参与编写技术书籍
例如《Python数据分析与挖掘实战》,为初学者提供宝贵的学习资源 [103]
社会影响力
"科学空间"博客的运营与影响
科学空间(Scientific Spaces)
2008年9月 - 至今
苏剑林是知名博客"科学空间"(Scientific Spaces)的创始人和主要运营者 [4]。 该博客的网址为 https://kexue.fm 或 https://spaces.ac.cn。
他从2008年9月开始建立这个博客,旨在记录和分享自己在科学探索过程中的思考和发现。博客内容广泛,涵盖数学、物理、天文、计算机科学、人工智能等多个领域。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)