概述

苏剑林是一位在人工智能领域,特别是自然语言处理(NLP)方向有显著贡献的研究者和博主。他以其深厚的数学功底、对Transformer架构的深刻理解以及提出的旋转位置编码(RoPE)RoFormer模型而闻名。

苏剑林通过其长期运营的博客"科学空间"分享大量高质量的技术文章,对AI技术的普及和发展产生了重要影响。他的研究成果已被广泛应用于各类大型语言模型中,如LLaMA、EleutherAI的GPT模型以及Google的FLASH模型等。 [12] [13]

早年生活与教育背景

童年与成长环境

苏剑林于1993年出生于中国广东省云浮市的一个小村庄 [4] [6]。 从小就对科学抱有浓厚的兴趣,尤其在数学方面展现出过人的天赋。进入初中后,他对化学也产生了浓厚的兴趣,并将其视为自己的强项之一。

根据他在"科学空间"博客中的自述,他在2006年9月开始接触电脑,并于2007年1月开始接触网络,这标志着他与计算机科学的初步结缘 [138]

关键时间节点

首次接触电脑2006年9月

首次上网2007年1月

接触BBS2007年4月

重拾科学兴趣2008年9月

本科与硕士求学经历

华南师范大学数学科学学院

数学专业本科

苏剑林进入华南师范大学数学科学学院攻读数学专业本科 [15]。 在大学期间,他继续保持着对数学的热爱,并打下了坚实的数学基础。

中山大学数学学院

基础数学专业研究生

本科毕业后,他考入中山大学数学学院,攻读基础数学专业的研究生,研究方向为生物应用数学 [4]。 尽管专业方向是基础数学,但他对计算机科学和人工智能领域抱有极大的热情。

机器学习转向

2018年 - 研究生二年级

在研究生二年级时,尽管专业是基础数学,但他将大量时间投入到机器学习,特别是自然语言处理(NLP)相关领域的学习和研究中 [53]

职业生涯发展

追一科技时期

机器学习算法工程师

2019年7月 - 2019年末

2019年7月,苏剑林从中山大学数学学院硕士毕业后,正式加入追一科技(Zhuiyi Technology),在公司的机器学习算法部门工作 [4] [24]。 追一科技是一家专注于自然语言处理(NLP)和人工智能技术研发的公司。

在追一科技工作期间,苏剑林主要从事与机器学习算法相关的研究和开发工作,特别是在自然语言处理领域积累了丰富的实践经验。他在公司内部被视为技术骨干,并在此期间积累了一些专利 [3]

月之暗面(Moonshot AI)

研究员

2020年 - 至今

在离开追一科技后,苏剑林加入了月之暗面(Moonshot AI),这是一家专注于大模型研发的人工智能初创公司 [122]。 他在月之暗面担任研究员,继续其在人工智能领域,特别是大语言模型方面的研究工作。

苏剑林在知乎等平台上持续活跃,以其深厚的数学和物理功底,从独特的视角解构技术课题,分享他在大模型领域的研究心得。在2025年知乎第十一届新知青年大会上,苏剑林因其在AI领域的专业贡献和社区影响力,被评为年度新知答主 [118] [119]

学术成就与贡献

主要学术成就概览

成就/贡献 描述 关键特性/影响

旋转位置编码 (RoPE)

一种创新的位置编码方法,通过绝对位置编码实现相对位置编码的效果。 理论优雅,实践性能优越,尤其在长文本外推性方面表现良好;是唯一可用于线性Attention的相对位置编码方案。 [39]

RoFormer 模型

基于RoPE的预训练Transformer模型。 在处理长文本任务时展现出良好的外推性能,验证了RoPE的有效性。后续推出RoFormerV2探索自然语言理解的极限。 [66]

"科学空间"博客

自2008年起运营的个人博客,分享数学、物理、计算机科学、AI等领域的研究和见解。 高质量技术文章,如"Transformer升级之路"、"生成扩散模型漫谈"等系列,影响广泛,成为重要学习和参考资料。

Cool Papers 论文检索网站

利用大型语言模型(如Kimi)的智能问答功能,帮助科研人员高效筛选和阅读学术论文。 提升科研效率,促进学术交流。 [44]

自然语言处理(NLP)领域的研究

SimBERT / SimBERTv2

为中文文本相似度任务建立的基准模型。虽然是"弱监督"模型,但积极探索使用开源标注数据辅助训练,并分享了相关探索过程和"扫雷指南"。 [65]

中文文本相似度基准模型

无监督词库构建

发表关于"无监督构建词库:更快更好的新词发现算法"的研究,解决了新词发现这一NLP基础任务中的难题。 [84]

新词发现算法

旋转位置编码(RoPE)的提出

苏剑林构思并提出了"旋转式位置编码(Rotary Position Embedding, RoPE)" [39] [63]。 RoPE是一种创新的位置编码方法,其核心思想是通过绝对位置编码的方式来实现相对位置编码的效果

技术特点
  • 理论上的优雅性与实践中的优越性能
  • 在处理长文本方面具有良好的外推性
  • 目前唯一一种可以应用于线性Attention的相对位置编码方案

RoPE的关键在于将上下文标记(token)的表示与一个仅与位置相关旋转矩阵相乘,从而在Attention机制的内积运算自然地融入相对位置信息。这种设计使得RoPE成为Transformer模型位置编码的重要技术进展。

应用案例

LLaMA系列模型

EleutherAI GPT模型

Google FLASH模型

RoFormer模型及其他贡献

RoFormer模型

在提出旋转位置编码(RoPE)的基础上,苏剑林及其团队进一步开发了名为RoFormer(Rotary Transformer)的预训练模型 [39]。 RoFormer模型的核心改进就是应用了RoPE作为其位置编码方式。

 RoFormer模型在处理长文本任务时展现出良好的外推性能,这得益于RoPE能够有效地捕捉序列中的相对位置信息。

其他贡献
  • Cool Papers论文检索网站
    利用Kimi等大型语言模型的智能问答功能,帮助科研人员高效筛选和阅读学术论文 [1]

  • 参与编写技术书籍
    例如《Python数据分析与挖掘实战》,为初学者提供宝贵的学习资源 [103]

社会影响力

"科学空间"博客的运营与影响

科学空间(Scientific Spaces)

2008年9月 - 至今

苏剑林是知名博客"科学空间"(Scientific Spaces)的创始人和主要运营者 [4]。 该博客的网址为 https://kexue.fm 或 https://spaces.ac.cn

他从2008年9月开始建立这个博客,旨在记录和分享自己在科学探索过程中的思考和发现。博客内容广泛,涵盖数学、物理、天文、计算机科学、人工智能等多个领域。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐