魏宇谋 [0009−0002−1364−8300]{ }^{[0009-0002-1364-8300]}[0009000213648300],Paulo Carvalho [0000−0002−0449−3733]{ }^{[0000-0002-0449-3733]}[0000000204493733],以及John
Stamper [0000−0002−2291−1468]{ }^{[0000-0002-2291-1468]}[0000000222911468]

人机交互研究所,卡内基梅隆大学,美国
{yumouw, pcarvalh, jstamper}@andrew.cmu.edu

摘要

GPT几乎成为了大型语言模型(LLMs)的代名词,这一术语在AIED会议记录中越来越流行。简单的关键词搜索显示,在AIED 2024展示的76篇长篇和短篇论文中,有61%描述了利用LLMs解决教育领域长期挑战的新颖解决方案,其中43%明确提到了GPT。尽管由GPT开创的LLMs为增强AI对教育的影响提供了令人兴奋的机会,我们认为,领域内对GPT和其他资源密集型LLMs(参数超过10亿)的过度关注可能会忽视小型语言模型(SLMs)在为资源受限机构提供公平且经济实惠的高质量AI工具方面的潜在影响。通过知识组件(KC)发现这一AIED的关键挑战中取得的积极成果,我们证明了像Phi-2这样的SLMs可以在无需复杂提示策略的情况下产生有效的解决方案。因此,我们呼吁更多关注开发基于SLMs的AIED方法。

关键词:小型语言模型 ⋅\cdot 可及性AIED ⋅\cdot 知识组件发现。

1 引言

这是AIED令人振奋的时代。大型语言模型(LLMs)的技术突破[3]为AIED研究者和实践者提供了前所未有的机会来解决该领域的长期挑战[16]。社区迅速采用LLMs进行AIED研究充分体现了这种兴奋感——通过对会议记录的简单关键词搜索显示,被接受用于AIED 2024的76篇长篇和短篇论文中,有61%(47篇)描述了使用LLMs的创新解决方案[20]。在不断扩展的可用LLMs星系中,GPT家族,包括ChatGPT [21]和GPT-4 [22],似乎是最受社区欢迎的:采用LLMs的47篇论文中有33篇(70%)也提到了GPT。尽管由GPT开创的LLMs预示着加强AI对教育积极影响的令人兴奋的可能性,我们认为社区对GPT及其他类似资源密集型巨型语言模型(参数超过十亿)的主导关注可能会忽视小型语言模型(SLMs)在实现AIED使命核心的公平和可及教育方面的重要影响。

随着新技术的出现不断塑造语言模型的格局,SLMs的定义也在不断变化。例如,BERT模型[10]在其最大配置下有3.4亿个参数——这在2018年是一个惊人的数量,但按今天的标准来看只是很小的一部分。与当前最先进的技术相比,我们认为如果一个语言模型的参数少于十亿,并且只需要适度的硬件资源(如消费级GPU),就可以将其视为小模型。SLMs的典型例子包括Llama-2 7B [28]、Mistral 7B [14]和Phi-2 [13]。Phi-2是一种轻量但功能强大的模型,只有2.7B参数,可能特别适合AIED社区以及我们试图解决的各种问题。Phi-2经过高质量的“教科书式”数据[11]训练,涵盖了各种学术学科的深度知识,并比其他使用混合质量互联网数据训练的SLMs更符合需要精确性和可靠性的教育场景。其较小的规模还允许在消费级硬件上本地部署,这对计算资源有限的大多数教育环境来说非常理想。

教育机构在运行时面临独特的约束条件,这使得它们的AI实施需求与商业环境不同。预算限制、技术基础设施、隐私要求和公平考虑都会影响教育环境中技术的采用[25]。GPT级别的LLMs通常需要大量的计算资源来进行本地部署或持续的云访问API成本,这并非所有教师或学生都能负担得起[16]。然而,SLMs只需消耗LLMs一小部分资源,并能在更低成本的简陋硬件上部署——Phi-2的2.7亿参数仅需约5.4GB内存存储(使用16位浮点数表示1{ }^{1}1),这可以轻松适应消费级GPU。

一种支持GPT级别LLMs高成本的理由是它们在各种任务中的卓越表现。然而,我们认为,如果能够充分利用SLMs的潜力,这些更经济实惠和易获取的SLMs也可以提供令人印象深刻的结果。在第3节中,我们介绍了知识组件(KC)发现[17]的一个案例研究,这是一个AIED中的关键挑战,并描述了我们使用Phi-2的独特解决方案。我们的方法创造性地将Phi-2作为一个概率机器来测量问题相似度,并应用聚类算法识别属于同一KC的问题;两个数据集上的结果显示,使用我们方法生成的KCs,教师可以更好地预测学生的表现,而不是使用专家或更强大的GPT-4o生成的KCs。这项案例研究的积极结果强化了我们的立场,即像Phi-2这样的小型语言模型可以为关键的AIED问题提供有效解决方案,并作为推动包容、个性化和道德教育的催化剂,让教师和学生公平地获得教育,正如AIED 2025所倡导的那样。

12.7 B{ }^{1} 2.7 \mathrm{~B}12.7 B 浮点数需要 16×2.7 B=43.2 B16 \times 2.7 \mathrm{~B}=43.2 \mathrm{~B}16×2.7 B=43.2 B 位,这相当于 43.2 B/8 B=5.443.2 \mathrm{~B} / 8 \mathrm{~B}=5.443.2 B/8 B=5.4千兆字节,如果8位构成1字节。

2 背景

2.1 大型语言模型在教育中的崛起

近年来,自然语言处理(NLP)的进步极大地惠及了教育领域,其发展从基于规则的方法演变为统计方法,最终发展为神经网络模型[18]。早期的教育应用使用相对简单的NLP技术执行诸如自动作文评分[27]等任务;然而,最近的研究工作则利用先进的语言模型应对教育中日益复杂的挑战。

Transformer架构于2017年引入[29],使研究人员能够构建具有更强语言理解和生成能力的更复杂语言模型。结合更高效的硬件和更好的语料库,这种架构创新推动了参数数量逐步增加的模型的发展——一些重要的里程碑包括GPT-3 [3](175B参数)、PaLM [6](540B参数)和GPT-4 [22](估计1.76T参数)。这些巨型语言模型在各种教育应用中表现出显著的能力,包括但不限于提示生成[23]、问题生成[26]和KC发现[19]。

伴随更强大模型的发展,强调扩展——增加模型大小、训练数据和计算资源——成为提高模型性能的主要机制[15]。这种扩展定律表明,随着模型规模的增加,许多意想不到的能力会浮现,通常更大规模的模型在多种任务中优于更小规模的模型[30]。虽然扩展定律的成功应用几乎耗尽了可用于衡量LLMs进展的基准测试,促使开发所谓的“人类最后考试”2,但也提高了计算和财务要求,阻止了资源受限的教育机构公平使用LLMs,并需要对源代码和训练数据进行更严格、更私密的访问,而这本可以帮助研究人员构建更有效的AIED工具。此外,社区对更大规模模型的广泛偏好可能会加剧忽略SLMs在提供有效和可及的AIED解决方案方面影响的危险。

2.2 教育中小型语言模型的潜力

与扩展努力相反,研究人员还开发了更小、更高效的模型,挑战了扩展作为实现良好性能唯一途径的主导地位。最近,像Phi-2(2.7B参数)这样的模型展示了精心的数据整理和创新的训练方法可以在显著较小的规模上产生令人惊讶的强大模型[13]。

由微软研究院开发的Phi-2是高效语言模型的典范。这个SLM基于标准的Transformer解码器架构,并使用传统的下一个标记预测目标进行训练。然而,让它与众不同的是不是架构创新,而是独特的训练方法。

2{ }^{2}2 https://agi.safe.ai/
它独特之处在于训练数据的质量而非数量。与许多在海量但异质的互联网语料库上训练的较大模型不同,Phi-2主要是在研究人员称之为“教科书质量数据”11的语料库上训练的——这些数据经过精心整理,重点放在教育材料、设计用于推理能力的合成文本以及具有高教育价值的过滤后的网络内容上。

这种重视数据质量而非数量的独特训练方法,产生了一个特别适用于教育应用的高效SLM。在评估数学(GSM8k [9])和编码(HumanEval [5],MBPP [2])推理技能的竞争基准中,Phi-2大幅超越了Mistral 7B [14]和Llama-2 13B [28],这两者的规模分别是Phi-2的1.6倍和3.8倍。与规模大25倍的Llama-2 70B [28]相比,Phi-2在编码方面取得了显著更好的性能,并在数学推理技能方面表现出相当的能力[13]。在评估语言模型在57个学术科目知识的MMLU基准[12]中,Phi-2超越了Llama-2 13B(54.8分),并取得了与Mistral 7B(60.1分)相当的分数(56.7分)。

从计算效率的角度来看,Phi-2也为教育应用提供了显著的优势。大约需要5.4GB内存进行存储(加上推理所需的额外内存),Phi-2可以部署在消费者级硬件上,要求较低(常规的16-GB GPU),从而实现无需依赖云端基础设施的本地推理。这种灵活的部署方式有助于减少阻碍资源受限学校使用最新AI工具的第一数字鸿沟[1],并通过不共享学生数据给第三方保护学生隐私[24]。

Phi-2在学术基准测试中的出色表现和对计算机硬件的适度要求,使其成为需要大量计算资源并引发关键隐私问题的巨大语言模型的有力替代品。其在高质量教科书数据上的广泛预训练使Phi-2特别适合教育应用。例如,如表1所示,当我们在几乎空提示的情况下要求Phi-2依次生成最可能的标记时,Phi-2会引用一个教育维基页面(附带有效链接3),并自发生成与页面上提到的实体相关的问答。接下来,我们将描述一个具体的案例研究,我们创造性地使用Phi-2设计了一种KC发现算法,其性能超过了教学专家和GPT的对应算法。

3 案例研究:知识组件发现

知识组件(KCs)代表学生通过学习以完成任务或解决问题所掌握的具体概念或技能,是KLI框架[17]中的基本元素,帮助教师评估学生的学习情况。传统上,教学专家参与认知任务分析(CTA)[8]以识别每个评估项目相关联的KCs,但是

3{ }^{3}3 https://en.wikipedia.org/wiki/List_of_minor_planets:_386001%E2%80%89%E2%80%93387000
表1. Phi-2特别针对教育应用进行了调整。配置为每步选择最可能的标记(top-1采样),在被要求写作后,Phi-2开始引用教育资源并生成问题。

<url_begin>https://en.wikipedia.org/wiki/List
%20of%20minor%20planets%3A%20386001%E2%80%93387000<url_end>
主题: 科学

  1. 什么是小行星中心?
  2. 答案: 小行星中心是一个收集和发布小行星、彗星和其他太阳系小型天体数据的组织。

即使应用于中等规模的题库,CTA也会耗费大量的时间和人力成本。人工智能在教育中的加速应用加重了教师的负担,他们需要手动分析不断增加的人工智能生成的问题。

为了解决这一挑战,最近的一项研究[19]使用GPT-4 [22]从多项选择题(MCQs)中提取KCs。作者设计了复杂的提示策略,让GPT-4模拟教学专家或教科书作者。尽管在评估研究中,三位参与者中有大多数人认为GPT生成的KCs优于专家设计的KCs超过60%的评价问题,这种方法对于教师认为应属于同一KC的问题产生了略有不同措辞的KC标签[19]。在我们使用更先进的GPT-4o(OpenAI提供的最智能的非推理LLM)复制他们的研究时,我们从相同的电子学习数据集中获得了614个唯一的KC标签,涵盖630个MCQs。KC标签的数量与问题数量相当,这表明某些标签可以合并。实际上,我们发现GPT-4o生成了不必要的细化标签(例如,“分析CTA”,“分析电子学习中的CTA”,和“分析CTA方法”),这些标签可以合并。

在我们最近的工作[31]中,我们证明了利用语言模型作为“概率机器”的原生潜力,而不是更传统的文本生成能力,即使使用SLMs如Phi-2,也可以得出强大的KC发现算法。核心思想是,语言模型可以诱导一种新的问题相似度度量,聚类算法可以利用这种度量来识别可能共享相同KC的一组相似问题。受到词共现的启发,我们假设如果一个问题增加了另一个问题出现的可能性,则这两个问题是连贯的,并可能与同一个KC相关。我们推导出问题连贯性的公式,这是一种新的问题相似度度量,数学上等价于两个问题之间的逐点互信息(PMI)[7],并描述了一种使用Phi-2计算所需各种概率的算法。

我们使用两组数据集评估了我们的方法,这些数据集是在2022年和2023年由两位不同的教师教授的研究生电子学习课程中收集的。比较不同KC发现方法的一种常见做法是,将每种方法生成的KCs拟合到学生响应数据的加法因子模型(AFM)[4];更好的KC发现方法应该能让教师以更低的均方根误差(RMSE)预测学生响应。在2022年的数据集中,我们的方法实现了0.4220的RMSE,优于专家(0.4235)和GPT-4o(0.4395);同样,在2023年的数据集中,我们的方法得分为0.4066,领先于专家(0.4075)和GPT-4o(0.4101)。值得注意的是,高度能干的GPT-4o在这两个不同的数据集中表现最差;这进一步支持了我们的主张,即如果能够充分挖掘SLMs的潜力,它们也能提供优异的结果。

4 结论

通过这篇前瞻性的论文,我们并不是主张AIED社区应放弃LLMs转而支持其更高效的替代品,也没有暗示SLMs具备LLMs所能做的一切能力。与许多AIED研究人员一样,我们对两条NLP研究路线的互补发展及其在教育中的潜在应用感到兴奋。然而,为了赋予教师和学生平等的未来,正如AIED 2025所倡导的,SLMs在提供可及性AIED解决方案方面的潜力不容忽视。正如案例研究所示,创新性地挖掘SLMs的潜力可以比基于密集提示工程的标准LLMs使用方式提供更优越的结果。我们敦促AIED社区重新考虑,下次调用LLM的便捷API时,是否危及了目标受众的可及性,而他们实际上可能受益于SLM。

参考文献

  1. Attewell, P.: 评论:第一和第二数字鸿沟。教育社会学 74(3), 252-259 (2001),http://www.jstor.org/stable/2673277
    1. Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., Sutton, C.: 使用大型语言模型进行程序合成。arXiv预印本 arXiv:2108.07732 (August 2021),https://arxiv.org/abs/ 2108.07732
    1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D.M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark,
      5{ }^{5}5 https://pslcdatashop.web.cmu.edu/DatasetInfo?datasetId =5843=5843=5843
      J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., Amodei, D.: 语言模型是少量样本学习者。神经信息处理系统进展 33, 1877-1901 (2020),https://proceedings.neurips.cc/paper/2020/file/ 1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf, arXiv:2005.14165
  2. Cen, H., Koedinger, K.R., Junker, B.: 过度练习有必要吗?通过教育数据挖掘改进认知导师的学习效率。在:2007年人工智能在教育会议:构建有效的技术支持学习情境的论文集。p. 511-518. IOS出版社,荷兰 (2007)
    1. Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H.P.d.O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., Ray, A., Puri, R., Krueger, G., Petrov, M., Khlaaf, H., Sastry, G., Mishkin, P., Chan, B., Gray, S., Ryder, N., Pavlov, M., Power, A., Kaiser, L., Bavarian, M., Winter, C., Tillet, P., Such, F.P., Cummings, D., Plappert, M., Chantzis, F., Barnes, E., Herbert-Voss, A., Guss, W.H., Nichol, A., Paino, A., Tezak, N., Tang, J., Babuschkin, I., Balaji, S., Jain, S., Saunders, W., Hesse, C., Carr, A.N., Leike, J., Achiam, J., Misra, V., Morikawa, E., Radford, A., Knight, M., Brundage, M., Murati, M., Mayer, K., Welinder, P., McGrew, B., Amodei, D., McCandlish, S., Sutskever, I., Zaremba, W.: 评估大规模训练代码的语言模型。arXiv预印本 arXiv:2107.03374 (July 2021),https:// arxiv.org/abs/2107.03374
    1. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H.W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., Reif, E., Du, N., Hutchinson, B., Pope, R., Bradbury, J., Austin, J., Isard, M., Gur-Ari, G., Yin, P., Duke, T., Levskaya, A., Ghemawat, S., Dev, S., Michalewski, H., Garcia, X., Misra, V., Robinson, K., Fedus, L., Zhou, D., Ippolito, D., Luan, D., Lim, H., Zoph, B., Spiridonov, A., Sepassi, R., Dohan, D., Agrawal, S., Omernick, M., Dai, A.M., Pillai, T.S., Pellat, M., Lewkowycz, A., Moreira, E., Child, R., Polozov, O., Lee, K., Zhou, Z., Wang, X., Saeta, B., Diaz, M., Firat, O., Catasta, M., Wei, J., Meier-Hellstern, K., Eck, D., Dean, J., Petrov, S., Fiedel, N.: Palm: 使用路径扩展语言建模 (2022)
    1. Church, K.W., Hanks, P.: 词关联规范、互信息和词典编纂。在:第27届计算语言学协会年会上发表的论文。pp. 76-83. 计算语言学协会,加拿大温哥华,不列颠哥伦比亚省 (Jun 1989)
    1. Clark, R.E., Feldon, D., van Merriënboer, J.J.G., Yates, K., Early, S.: 认知任务分析。在:Spector, J.M., Merrill, M.D., van Merriënboer, J.J.G., Driscoll, M.P. (eds.) 教育传播与技术研究手册,pp. 577-593. Macmillan/Gale, New York, 第3版 (2008)
    1. Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., Schulman, J.: 训练验证器解决数学文字问题。arXiv预印本 arXiv:2110.14168 (October 2021),https://arxiv.org/abs/2110.14168
      10.10. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: 预训练双向变压器以理解语言。2019年北美计算语言学协会会议论文集:人类语言技术(卷1,长篇和短篇论文)pp. 4171-4186 (June 2019). https://doi.org/10.18653/v1/N19-1423, https: //aclanthology.org/N19-1423/
  3. Gunasekar, S., Zhang, Y., Aneja, J., Mendes, C.C.T., Giorno, A.D., Gopi, S., Javaheripi, M., Kauffmann, P., de Rosa, G., Saarikivi, O., Salim, A., Shah, S., Behl,
  4. H.S., Wang, X., Bubeck, S., Eldan, R., Kalai, A.T., Lee, Y.T., Li, Y.: 教科书就是你所需要的 (2023)
    1. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., Steinhardt, J.: 测量大规模多任务语言理解。国际学习表征会议(ICLR)论文集 (2021),https: //arxiv.org/abs/2009.03300, arXiv:2009.03300
    1. Javaheripi, M., Bubeck, S., Abdin, M., Aneja, J., Bubeck, S., Mendes, C.C.T., Chen, W., Giorno, A.D., Eldan, R., Gopi, S., Gunasekar, S., Javaheripi, M., Kauffmann, P., Lee, Y.T., Li, Y., Nguyen, A., de Rosa, G., Saarikivi, O., Salim, A., Shah, S., Santacroce, M., Behl, H.S., Kalai, A.T., Wang, X., Ward, R., Witte, P., Zhang, C., Zhang, Y.: Phi-2: 小型语言模型的惊人力量 (Dec 2023)
    1. Jiang, A.Q., Sablayrolles, A., Mensch, A., Bamford, C., Chaplot, D.S., Casas, D.d.l., Bressand, F., Lengyel, G., Lample, G., Saulnier, L., Lavril, T., Lachaux, M.A., Massiceti, D., Rio, J., Lambert, R., Bhosale, S., Aminov, S., Kool, W., Everett, R., Gu, A., Dukma, S., Hao, H., Zhou, X., Chen, J., Iovine, C., Chen, W., Wang, V., Calandriello, J.: Mistral 7b. arXiv预印本 arXiv:2310.06825 (October 2023),https://arxiv.org/abs/2310.06825
    1. Kaplan, J., McCandlish, S., Henighan, T., Brown, T.B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., Amodei, D.: 神经语言模型的扩展定律 (2020),https://arxiv.org/abs/2001.08361
    1. Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok, G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., Stadler, M., Weller, J., Kuhn, J., Kasneci, G.: Chatgpt有益吗?关于大型语言模型在教育中的机遇与挑战。学习与个体差异 103, 102274 (2023). https://doi.org/https://doi.org/10.1016/j.lindif.2023. 102274, https://www.sciencedirect.com/science/article/pii/S1041608023000195
    1. Koedinger, K.R., Corbett, A.T., Perfetti, C.: 知识-学习-教学框架:弥合科学与实践之间的鸿沟以增强学生的稳健学习。认知科学 36(5), 757-798 (2012). https://doi.org/https://doi.org/10. 1111/j.1551-6709.2012.01245.x, https://onlinelibrary.wiley.com/doi/abs/10.1111/ j.1551-6709.2012.01245.x
    1. Litman, D.: 自然语言处理在提升教学与学习中的应用。AAAI人工智能会议论文集 30(1) (Mar 2016). https: //doi.org/10.1609/aaai.v30i1.9879, https://ojs.aaai.org/index.php/AAAI/article/ view/9879
    1. Moore, S., Schmucker, R., Mitchell, T., Stamper, J.: 从多项选择题自动生成和标记知识组件。在:第十一届ACM规模学习会议论文集。p. 122-133. L@S '24, 计算机协会,纽约,NY,USA (2024). https: //doi.org/10.1145/3657604.3662030, https://doi.org/10.1145/3657604.3662030
    1. Olney, A.M., Chounta, I.A., Liu, Z., Santos, O.C., Bittencourt, I.I. (eds.): 教育中的人工智能:第25届国际会议,AIED 2024,巴西累西腓,2024年7月8-12日,会议记录,第二部分,计算机科学讲义,卷14830. Springer Nature Switzerland, Cham (2024). https://doi.org/10.1007/ 978-3-031-64299-9, https://link.springer.com/10.1007/978-3-031-64299-9
    1. OpenAI: Chatgpt: 优化对话的语言模型。OpenAI博客 (November 2022), https://openai.com/blog/chatgpt/, 访问日期:2025年3月
    1. OpenAI: Gpt-4技术报告。arXiv预印本 arXiv:2303.08774 (March 2023), https://arxiv.org/abs/2303.08774
    1. Pardos, Z.A., Bhandari, S.: Chatgpt和人类导师生成的代数提示之间学习增益的差异 (2023)
    1. Prinsloo, P., Slade, S.: 学习分析房间里的大象:行动义务。在:第七届国际学习分析与知识大会论文集。p. 46-55. LAK '17, 计算机协会,纽约,NY,USA (2017). https://doi.org/10.1145/3027385.3027406, https://doi.org/10.1145/3027385.3027406
    1. Reich, J., Ito, M.: 从良好意图到实际成果:学习技术中的设计公平。在:Fitzgerald, W., Burns, J., Sonwalkar, N., Urry, J. (eds.) 数字学习挑战:版权材料在数字时代教育用途的障碍,pp. 1-42. 数字媒体与学习研究中心,加州欧文 (2017), https://clalliance.org/publications/ good-intentions-real-outcomes-equity-design-learning-technologies/
    1. Sarsa, S., Denny, P., Hellas, A., Leinonen, J.: 使用大型语言模型自动生成编程练习和代码解释。在:2022年ACM国际计算教育研究会议论文集 - 第1卷。p. 27-43. ICER '22, 计算机协会,纽约,NY,USA (2022). https://doi.org/10.1145/3501385.3543957, https://doi.org/10.1145/ 3501385.3543957
    1. Shermis, M., Burstein, J.E.: 自动化作文评估手册:当前应用和新方向。写作研究期刊 5(2), 239-243 (Oct 2013). https://doi.org/10.17239/jowr-2013.05.02.4, https://www.jowr.org/ jowr/article/view/692
    1. Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C.C., Chen, M., Cucurull, G., Esiobu, D., Fernandes, J., Fu, J., Fu, W., Fuller, B., Gao, C., Goswami, V., Goyal, N., Hartshorn, A., Hosseini, S., Hou, R., Inan, H., Kardas, M., Kerkez, V., Khabsa, M., Kloumann, I., Korenev, A., Koura, P.S., Lachaux, M.A., Lavril, T., Lee, J., Liskovich, D., Lu, Y., Mao, Y., Martinet, X., Mihaylov, T., Mishra, P., Molybog, I., Nie, Y., Poulton, A., Reizenstein, J., Rungta, R., Saladi, K., Schelten, A., Silva, R., Smith, E.M., Subramanian, R., Tan, X., Tang, B., Thakoor, R., Trinh, P., Tsai, T.H., Wang, X., Wang, W., Wu, Z., Zhang, Y., Zhang, M., Zheng, P., Zhou, M., Zhu, W.: Llama 2: 开放的基础和微调聊天模型。arXiv预印本 arXiv:2307.09288 (July 2023), https://arxiv.org/abs/2307.09288
    1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I.: 注意力就是你所需要的。在:Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (eds.) 神经信息处理系统进展第30卷(NIPS 2017)。pp. 59986008. Curran Associates, Inc. (2017), https://papers.nips.cc/paper/2017/file/ 3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
    1. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E.H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., Fedus, W.: 大型语言模型的新兴能力。机器学习研究交易 (2022), https://openreview.net/forum?id= yzkSU5zdwD, 调查认证
    1. Wei, Y., Carvalho, P., Stamper, J.: Kcluster: 一种基于LLM的知识组件发现聚类方法 (2025), https://arxiv.org/abs/2505.06469
      参考论文:https://arxiv.org/pdf/2505.08588
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐