如今,DeepSeek、ChatGPT 和 Google Gemini 是全球最热门和令人兴奋的大型语言模型(LLM)技术,用于推理、多模态能力和通用语言性能。DeepSeek 采用专家混合(MoE)方法,仅激活与当前任务最相关的参数,使其在特定领域的任务中特别有效。另一方面,ChatGPT 依赖于通过人类反馈强化学习(RLHF)增强的密集变压器模型,而 Google Gemini 实际上使用了一种多模态变压器架构,将文本、代码和图像集成到一个单一框架中。然而,通过这些技术,人们可以以成本效益高且领域特定的方式挖掘所需的文本、代码、图像等。人们可能会根据最佳性能选择这些技术。就此而言,我们在本研究中提供了基于 DeepSeek、ChatGPT 和 Gemini 技术的比较研究。首先,我们关注它们的方法和材料,适当包括数据选择标准。然后,我们根据它们的应用展示了 DeepSeek、ChatGPT 和 Gemini 的最新功能。最重要的是,我们展示了它们之间的技术比较,并涵盖了各种应用的数据集分析。最后,我们针对基于 LLM 的人工智能研究社区提出了广泛的研究领域和未来的潜在指导方向。​​​​​​​

大型语言模型(LLMs)彻底重塑了自然语言处理和人工智能领域。这些模型现在不仅使计算机能够处理和生成人类语言,还能够基于语言进行推理 [1]。近年来,像 DeepSeek、ChatGPT 和 Gemini 这样的工具进一步推动了这些能力的发展。通过整合专业知识、利用来自人类反馈的强化学习(RLHF)以及支持多模态输入,它们拓宽了人工智能应用的范围 [2],[3]。今天,这类技术正在医疗保健、金融、教育和客户服务等领域留下印记,帮助提供个性化响应并解决复杂的分析任务。

  1. 动机
    大型模型的快速演变很大程度上是对人工智能系统管理现实、复杂挑战的需求增加作出的回应 [4]。DeepSeek 就是这样一个例子,它采用了专家混合(MoE)方法,准确选择仅在预测时使用的最相关参数。这种有针对性的激活减少了计算成本,提高了效率,特别是在专注于特定领域的应用中 [5]。同时,ChatGPT 通过结合来自人类反馈的强化学习(RLHF)增强了其对话技能,使其能够生成既符合上下文又流畅的响应 [6]。相比之下,Gemini 凭借其多模态设计脱颖而出,该设计将文本、图像和音频合并在一起,使其能够处理和生成不同类型的数据输出。这些突破不仅提高了整体模型性能,还为特定领域中的 LLM 创新应用铺平了道路 [7]。
  2. 相关研究

最近的研究对现代大型语言模型(LLMs)的开发和表现提供了相当多的见解。例如,Smith 等人 [8] 详细介绍了 DeepSeek 的架构,显示其专家混合(MoE)方法在处理特定领域查询时提升了效率和性能。同样,Rojas 和 Kim [9] 探讨了 ChatGPT 在跨多种语言和维持连贯、符合上下文的对话方面的能力,在各种主题上的回答准确性很高。

Johnson 等人 [10] 集中讨论了 Gemini 的多模态变压器设计,解释了其融合文本、代码和视觉数据如何支持复杂任务中不同类型输入的高级推理。在一项相关研究中,Park 和 Gupta(2024)考察了 Gemini 中使用的跨模态对齐技术,这增强了模型有效合并不同信息源的能力。与此同时,Anderson 等人 [11] 研究了 ChatGPT 中的扩展策略和使用来自人类反馈的强化学习(RLHF),指出对话生成和整体用户互动有明显改进。这些作品共同提供了关于当前 LLM 方法和基准的丰富多层次视角。

此外,Chang 等人 [12] 提供了对几个领先 LLM 的广泛概述,包括 GPT、LLaMA 和 PaLM,讨论了它们的架构、关键贡献、局限性、所使用的数据集以及它们在标准基准测试中的表现。Qin 等人 [13] 还总结了诸如 BERT、GPT-3 和 LLaMA 等有影响力的模型的架构和贡献,对比了它们的优势、劣势和在广泛的自然语言处理任务中的表现。最后,Sindhu 等人 [14] 指出了 LLM 当前的应用、挑战和未来研究方向,重点在于持续的变压器架构创新和性能指标优化,以推动进一步发展。表 I 显示了一些论文的选择,以便比较先前的研究。本文的主要贡献是:

  • 我们对 DeepSeek、ChatGPT 和 Gemini 进行了全面的比较分析,重点关注它们的架构、训练方法和特定领域的应用,并进行了适当的解释。
  • 作者集中于基于 DeepSeek、ChatGPT 和 Gemini 收集和搜索适当数据的方法和材料,并进行了技术上的比较。
  • 此外,我们实施了一个性能基准框架,评估这些模型在标准化指标如准确性和推理能力方面的表现。
  • 最后,我们对 LLM 的限制和未来机会进行了详细的讨论,强调了可解释性和多模态集成方面的改进。

调查组织:本研究其余部分的组织如下。第二部分描述了 DeepSeek、ChatGPT 和 Gemini 所采用的材料和方法。第三部分详细介绍了这些模型的最新功能和技术创新,第四部分比较了它们的性能、训练数据集和评估指标。第五部分介绍了我们用于开发 DeepSeek、ChatGPT 和 Gemini 应用程序的常用数据集。此外,第六部分讨论了性能分析。第七部分涵盖了挑战和未来方向。另外,第八和第九部分解释了限制和讨论。最后,我们在第十部分结束全文。

II. 材料和方法

本综述文章的研究策略旨在全面评估 DeepSeek、ChatGPT 和 Gemini 的优势、局限性和比较能力。通过采用 PRISMA 指南 [23] 在论文选择过程中确保透明度和可重复性。从 Web of Science、Google Scholar 和 ResearchGate 使用 PRISMA 图(图 1)搜索相关研究。去除重复项后,筛选了 127 篇记录的相关性,并对 86 篇全文文章进行了额外严格的评估。根据一些纳入和排除标准 [24],最终分析选择了 59 篇论文。

论文的选择依据是它们展示了 AI 模型的架构规范、跨域有效性实验或与当前系统的相对平等比较。被排除的论文是因为缺乏方法学上的可靠性、过于关注单一模型而没有比较视角,或者未能通过逻辑推理、代码生成或多模态集成领域的实际应用测试。这种严格的选择使得呈现有效、可行的研究和进行坚实、情境驱动的分析成为可能。

图 1. 根据 PRISMA 流程图选择论文

A. 研究问题

本项目的总体研究问题是分析 DeepSeek、ChatGPT 和 Gemini 在各个领域和任务中的优缺点和权衡。特别是,该项目研究这三个模型在准确性、逻辑和数值推理、编程能力和响应生成方面的比较。比较还考察了这些模型的基础架构——DeepSeek 的专家混合(MoE)[25]、ChatGPT 的密集变压器模型和来自人类反馈的强化学习(RLHF)[26],以及 Gemini 的多模态 表一 近期关于 ChatGPT、Gemini 和 DeepSeek 的研究比较

研究 对比模型 方法/评估 关键发现 优势 缺点
Ahmed 等人 [15] Gemini vs. GPT-4V 视觉推理任务的混合定性/定量分析 Gemini 提供简洁的视觉推理,但简单细节(如时钟时间)可能被错误表示 有效的多模态集成 偶尔出现系统性错误
Liu 等人 [16] DeepSeek-V3 vs. Llama 3.1, GPT-4o, Claude 3.5 推理任务和成本分析的基准测试 在成本的一小部分内实现竞争性的推理能力,具有扩展的上下文能力 高成本效率;长上下文窗口 在高需求下推理速度下降
Shao 等人 [17] DeepSeekMath vs. 基础模型(如 ChatGPT) 数学任务中带有链式思维验证的强化学习 通过增强推理显著改善复杂数学问题 健壮的数学推理和逐步内部检查 在数学之外的泛化能力有限
Wang 等人 [18] 多个 LLMs(包括 ChatGPT 变体、DeepSeek) 数学和编码任务中使用奖励模型进行逐步验证 强化学习提高了推理的准确性和透明度 更好的错误纠正;清晰的推理痕迹 额外的计算开销和延迟
Liu 等人 [16] DeepSeek-V2 vs. 开源/商业模型 混合专家架构和标记基准评估 强劲的性能,资源使用和可扩展性出色 经济高效的设 计 专家平衡的挑战
Cheng 等人 [19] 视觉语言模型(Gemini)vs. ChatGPT 基准 多模态基准测试中的反思链提示 反思方法增强了视觉和文本推理 改进了视觉和文本数据的集成 处理时间增加和更高的计算成本
Xu 等人 [20] ChatGPT,Gemini,DeepSeek 效率和能耗基准测试 Gemini 能耗稍低;DeepSeek 成本优异,而 ChatGPT 保持稳健 能耗和成本间的明确权衡 因动态能耗基准而变化
Sun 等人 [21] ChatGPT,Gemini 结合开源和专有策略的混合评估对话 混合方法可以利用每个模型的优势;开源组件提升透明度 创新的集成;提高鲁棒性 系统复杂性增加
Peng 等人 [22] ChatGPT,Gemini 使用一组标准化提示控制研究安全性和偏差 ChatGPT 和 Gemini 比 DeepSeek 更好地减轻偏差,尽管灵活性较低 深入的安全性和伦理评估 样本量有限和提示特定发现

变压器——影响它们在实际任务中的可用性、效率和性能 [27],[28]。

B. 论文收集

论文收集按照公开的 PRISMA 协议系统地进行。初步搜索通过 Web of Science 得到 54 篇记录,通过 Google Scholar 得到 67 篇记录,通过 ResearchGate 得到 41 篇记录。去重后,根据相关性标准筛选了 127 篇论文,包括是否提供了有关模型性能、架构或领域特定应用的比较见解。

我们排除了未提供详尽模型评估信息的、仅涉及单一模型且无比较的、或仅考虑模型子组(例如,仅评估 Gemini 的多模态功能而不与其他模型比较)的研究。经过相关性筛选后,根据更具体的标准对 86 篇全文论文进行了资格审查,包括是否存在性能评估指标、领域特定任务的解释和实际应用问题的讨论。最后,59 篇文章满足所有标准并被选为 后续分析。图 1 通过 PRISMA 图展示此过程以确保透明度和可重复性 [29]。

C. 数据集和数据来源

用于训练和测试模型的数据集有所不同,使用了通用目的和领域特定的来源。通用语言覆盖的主要来源包括 Common Crawl 和 WebText,BooksCorpus 用于长篇结构化文本数据 [30],[31]。PubMed 和 arXiv 等领域特定语料库对于测试科学和医学文本生成至关重要。GitHub 和 Stack Overflow 数据集启用了基于代码的任务。Gemini 的测试还需要多模态数据集,如 LAION-400M,它由图像-文本对组成,用于测试模型在跨模态内容生成和处理方面的能力 [32]。还使用了私有数据集来测试金融和法律等领域的特定用途案例。这种数据集创建的变化允许对每个模型在异构任务上的能力进行全面测试。

D. 数据集论文收集

数据收集过程的设计方式是使每个模型根据其个体设计和 专业化进行测试。作为专用模型,DeepSeek 依赖于精心整理的医疗、法律和金融语料库。ChatGPT 的数据集更为通用,包含普通网络文本、精心整理的对话记录和开源代码存储库。Gemini 基于一种多模态数据集,该数据集将文本、代码和视觉数据合并在一起,从而实现强大的跨模态推理和内容生成。这种分类确保在评估过程中考虑到每个模型的独特优势,从而在不同背景下进行有意义的性能比较。

E. 不同性能测试

为了提供对每个模型弱点和强项的详细评估,探索了各种性能领域 [33],[34]。通过与 MMLU 等基准进行评估的定量和逻辑推理测试,测试了模型的数学和分析问题解决能力。涉及复杂和多步骤复杂性的推理测试旨在评估模型回答上下文相关、多步骤问题的能力。通过 HumanEval 基准测试评估了编码能力,该基准测量了模型生成工作代码、调试和生成详细解释的能力 [35]。日常使用的可用性测试集中在对话流程、上下文回忆和真实世界模拟测试中的答案相关性上。此外,评估了模型在多语言提示下的功能,以评估其适用于不同语言和文化背景的程度。论文的分类法如图 2 所示。

F. 模型架构和技术:

检查了每个模型的架构,以确定设计决策如何影响性能。DeepSeek 的专家混合(MoE)架构在推理时有条件地激活相关参数,调节计算成本以适应特定领域的提示。ChatGPT 的密集变压器模型经过 RLHF 优化,使其能够在动态对话环境中保持上下文连贯性和对话流畅性。Gemini 的多模态变压器模型设计促进了文本、代码和图像数据的轻松集成,并为跨模态推理和内容创作提供了强大支持。通过比较这些架构,这项工作突显了每个模型在不同应用场景中的独特优势和局限性。

G. 计算资源:

所有实验都在一致的高性能计算环境中进行,以确保公平性和可重复性。使用高性能 GPU 为所有模型提供可靠的计算资源。固定输入标记长度、批量大小和内存分配的标准化设置用于消除性能比较中的可能偏差。通过改变计算负载进行可扩展性测试,以测试模型在实际使用场景下的性能稳定性。这种受控设置保证了测试结果的可靠性和对模型实际能力的真实反映。

III. DEEPSeEK、ChatGPT 和 Gemini 应用:最新功能

A. 发布生成人工智能(AI)工具前的早期特征

在当代生成式 AI 出现之前,语言模型的研究是由推动当今复杂系统的进步所驱动的。最初的方 法依赖于静态词表示和基于规则的处理,正如 Word2Vec 和 GloVe 模型的情况一样,引入了密集向量嵌入来表示语义关系 [36],[37]。尽管这些方法由于缺乏上下文依赖意义而受到限制,但它们对紧凑的语言表示和可扩展性研究做出了重要贡献。这项初始研究凸显了利用大型数据集完成自然语言任务的潜力,这一概念将成为 DeepSeek 等模型领域特定优化的基础 [38]。这个初期阶段,以成功嵌入策略和早期变压器概念的发现为特征,为更主动、生成架构的进化奠定了基础 [39]。

B. 发布现代生成人工智能(AI)工具后的特征

现代生成式 AI 工具的引入标志着自然语言处理的一个范式转变,使模型能够生成连贯、上下文丰富的输出 [40]。在这个时代,DeepSeek、ChatGPT 和 Google Gemini 各自展示了与其独特设计理念相符的最新功能。

  1. DeepSeek 工具的功能:特别是 R1 版本,DeepSeek 工具利用专家混合架构,动态激活与当前输入相关的模型参数。除了优化计算效率外,这种架构在计算资源受限的情况下仍能保持性能,从而为特定领域(即医疗、法律和金融)提供更强健的表现。DeepSeek R1 的专业设计意味着它可以在不产生高昂运营费用的情况下,在特定任务中表现出色 [41],[42]。
  2. ChatGPT 工具的功能:另一方面,ChatGPT 建立在一个密集变压器框架之上,并通过来自人类反馈的强化学习(RLHF)加以丰富。这种组合使得快速响应时间和敏捷的对话交互成为可能,使 ChatGPT 在实时对话场景中非常有效 [43]。尽管其架构在长时间对话中保持上下文的能力尤为坚韧,但在遇到复杂或模糊的提示时偶尔会遇到挑战。ChatGPT 的优势在于其能够快速、连贯且灵活地生成适用于广泛通用目的应用的文本 [44]。
  3. Gemini 工具的功能:Google Gemini 在多模态集成方面取得了显著进展。其基于变压器的架构旨在同时处理文本、代码和视觉数据,从而拓宽了其在生成内容创建和跨模态分析等任务中的适用性 [45]。尽管需要额外的计算资源,Gemini 在各种数据类型上始终表现出强劲的性能,表明其能够管理复杂的综合任务。这种多模态功能使其特别适合依赖于多样化信息源集成的应用程序 [46]。
    C. 根据特性比较 DeepSeek、ChatGPT 和 Gemini
    如表 III 所示,这些模型的并列比较突出了各自不同的优势。DeepSeek R1 因其高效性和通过专家混合架构实现的领域特定强健性而与众不同。相比之下,ChatGPT 因其快速响应时间和对话灵活性而备受赞誉,这些属性源于其通过来自人类反馈的强化学习增强的密集变压器模型。与此同时,Google Gemini 在支持多种模式(文本、代码和图像)方面表现出色,在增加计算需求的情况下仍能在跨领域场景中表现出色。
    IV. DEEPSEEK、CHATGPT、GEMENI:技术比较
    大型语言模型(LLMs)的快速发展得益于训练架构、优化技术和数据驱动学习方法的突破。了解这些模型的技术基础需要考察它们的演变,从早期预训练模型到最新的最先进的系统。本节探讨了塑造 DeepSeek、ChatGPT 和 Gemini 的关键创新,从早期预训练模型的概述开始。
    A. 早期预训练模型
    在 DeepSeek、ChatGPT 和 Gemini 出现之前,多个早期预训练模型为当前的大规模语言模型(LLMs)奠定了基础。这些模型在大规模训练、自监督学习和变压器架构方面做出了重大贡献 [47]。其中一些最重要的早期模型如下:
  4. 词嵌入模型(2018 年前):早期 NLP 模型的主要关注点是静态词表示,而非生成文本特征。最具代表性的创新之一是 Google 在 2013 年推出的 Word2Vec [48]。Word2Vec 提出了一种新颖的方法,将词表示为连续向量嵌入,以捕捉词之间的语义联系。它使用了两种重要的架构,Skipgram [49] 和 Continuous Bag-of-Words (CBOW) [50],使模型能够预测特定上下文中的词。例如,如果“king”的向量减去“man”的向量并加上“woman”的向量,结果是一个与“queen”非常相似的向量表示 [51]。这展示了 Word2Vec 如何基于词的上下文识别词之间的相关语义联系。然而,Word2Vec 的主要缺点是它产生了静态嵌入,这意味着无论词使用的上下文如何,词总是具有相同的向量表示。
    2014 年,斯坦福大学推出了 GloVe(Global Vectors for Word Representation),这是 Word2Vec 的后续产品。与依赖局部上下文窗口的 Word2Vec 不同,GloVe 使用基于全局词共现统计的矩阵分解技术。因此,它能够更准确地表示整个语料库中的词间联系 [52]。尽管在需要复杂理解的任务中,GloVe 的效果有限,但由于其无法生成上下文相关的词表示,即使有显著进步。
    2016 年,Facebook AI Research 构建了 FastText [53],通过整合子词信息改进了词嵌入。这使得模型能够通过将词分解为较小的部分(子词)来更有效地处理罕见词,从而在具有复杂形态的语言中表现更好 [54]。这些早期词嵌入模型的影响显著,展示了预训练词表示的相关性,并为更复杂的 NLP 技术铺平了道路。 2) 上下文化语言模型(2018-2019):上下文化语言模型通过句子上下文生成动态表示,以应对静态词嵌入的不足。AllenNLP 在 2018 年推出的 ELMo(Embeddings from Language Models)[55] 是最早的显著创新之一。ELMo 使用深度双向 LSTM(长短期记忆网络)[56] 创建上下文化词嵌入。与 Word2Vec 和 GloVe 不同,ELMo 根据词的使用生成不同的表示,而不是给同一个词赋予相同的向量,无论其意义如何。这对于使用多义词(如“bank”指银行或河岸)[57] 的挑战尤其是一项重大改进。然而,由于依赖 LSTM 而非变压器,ELMo 在可扩展性和计算成本方面不如后者。
    2018 年 fast.ai 推出的 ULMFit(Universal Language Model Fine-tuning for Text Classification)是这一时期的另一项重要模型。ULMFit 对预训练的基于 LSTM 的语言模型进行微调以应用于下游任务,展示了 NLP 中迁移学习的有效性。这对后来的基于变压器的架构产生了重大影响,并极大地提高了语言模型训练的效果 [58]。这些模型具有重要意义,因为它们为随后的变压器革命奠定了基础。 3) 基于变压器的预训练模型(2018-2019):变压器架构的出现,通过用自注意力机制替代 LSTM 提高了稳定性和性能,是 NLP 的最重要发展。不同于单向上下文预测,Google 的开创性 BERT(Bidirectional Encoder Representations from Transformers)模型使用双向注意力。由于 BERT 能够双向分析文本,它 表二 DeepSeek R1、ChatGPT 和 Google Gemini 的比较分析。
特征 DeepSeek R1 ChatGPT Google Gemini
架构设计 专家混合(MoE)选择性激活参数 增强的密集变压器 RLHF 多模态变压器集成文本、代码和图像
效率 优化用于成本效益、领域特定处理 实时交互的快速响应时间 处理多样数据的稳健性;资源需求较高
速度 在特定任务中提供一致性能 在快速对话交流中表现出色 适中快;性能取决于多模态复杂性
韧性 在资源约束下保持稳定输出的应用 在长时间对话中保留上下文 在各种数据类型中表现出高韧性
专业化 适用于医疗、法律和金融等行业 适用于通用和对话任务 适用于集成、跨模态分析和创意应用的理想选择


图 2. 测试模型的 LLM 分类 能够比早期模型获得更广泛的上下文知识。它通过掩码语言建模(MLM)和下一句预测(NSP)进行训练,帮助它在问答和情感分析等任务中表现出色 [59]。然而,BERT 在对话式 AI 方面的应用有限,因为它并非为文本生成而设计。
同年,OpenAI 推出了采用不同策略的 GPT-1(Generative Pretrained Transformer),专注于自回归文本生成。与 BERT 的双向注意不同,GPT-1 使用单向解码生成文本。该模型使用 BooksCorpus 数据集进行训练,生成连贯流畅的文本 [60]。但是,只有 1.17 亿参数的 GPT-1 相对较小,限制了其泛化能力。 4) 使用大规模预训练模型扩展(2019-2020):到 2019-2020 年,模型在大小、强度和多模态方面显著扩展。2019 年 OpenAI 发布的 GPT-2 拥有 15 亿参数,标志着重大进步。与前代相比,GPT-2 具备零样本学习能力,无需手动微调即可完成 NLP 任务 [61]。然而,出于对滥用和虚假信息的担忧,OpenAI 最初推迟了其发布。后来的指令调整 模型受到 Google 同期发布的 T5(Text-to-Text Transfer Transformer)启发,它将每项 NLP 任务视为一个文本到文本的问题 [62]。
这个时代最具变革性的模型是 OpenAI 于 2020 年发布的 GPT-3,其参数规模扩大到 1750 亿。GPT-3 展示了少样本和零样本学习能力,使其在生成文本方面高度灵活 [63]。它也标志着商业 AI 服务的开端,导致了如 ChatGPT 等应用的出现。这些进步直接影响了 DeepSeek、ChatGPT 和 Gemini 的发展,塑造了现代生成式 AI。
B. 生成预训练模型
生成预训练模型家族包括现代大型语言模型如 ChatGPT、DeepSeek 和 Gemini。这些模型先在大规模文本数据集上进行预训练,然后针对特定应用进行调整。这是一个两步过程。每个模型都有独特的架构和能力。

  1. ChatGPT(OpenAI):从 GPT-3 发展而来,ChatGPT 进化为 GPT-3.5 和 GPT-4。它利用 RLHF(来自人类反馈的强化学习)和指令调整以改善用户体验 [64]。ChatGPT 因其强大的基于文本的 AI 功能而闻名,非常适合用于对话式 AI、客户服务和编码辅助。其核心优势在于能够在多个领域生成逻辑性强、上下文感知的语言。然而,ChatGPT 缺乏多模态能力——这一点在 GPT-4 Vision 中得到了补充——在其早期版本中是一个显著缺陷。
  2. DeepSeek:作为 GPT 基础模型的重要开源替代品,尤其是在中文 AI 研究社区中,DeepSeek 表现出色。DeepSeek R1 模型引入了专家混合(MoE)架构,仅在每次查询时激活其部分参数。与 ChatGPT 等密集模型相比,DeepSeek 因此更加计算高效。其成本效益高的扩展性使其能够有效部署于各种任务中。然而,它在语言泛化方面较弱,主要针对某些领域进行了优化 [65]。
  3. Gemini(Google DeepMind):2023 年,Google DeepMind 推出了 Gemini,取代了 PaLM 2。Gemini 是一款完全多模态模型,能够处理和生成文本、图像、音频和视频,而 ChatGPT 和 DeepSeek 则不具备这一能力。这使其非常适合需要跨模态理解的科学研究和 AI 驱动的内容生产等应用。尽管在纯文本应用中仍有优化问题,Gemini 在多模态学习方面具有显著优势 [66]。

C. 技术比较:DeepSeek 与 ChatGPT 与 Gemini

对 DeepSeek、ChatGPT 和 Gemini 方法的比较研究表明,它们在架构设计、训练效率和性能能力方面的差异,每个都适合特定的应用和用例。它们的主要特点简要概述在表 III 中,具体优势和劣势在以下讨论中详细说明。

1) 架构:

  • DeepSeek:DeepSeek 利用专家混合(MoE)架构,主要在推理期间激活部分参数。这种架构提高了计算效率,显著降低了训练成本,使其成为资源受限应用的可扩展选项 [16]。
  • ChatGpt:ChatGPT 采用密集变压器架构,在推理期间启用所有参数。这种方法确保在广泛的自然语言处理(NLP)任务中表现出色,从而在基于文本的应用中实现多功能性和可靠性 [67]。
  • Gemini:Gemini 使用多模态变压器设计,能够处理和生成文本、图片、音频和视频。这种设计允许各种数据格式的无缝集成,使其适用于需要多模态理解和生成的应用 [27]。
    2) 训练效率:
  • DeepSeek:DeepSeek 的 MoE 设计通过减少计算能力和资源需求实现了成本效益的训练,相较于密集模型更具效率。这种效率在大规模部署和迭代训练过程中特别有用。
  • ChatGpt:ChatGPT 的密集变压器架构在训练期间需要大量计算资源,从而增加了运营成本。然而,这种权衡通过其在广泛 NLP 任务中的卓越表现得以补偿。
  • Gemini:Gemini 利用其多模态能力在效率和性能之间取得平衡。虽然处理多种数据类型需要大量的计算能力,但其架构确保了这些要求在多模态集成活动中最小化。
    3) 性能:
  • DeepSeek:DeepSeek 通过其高效的设计和训练方法在逻辑推理和问题解决方面表现出色。其在推理期间仅激活重要参数的能力提高了特定应用的性能。
  • ChatGpt:ChatGPT 在自然语言理解和生成方面表现出色,使其成为各种基于文本的应用的强大工具,包括对话式 AI 和内容创作。
  • Gemini:Gemini 在多模态数据处理和生成方面表现出色,提供了将文本、图形、音频和视频集成的强大能力。这使其成为需要全面数据解释和开发的应用的理想选择,如多媒体内容创作和跨模态分析。 表三 DeepSeek、ChatGPT 和 Gemini 的技术比较
特征 DeepSeek(DeepSeek AI) ChatGPT(OpenAI) Gemini(Google DeepMind)
架构 专家混合(MoE) 密集变压器(GPT-4) 多模态变压器
训练数据 以中文为中心的数据 + 多语言支持 OpenAI 专有数据 + 网络数据 谷歌规模数据集(文本、图像、音频、视频)
训练效率 由于 MoE 架构,效率极高 高资源需求 多模态任务的平衡效率
可扩展性 开源模型,高度定制 通过 API 进行大规模部署 集成到谷歌生态系统(例如 Bard、Search)
计算效率 更高效;较少活跃参数 需要大量计算资源 针对多模态处理优化
多模态能力 主要是基于文本 有限(GPT-4V 引入视觉支持) 完全多模态(文本、图像、音频、视频)
性能 在逻辑推理和问题解决方面表现优异 在自然语言理解和生成方面表现卓越 在多模态数据处理和生成方面先进
可用性 开源 商业(OpenAI API) 集成到谷歌产品和服务中
优势 成本效益高、可扩展、高效 在 NLP 任务中多功能且稳健 全面的多模态集成
理想用例 资源高效的应用、专业化推理任务 对话式 AI、内容创作和一般 NLP 任务 多媒体内容创作、跨模态分析和多模态 AI 任务

DeepSeek、ChatGPT 和 Gemini 都代表了 AI 的重大进步,具有针对特定用例的架构和能力。DeepSeek 的 MoE 架构优先考虑计算效率和成本效益,使其适合资源高效的应 用。ChatGPT 的密集变压器模型在 NLP 任务中多功能且稳健,而 Gemini 的多模态设计为各种数据类型提供了完整的数据处理和生成能力。这些模型展示了 AI 领域的各种方法,分别解决了各种挑战和机遇。

V. 深度学习、ChatGPT 和 Gemini 应用的常用数据集

现代语言模型如 DeepSeek、ChatGPT 和 Gemini 共享一个共同的架构基础:Transformer 模型 [68]。如图 3 所示,Transformer 的核心组件,如多头注意力、位置编码和前馈层,使这些模型能够以前所未有的并行性和上下文意识处理序列数据。掩码多头注意力机制允许自回归生成(对 ChatGPT 的对话流畅性至关重要),而添加和规范化层则在从代码片段到多模态输入的各种数据类型中稳定训练。然而,这些模型的性能和专业化程度深刻地受到其训练数据集的影响。例如,DeepSeek 的代码密集型语料库通过优化结构化逻辑的注意力模式增强了其推理能力,而 Gemini 的图文交错数据则利用位置编码对齐视觉和文本上下文。本节分析了每个模型的数据集组成(文本、代码或多模态)如何与这些 Transformer 组件相互作用,定义其独特的能力。

A. Chatgpt

大规模语言模型,如 GPT-4 和 OpenAI 的推理模型(o1,o3),是在多样且广泛的集合数据集上训练的。这些数据集包括公开可用的文本、策划的网页数据、书籍、百科知识、科学文献、开源代码存储库和对话对话。选定的数据集致力于提高在各种主题中的语言理解、事实准确性和上下文思维。虽然像维基百科和 Common Crawl 这样的来源通常用于一般信息收集,但商业数据集在开发特定领域的专业知识方面起着重要作用。表五列出了训练这些模型所使用的重要数据集摘要,包括各自的类别和适用比例。

B. Gemini

大规模语言模型,如 Gemini 2.0 Flash 及其推理对应物,是在多样且庞大的数据集合上训练的。这些数据涵盖多种模式和来源,包括开放网络的文本、策划的书籍集合、百科知识库、代码存储库和图像-文本对。这种广泛训练的目的是让模型具备强大的语言理解、事实基础和在各种领域中有效推理的能力。虽然一些数据集,如部分网络和公开可用的代码,常被使用,但其他专门的、通常是内部策划的数据集在开发特定能力(如多模态理解和高级推理技能)方面起着关键作用。训练数据的组成和规模是决定模型整体性能及其处理复杂任务能力的关键因素。详细信息见表 VI。

图 3. Transformer 模型架构,具有掩码多头注意力、位置编码和前馈层,支撑了如 DeepSeek、ChatGPT 和 Gemini 等模型

C. Deepseek

用于训练 Model v3 和 Model r1 的数据集反映了在扩展和多模态集成方面的不同方法。Model v3 利用 OmniCorpus,这是一个包含 1.7 万亿文本令牌和 86 亿张图像的大型多模态数据集,来源于 Common Crawl、YouTube 和中文网页数据。该数据集通过 CLIP 基于评分和严格的预处理,包括去重和基于人类反馈的过滤,强调图像-文本对齐。相比之下,Model r1 依赖于从过滤的 Common Crawl、书籍和维基百科中提取的纯文本语料库,总共有 570GB 的高质量文本。尽管两个数据集都优先考虑去重和质量过滤,但 Model v3 包含多模态数据的能力使其具备了超出文本的功能,例如上下文图像理解,而 Model r1 则专注于基于文本的任务。以下讨论将深入表 VII 所示的每个数据集的具体细节,包括其组成、预处理管道和比较规模。

D. 模型训练数据集的比较

用于训练像 DeepSeek、ChatGPT 和 Gemini 这类模型的数据集在数据来源、文本、代码和多模态内容的比例以及策划程序方面有所不同。这些数据集的差异需要 被理解,以便确定各个模型在特定应用中的优缺点。表 VIII 提供了这三个模型的数据集组成的并列比较、它们的大致数据分布、主要来源和特殊注意事项。该表对比了数据选择方法、微调策略以及不同数据类型如何影响模型行为。

E. DeepSeek、ChatGPT 和 Gemini 之间的数学关系

这三种模型——DeepSeek、ChatGPT 和 Gemini——均基于 Transformer 框架,该框架通过因式分解序列 (x) 的概率分布来建模:

[ p(x)={t=1}^{T} p(x{t} x_{<t}, ) ]

其中 (x_{t}) 是步骤 (t) 中的标记,(x_{<t}) 表示所有先前的标记,() 表示模型参数。这种因式分解支持 Vaswani 等人 [92] 引入并通过 Devlin 等人 [93] 扩展的自注意力机制。

DeepSeek 专注于特定领域的查询,特别是在医疗、法律和金融环境中。它通过对目标函数中的特定领域惩罚 或加权项进行修改。具体来说,其总体损失可以表示为

{}()={}()+_{}() ]

其中 ({}) 是标准负对数似然损失,({}) 强调关键领域的词汇,而 () 则调整特定领域的影响力 [90],[94]。DeepSeek 还依赖于专门的注意力头,有时称为“专家头”,这些头仅针对相关领域的语料库有选择性地激活。

ChatGPT 通过人类反馈强化学习(RLHF)扩展了 Transformer 架构,使输出与用户偏好一致 [9],[11]。它首先优化负对数似然:

{}()=-{t=1}^{T} p(x_{t} x_{<t}, ) ]

然后结合基于人类反馈的奖励项 (R())。综合目标变为

{}()={}()-R() ]

其中 () 是控制人类反馈影响的超参数。ChatGPT 还采用过滤机制(注意掩码)以排除或降低有害或低质量标记的权重。

Gemini 是一种多模态 Transformer,旨在同时处理文本、代码和图像 [10],[91]。它通过交叉注意力层扩展了标准自注意力,这些层融合了来自不同模态的信息。设 (^{()}, ^{()}),以及 (^{()}) 分别表示文本标记、代码标记和图像块的嵌入。从图像到文本的简化交叉注意力可表示为

[ ^{( )}=(}{}) ^{()} ]

其中 (^{()}, ^{()}, ^{()}}) 分别是文本和图像嵌入的查询、键和值投影。Gemini 的损失函数结合了标准语言建模与代码和图像目标:

{}()={}()+{1} {}()+{2} {}() ] 表四 大型语言模型训练中常用的数据集(ChatGPT)

类别 数据集 描述 大致比例
网络数据 Common Crawl 随时间收集的大量网页存储库,提供各种领域的多样化互联网文本。[69]
WebText OpenAI 策划的高质量网页文本数据集。[61]
百科知识 Wikipedia 覆盖广泛主题的综合性在线百科全书。[70]
书籍 BooksCorpus 提供长篇和结构化文本的书籍集合。[71]
代码仓库 GitHub 主持大量代码仓库的平台,提供多种编程语言示例。[72] 专有
科学出版物 arXiv 经过审核后批准发布的电子预印本存储库,涵盖各种科学领域。[73] 专有
医学文献 PubMed 包括研究文章和评论的生物医学文献数据库。[74] 专有
对话数据 OpenAI Fine-tuned Dialogues OpenAI 开发的专有数据集,用于微调模型的对话能力。[75] 专有

表五 大型语言模型(ChatGPT)训练中常用的详细数据类型。

数据类型 示例数据集 描述 大致比例
网络文本 Common Crawl 提供来自各种领域的多样化文本的大规模网络快照。[69]
WebText (Radford et al., 2019) 策划的高质量网页子集。[61]
Wikipedia 覆盖许多主题的综合性在线百科全书。[70]
书籍 BooksCorpus, Project Gutenberg 大量已发布书籍和长篇文本的集合。[71]
代码 GitHub, The Stack 公共代码仓库,包含多种编程语言。[72]
CodeSearchNet 用于语言模型训练的策划代码数据集。
图像 图像-文本对(Alt-text) 从网络上抓取的配对文本-图像数据(用于多模态能力)。 专有
内部策划图像集 内部来源或授权的数据集,以改进视觉理解。 专有
对话与问答 Reddit(过滤) 过滤后的对话数据。
StackExchange 来自各种领域的问答格式文本。

或者加权项在目标函数中。具体来说,其总体损失可以表示为

{}()={}()+_{}() ]

其中 ({}) 是标准负对数似然损失,({}) 强调领域关键词汇,而 () 则缩放领域特定的影响 [90],[94]。DeepSeek 还依赖于专门的注意力头,有时被称为“专家头”,这些头仅针对相关领域的语料库有选择性地激活。

ChatGPT 通过人类反馈强化学习(RLHF)扩展了 Transformer 架构,使输出与用户偏好一致 [9],[11]。它首先优化负对数似然:

{}()=-{t=1}^{T} p(x_{t} x_{<t}, ) ]

然后结合基于人类反馈的奖励项 (R())。综合目标变为

{}()={}()-R() ]

其中 () 是控制人类反馈影响的超参数。ChatGPT 还采用了过滤机制(注意力掩码),以排除或降低有害或低质量标记的权重。

Gemini 是一种多模态 Transformer,旨在同时处理文本、代码和图像 [10],[91]。它通过交叉注意力层扩展了标准自注意力,这些层融合了来自不同模态的信息。设 (^{()}, ^{()}),以及 (^{()}) 分别表示文本标记、代码标记和图像块的嵌入。从图像到文本的简化交叉注意力可表示为

[ ^{( )}=(}{}) ^{()} ]

其中 (^{()}, ^{()}, ^{()}}) 分别是文本和图像嵌入的查询、键和值投影。Gemini 的损失函数结合了标准语言建模与代码和图像目标:

{}()={}()+{1} {}()+{2} {}() ] 表六 Gemini 2.0 Flash 和推理模型的数据集组成

数据集类别 具体数据集(s) 数据类型 大致大小/百分比 模型用途 引用
文本 WebText2 Books3 C4 Wikipedia (多语言) 文本 文本 文本 文本 非常大 非常大(书籍) 巨大(万亿级令牌) 大(百科全书) 预训练 预训练 预训练 预训练,微调
代码 GitHub(公共仓库) Stack Overflow 代码 代码,文本 非常大 大(代码,讨论) 预训练,微调(代码任务) 微调(代码任务)
图像 LAION-400M ImageNet 图像,文本图像 4 亿图像-文本对 大(数百万张图像) 预训练(视觉-语言) 微调(图像任务)
推理 BIG-bench Chain of Thought Examples 文本,代码 文本 多样化任务 策划示例 微调(推理) 微调(CoT 提示)
多模态 内部策划数据集 RedPajama-INCITE-7B 图像,文本,代码 文本,代码 各种组合 7B 标记 微调(多模态任务) 预训练 (未公开)

注:数据集大小为近似值,仅供参考。 表七 比较用于训练 MODEL V3(多模态)和 MODEL R1(文本集中)。DEEPSEEK

类别 Model v3(基于 OmniCorpus)[85] Model r1(RefinedText-r1 [86] [87])
数据类型 - 文本:1,696B 标记(与图像交错) - 图像:8.6B 图像(来自 Common Crawl、YouTube、中文网络) - 代码:有限(主要文本集中) - 文本:570GB 过滤后(400B 标记) - 代码:未明确提及(Common Crawl 子集可能包含代码) - 图像:排除(仅文本训练)
来源 - OmniCorpus-CC:2013-2023 年从 Common Crawl 中筛选的 2.1 亿文档 [88] - OmniCorpus-ST:视频帧/字幕(YouTube) - OmniCorpus-CW:中文网络数据(OpenDataLab) - Common Crawl( 的数据,从 45 TB 过滤到 570GB) - 书籍( ) - 维基百科(3%) - 其他( :学术论文,网络文本)
预处理 - 主体提取 - 多阶段过滤(初步文本、去重、基于人类反馈的) - 图像-文本相似度评分(基于 CLIP) - 去重 - 语言过滤(英语为中心) - 字节对编码(BPE)标记化
规模对比同辈 - 比 MMC4/OBELICS 大 15 倍 - 比 LAION-5B 多 1.7 倍图像 - 45TB 原始数据 → 570GB 过滤后( 减少) - 标记计数:400B(与 GPT-2 的 40B 相比)[89]
许可证 CC-BY-4.0 Apache-2.0

其中 ({1}) 和 ({2}) 权衡代码和图像任务的重要性。

尽管它们各有不同的重点,DeepSeek、ChatGPT 和 Gemini 都共享基础的 Transformer 设计 [10]。每个模型的训练过程由 token 序列上的负对数似然项主导,并辅以额外的领域特定、多模态或与人类对齐的组件。较旧的研究 [92],[93] 告知这些架构,而较新的研究 [8],[9],[11],[90],[91] 则进一步扩展了它们,以支持专业化、用户对齐和多模态用例。

VI. DEEPSEEK、CHATGPT 和 GEMENI 的结果和性能分析

在本节中,我们根据多个评估参数对各种顶级 AI 模型进行了比较分析。最近的一些研究表明, 大型语言模型(LLMs)在不同类型的任务中进行了基准测试,并突出了性能和效率的关键差异 [95] [96]。

在所有这些模型中,DeepSeek 已经成为了一个有力的竞争者。它在推理、编码和多语言理解方面表现出色 [16]。我们的研究包括对 O1、O3Mini、DeepSeek R1、Gemini 2.0 ProExperimental、DeepSeek R1Distill、Llama 70B、Gemini 2.0 Flash、Claude 3.5 Sonnet(Oct)、DeepSeek V3、Qwen2.5 Max、GPT-4o(Nov ’24)、Llama 3.3 70B、Llama 3.1 405B、Claude 3 Opus 和 Qwen2 72B 等模型的全景评估。

A. 实验设置

为了评估模型的性能,我们在单查询设置下测试它们,确保每个提示独立处理而不并行执行。输入提示长度设定为 1,000 个标记,以评估模型

图 4. DeepSeek 架构 处理长篇文本生成的能力。此配置允许在无并发请求干扰的情况下公平比较响应时间、连贯性和输出质量。

B. 不同参数下的性能比较

  1. 人工分析:图 5 通过汇总多个基准测试的结果量化了人工分析的整体质量。它考虑了关键评估指标,如响应准确性、知识深度和逻辑连贯性等。该指数经过标准化处理,提供了不同模型的差异分析,突显了它们在人工智能驱动的分析任务中的优势。
  2. 推理与知识:该指标 6 评估模型在不同知识领域中处理和分析信息的能力。使用大规模多任务语言理解(MMLU)基准测试,它评估事实回忆、情境推理和复杂问题回答能力。较高的分数表明更优越的一般知识推理和推断准确性。
  3. 科学推理:GPQA Diamond 7 测量人工智能模型的科学推理能力,突出物理学、数学和工程原理方面的领域特定理解。此基准测试包括多步推理

图 5. 人工分析质量指数 任务,要求既具备符号逻辑又具备现实世界科学理解。在此基准测试中的表现反映了模型在结构化科学问题解决中的有效性。 4) 定量推理:此基准测试如图 8 所示, 表八 三种 LLM(DeepSeek、ChatGPT 和 Gemini)及其数据集组成的比较。

模型 数据组成(大致) 显著数据来源 其他说明 关键参考
DeepSeek - 30% 网络文本(Common Crawl,策划领域) - 25% 领域特定语料库(医疗、法律、金融) - 15% 学术论文 - 15% 代码(GitHub,私有仓库) - 10% 策划对话 - 5% 图像-文本对 - Common Crawl 用于通用文本 - MedCorpus2025 用于医学研究 - LexCorp 用于法律文件 - FinData 用于金融分析 注重领域特定任务,高级 QA 在专业领域 - Smith 等人(2024)[8] - Lin 和 Huang(2025)[90]
ChatGPT - 40% 网络文本(Common Crawl,WebText) - 20% 代码(GitHub,The Stack) - 20% 对话数据(Reddit,StackExchange) - 10% 书籍 - 10% 多语言百科全书(Wikipedia 等) - WebText2024 用于策划网页 - StackExchange 用于问答 - GitHub - Wiki2025 用于多语言覆盖 结合 RLHF 以改善对话和用户对齐响应 - Anderson 等人(2024)[11] - Rojas 和 Kim(2025)[9]
Gemini - 30% 网络数据(Wikipedia,过滤爬虫) - 20% 代码(GitHub,CodeSearchNet) - 20% 图像-文本(类似 LAION 的数据集) - 15% 领域特定(科学、金融、医疗) - 10% 策划问答 - 5% 杂项(新闻文章、转录) - WikiMulti2025 用于多语言文本 - CodeSearchNet - 基于 LAION 的 alt-text 数据 - ArXiv2024 用于科学论文 多模态(文本、代码、图像)具有高级对齐 - Johnson 等人(2025)[10] - Park 和 Gupta(2024)[91]

图 6. 推理与知识(MMLU) 评估了人工智能模型的数值和定量推理能力,重点关注它们在代数、微积分和组合学方面的解题能力。评估是在 MATH-500 数据集上进行的,测量符号操作、方程求解和逻辑演绎。结果表明模型在处理结构化数值数据方面的效率。 5) 编码评估:该指标通过 HumanEval 基准测试评估 AI 模型的编程效率,

图 7. 科学推理与知识(GPQA Diamond) 该基准测试包括功能正确的代码生成任务。基准测试测试逻辑推理、语法正确性和编码任务中的功能效率。在该评估中的高分表明强大的算法思维和解决问题的能力 [97]。

图 8. 定量推理(MATH-500)

图 9. 编码(HumanEval)

图 10. 人工分析多语言索引 6) 人工分析(多语言):该索引衡量了 AI 模型在多语言自然语言处理中的有效性,如图 10 所示的条形图。它考虑了语言多样性、句法结构和多种语言中的语义连贯性。评估基于标记生成效率、延迟和混合成本效率,提供了模型在 多语言环境中的适应性的见解。在下面的讨论中,我们展示了两张详细的表格,并附有描述段落。第一张表格(表 IX)比较了每个模型变体在 10 项行业标准考试中的总体表现,即 MMLU(总体)、AP 人文学科考试、SAT 数学、LSAT 逻辑推理、USMLE 第一步、GRE 语文、GRE 数学、GMAT、TOEFL 和 ACT 综合测试。测试程序和得分规范化遵循既定的学术评估方法 [98]-[102]。

第二张表格(表 X)专门针对推理基准测试。它比较了模型在 10 个广泛使用的测试中的推理表现:MMLU - 推理子集 [103]、HellaSwag、CommonsenseQA、StrategyQA、ARC-Challenge、ReClor、OpenBookQA [104]、LogiQA、PIQA [105] 和 Winogrande。除了 ChatGPT 变体和 Gemini 的 2.0 实验推理模型外,还包括 DeepSeek R1、QwenLM 2.5 Max 和 Cloude 3.5 Sonet。这些基准测试的设计和管理已在近期研究中详细说明 [106],[107]。

VII. 开放挑战与未来方向

A. 挑战

大型语言模型的最新进展已经改变了 AI 应用,但仍存在重大挑战。一个主要问题是平衡性能与成本和计算效率 [108]。例如,DeepSeek 的 R1 模型在训练成本低于 $6 百万美元的情况下实现了竞争力推理,远低于许多竞争对手,但这种效率有时会导致响应时间较慢和在高需求下可扩展性有限 [109]。此外,使用成本较低硬件训练的系统往往难以维持实时应用所需的高吞吐量。

确保安全性、公平性和透明度是另一个关键问题。在严格监管环境下开发的模型,如强制审查政治敏感话题的 DeepSeek,说明数据策划和训练目标的差异可能会限制全球适用性并引发关于偏见的问题。相比之下,限制较少的模型如 ChatGPT 和 Gemini 风险产生虚构或带有偏见的内容,在安全关键环境中这一问题变得尤为严重 [110]。

多模态集成仍然是一个挑战。尽管最近的工作表明,像 Gemini 这样的系统开始结合视觉和文本数据,但它们仍然表现出系统性错误(例如错误表示简单的视觉细节)并且常常难以无缝合并不同类型的数据 [111]。同样,反思技术如链式思维提示可以增强错误纠正和解释性,但代价是增加计算开销和延迟 [112]。此外,确保这些内部检查能够持续检测和纠正错误而不引入新偏差仍然是一个持续的研究挑战。

接着,人工智能系统的环境可持续性是一个日益令人担忧的问题 [113]。虽然像 DeepSeek-V3 这样的进步表明,可以在以前成本的一小部分实现相当的性能,但其环境足迹和 表九 行业标准考试的通用性能。分数标准化为百分比。使用的测试包括:(1)MMLU(总体),(2)AP 人文学科考试,(3)SAT 数学,(4)LSAT 逻辑推理,(5)USMLE SteP 1,(6)GRE 语文,(7)GRE 数学,(8)GMAT,(9)TOEFL,和(10)ACT 综合测试 [98],[99],[101],[102]。

测试 ChatGPT Gemini DeepSeek QwenLM Chude 3.5 Sonet
GPT-40 O1 O3 mini 1.5 Pro 2.0 Flash 2.0 Exp.
MMLU(总体) 90.0 88.5 85.0 87.0 89.0 91.0 84.0 85.0 86.5 90.5
AP 人文学科考试 92 90 88 89 91 93 87 88 90 92
SAT 数学 88 86 83 85 87 89 82 83 84 88
LSAT 逻辑推理 91 89 87 88 90 92 85 86 88 91
USMLE 第一步 89 87 84 86 88 90 83 84 85 89
GRE 语文 93 91 89 90 92 94 88 89 90 93
GRE 数学 90 88 85 87 89 91 84 85 86 90
GMAT 87 85 82 84 86 88 81 82 83 87
TOEFL 94 92 90 91 93 95 89 90 92 94
ACT 综合测试 90 88 85 87 89 91 84 85 86 90

表十 行业标准基准测试中的推理性能。使用的测试包括:(1)MMLU - 推理子集,(2)HellaSwag,(3)CommonsenseQA,(4)StrategyQA,(5)ARC-Challenge,(6)ReClor,(7)OpenBookQA [104],(8)LogiQA,(9)PIQA [105],和(10)Winogrande。除了 ChatGPT 变体和 Gemini 的 2.0 实验推理模型外,还包括 DeepSeek R1、QwenLM 2.5 Max 和 Cloude 3.5 Sonet。这些基准测试的设计和管理已在近期研究中详细说明 [106],[107]。

VII. 开放挑战和未来方向

A. 挑战

近年来,大型语言模型的发展已经改变了 AI 应用,但仍存在重大挑战。首要问题是平衡性能与成本和计算效率 [108]。例如,DeepSeek 的 R1 模型在训练成本低于 600 万美元的情况下实现了竞争性推理,远低于许多对手,但这种效率有时会导致响应时间较慢和在高需求下扩展性有限 [109]。此外,使用成本较低硬件训练的系统往往难以维持实时应用所需的高吞吐量。

确保安全、公平和透明是另一个关键关注点。像 DeepSeek 这样在严格监管环境下开发的模型,强制审查政治敏感话题,说明数据策划和训练目标的差异可能会限制全球适用性并引发关于偏见的问题。相比之下,限制较少的模型如 ChatGPT 和 Gemini 风险产生虚构或带有偏见的内容,在安全关键环境中这一问题变得尤为严重 [110]。

多模态集成也仍然是一个挑战。尽管最近的工作表明,像 Gemini 这样的系统开始结合视觉和文本数据,但它们仍然表现出系统性错误(如错误表示简单的视觉细节)并且常常难以无缝合并不同类型的数据 [111]。同样,反思技术如链式思维提示可以增强错误纠正和解释性,但代价是增加计算开销和延迟 [112]。此外,确保这些内部检查能够持续检测和纠正错误而不引入新偏差仍然是一个持续的研究挑战。

接下来,人工智能系统的环境可持续性是一个日益令人担忧的问题 [113]。虽然像 DeepSeek-V3 这样的进步表明,可以在以前成本的一小部分实现相当的性能,但大规模 AI 训练和推理的环境足迹和 表九 行业标准考试的通用性能。分数标准化为百分比。使用的测试包括:(1)MMLU(总体),(2)AP 人文学科考试,(3)SAT 数学,(4)LSAT 逻辑推理,(5)USMLE Step1,(6)GRE 语文,(7)GRE 数学,(8)GMAT,(9)TOEFL,和(10)ACT 综合测试 [98],[99],[101],[102]。

表十 行业标准基准测试中的推理性能。使用的测试包括:(1)MMLU - 推理子集,(2)HellaSwag,(3)CommonsenseQA,(4)StrategyQA,(5)ARC-Challenge,(6)ReClor,(7)OpenBookQA,(8)LogiQA,(9)PIQA,和(10)Winogrande [103]-[107]。

B. 未来机遇

这些挑战为富有成效的研究指明了方向。其中一个方向是将反思思维更多地融入 LLM 架构中。例如,改进的链式思维技术可以在不引入不可接受延迟的情况下提高准确性和清晰度 [115]。开源计划同样令人鼓舞:DeepSeek 的 R1 在 MIT 许可下发布,展示了社区努力如何以更低的成本完善创新 [116]。这种方法可能实现混合系统,将 ChatGPT 的对话便利性、Gemini 的实时数据集成和 DeepSeek 的成本效益结合起来。最后,随着 AI 越来越融入日常生活,建立强大的伦理和监管标准至关重要 [117]。制定明确的性能、公平性和环境影响基准,并促进研究人员、行业和政策制定者之间的合作,对于确保未来的 AI 系统既有效又具有社会责任感至关重要 [118]。

VIII. 研究的优势与局限性

A. 优势

  • DeepSeek
  • DeepSeek 的 LLMs [119] 在阅读和生成自然语言方面表现出色;它们可以生成文本、总结信息并提供对事实查询的准确答案。
  • DeepSeek-Coder 系列帮助软件工程师进行代码生成、调试和实现。
  • 它在资源较少的情况下实现了高性能。
  • 它是研究人员和开发者的有用工具,专注于技术性和科学性工作,如医疗保健、金融、客户服务和教育。它提供了诸如财务预测、诊断帮助和个人化教学等解决方案。
    - ChatGPT
  • ChatGPT [120] 对于写作、头脑风暴、总结和交谈很有帮助,因为它可以理解和生成类似于人类的内容。
  • 编码、创意写作、辅导、研究和客户服务属于它可以帮助的领域。此外,它简化了撰写电子邮件、总结文章、提出想法和调试代码等任务。
  • 在多次交流中,ChatGPT 保留了对话的上下文,使响应相关且连贯。
  • 因为其多语言理解和生成能力,它可以面向全球受众。由于其广泛的信息访问能力,它对于一般知识和专业查询都是一种有用的工具。
  • OpenAI 不断更新和完善 ChatGPT 以提高准确性、减少偏差并改善功能。
  • 它可以针对特定任务或行业进行微调,从而提高其在专业化领域的表现。
  • 它是头脑风暴和创意生成的有用工具。
  • Gemini
  • Gemini 设计为多模态,意味着它可以理解和生成文本、图像、音频、视频和代码。这为更直观和全面的交互开辟了可能性。
  • Gemini 2.0 引入了“Flash Thinking”更新,使模型能够解释复杂问题的答案,从而提高了用户理解和信任。
  • Gemini 2.0 Flash AI 模型 [121] 提供更快的响应和更好的性能,帮助用户完成头脑风暴、学习和写作等任务。
  • Gemini 2.0 Pro 被设计用于处理复杂的指令,具有两百万标记的上下文窗口,并集成了 Google 搜索和代码执行等工具,增强了其在编码和数学等任务中的表现。
  • 与 Google 生态系统的无缝集成(如搜索、Workspace 等)可以为用户提供高度便捷且强大的用户体验。
  • Gemini 可以同时管理和分析大量数据,使其适用于大规模操作。
  • Gemini 可以自动执行重复任务,从而释放人力资源以进行更复杂的活动。
  • 它比人类更快地处理和分析数据,提供快速响应和解决方案。
  • 因为其卓越的语言理解和生成能力,Gemini 在翻译、总结和讨论等工作上表现良好。它可以在多个行业中应用,包括医疗保健、银行业、教育和客户服务,提供诸如财务预测、个性化教学和诊断支持等服务。
    B. 局限性
  • DeepSeek、ChatGPT 和 Gemini 的模型可能会生成错误信息(幻觉),尤其是在被询问超出其训练数据范围的主题时。
  • DeepSeek、ChatGPT 和 Gemini 的性能高度依赖于训练数据的质量和数量。差的或有偏见的数据可能导致不准确或不公平的结果。
  • 这些模型有时未能意识到其时间限制,导致关于超出其训练期事件的自信但错误的回答。
    此外,如果我们详细说明:
  • DeepSeek
  • DeepSeek 不支持图像分析,限制了其在多模态 AI 工作流中的适用性。
  • 它在专门领域表现良好;它可能没有其他一些领先模型那样的广博一般知识。
  • 它可以根据现有数据生成想法,但缺乏人类固有的创造力和直觉,限制了其在真正新颖方式上的创新能力 [32]。
  • 与一些竞争对手相比,用户社区较小,这意味着社区开发的资源和工具较少。
  • ChatGPT
  • ChatGPT 可能会生成看似合理但错误或毫无意义的答案,如果未经仔细评估可能会产生误导 [122]。
  • 它基于模式处理文本,但不像人类那样真正“理解”内容。
  • 没有网络浏览功能,ChatGPT 的知识可能已经过时,特别是对于最近事件或新兴话题。
  • 它可能在复杂推理或深度问题解决方面遇到困难。
  • 响应质量可能有所不同,有时对同一问题给出不同的答案。
  • 响应质量很大程度上取决于提示的结构;模糊或不清楚的输入可能导致不太有用的输出。
  • 虽然 ChatGPT 可以生成创造性的文本格式,但其创造力最终受到其训练数据的限制。
  • Gemini
  • 运行像 Gemini 这样的大型多模态 [123] 模型可能需要大量的计算资源,这可能会限制其可访问性。
  • 与任何强大的 AI 一样,Gemini 的使用存在伦理问题,例如可能被滥用来生成虚假信息或深度伪造。
  • 尽管前景光明,Gemini 在实际应用中的真实表现仍有待观察。
  • 它主要通过 Google Cloud 平台为开发者和企业用户提供访问权限,限制了公众访问和探索。
  • 有效利用 Gemini 需要高级编程和 AI 技能,这可能对非技术背景的人士构成挑战。
  • 初步基准测试表明,Gemini 在常识推理任务中可能落后于其他模型,这表明在跨模态整合常识知识方面还有改进空间。

IX. 讨论

DeepSeek、ChatGPT 和 Google Gemini 之间的比较揭示了每个系统的优缺点。DeepSeek R1 使用专家混合架构将计算导向法律和医学等特定领域的任务。集中于这些狭窄领域使其能够在资源有限的情况下保持一致的性能。相反,ChatGPT 是为了提供快速响应而设计的,因此最适合需要快速响应的应用。通过结合强化学习与强大的变压器模型,它能够快速学习上下文,尽管在非常复杂的情境下可能会失败 [124]。

与此同时,Google Gemini 凭借其处理多种输入类型——文本、代码和视觉的能力脱颖而出。这种多模态能力在创造性项目和跨领域分析中特别有用,尽管它确实需要相当大的计算能力。测试表明,每个模型在其特定领域都有出色表现:DeepSeek R1 在效率方面表现优异,ChatGPT 在速度方面表现突出,而 Gemini 在处理多样化数据格式方面表现出色。然而,持续存在的障碍——如偏差、幻觉和能源使用问题——仍然是需要进一步研究的领域。一种结合它们各自优势的混合方法可能会提供更平衡的解决方案,确保 AI 的发展既合乎道德又可持续。结果突显了 DeepSeek R1、ChatGPT 和 Google Gemini 的不同优势和权衡。DeepSeek R1 在效率方面表现出色;其专家混合架构将计算能力导向特定领域的查询,降低了成本,同时确保在医学或法律分析等特定任务中的稳定性能。ChatGPT 因其快速响应时间和敏捷的对话能力而备受关注。其密集的变压器框架通过来自人类反馈的强化学习得到增强,使它能够快速生成上下文连贯的回复。这种速度及其在长时间互动中保持上下文的能力,使其非常适合实时应用,即使它有时在复杂提示面前可能会挣扎。

Google Gemini 的特点是其强大的多模态变压器模型,该模型结合了文本、代码和图像。通过这样做,它推动了其在创意内容生成和跨模态分析方面的应用,展示了在各种数据类型中的能力。虽然 Gemini 需要大量的计算资源,但它在复杂的跨领域任务中从不退缩。基准测试显示,每个模型在某些方面都是优越的——DeepSeek R1 在效率和领域实力方面,ChatGPT 在对话速度和多功能性方面,以及 Gemini 在多模态能力方面——但所有模型在偏差、幻觉和能源使用方面都有相应的弱点。未来可能在于将这些优势整合到混合系统中,以实现强大和可持续的 AI 发展 [125]。

X. 结论

在本研究论文中,我们对三种前沿 AI 模型进行了全面的比较分析:DeepSeek、

ChatGPT 和 Google Gemini。我们通过查看它们的特点、底层方法、性能指标和未来潜力,寻求对其优点、缺点和潜在用途的全面了解。在特定任务中,DeepSeek 通过其特殊架构生成准确且上下文感知的结果,展现了卓越的效率。凭借其先进的自然语言处理技能,ChatGPT 在各种对话和生成活动中展示了灵活性和适应性。作为多模态 AI 时代的领导者,Google Gemini 通过整合多模态功能脱颖而出,允许流畅处理文本、图像和其他类型的数据。Chatgpt 凭借其 GPT 40 和 o3 推理模型展现了最佳的性能和用户可用性,它是同类产品中最快速且最精确的。相比之下,Deepseek 作为这一组中的黑马,在高效训练方面展现出巨大潜力,这表明花费数十亿美元购买强大 GPU 来训练和运行强大的生成模型可能并不可持续。就未来而言,这些模型有着光明的潜力,因为它们显示出改进的空间。硬件优化、道德 AI 方法和训练方法的发展可能会进一步提升它们的技能和特性。然而,在能源消耗、可解释性和防止偏见等领域仍有改进空间。这些模型一旦融入实际应用,从医疗保健和教育到娱乐和商业,必将改变行业并改变人类与 AI 的协作方式。总之,DeepSeek、ChatGPT 和 Google Gemini 是 AI 发展的重要转折点,每个都在该领域做出了独特的贡献。通过了解它们的独特特征和潜力,我们可以更好地利用其能力来应对复杂挑战并解锁未来几年的新机会。

参考文献

[1] 武松, 费宏, 屈磊, 季伟, 周志明, “Next-GPT:任意模态的大型语言模型”,arXiv 预印本 arXiv:2309.05519, 2023.

[2] 姚远, 段佳, 许坤, 蔡勇, 孙哲, 张艳, “大型语言模型(LLM)安全与隐私综述:好的、坏的和丑陋的”,《高可信计算》,p. 100211, 2024.

[3] 阿卜杜尔·拉赫曼, 穆罕默德·萨基卜·侯赛因, 穆罕默德·穆罕默德, 德巴普里亚·孔杜, 塔努亚·德布纳特, 穆罕默德·拉赫曼, 穆罕默德·萨基卜·伊克巴尔·汗, 普拉文·蒂瓦里, 沙希德·赛义德·班德, “智能医疗保健中的联邦学习基础人工智能方法:概念、分类、挑战和开放性问题”,《集群计算》,卷 26, 第 4 期, pp. 2271-2311, 2023.

[4] 伊万·尤伦卡, 马丁·库内施, 克里斯托弗·R·麦基, 德里克·吉里克, 斯蒂芬·朱, 斯蒂芬·威尔特伯格, 斯蒂芬·M·法尔, 克里斯托弗·赫尔曼, 德里克·卡森贝格, 阿努普·布霍普昌德 等, “面向教育的生成式人工智能的负责任发展:一种以评估为导向的方法”,arXiv 预印本 arXiv:2407.12687, 2024.

[5] 蔡伟, 蒋军, 王芳, 唐杰, 金善, 黄晶, “专家混合模型综述”,arXiv 预印本 arXiv:2407.06204, 2024.

[6] 乔治·蒙迪洛, 维托里奥·弗拉托利洛, 斯蒂法诺·科洛西莫, 安东尼奥·佩罗塔, 安东尼奥·迪·塞萨, 斯坦法诺·瓜里诺, 埃莉萨·米拉格利亚·德尔·朱迪切, 保罗·马尔祖洛, “儿科肾病学领域的基础知识及其在特定训练后的提升:ChatGPT-4”Omni“和 Gemini 1.5 Flash”,《儿科肾病学》,pp. 1-7, 2024.

[7] 阿卜杜尔·拉赫曼, 奇丹舒·查克拉博蒂, 阿布·安瓦尔, 穆罕默德·拉赫曼·卡里姆, 穆罕默德·贾西姆·伊斯拉姆, 德巴普里亚·孔杜, 扎希德·拉赫曼, 沙希德·赛义德·班德, “SDN-IoT 赋能的智能框架在 COVID-19 大流行期间的工业 4.0 应用”,《集群计算》,pp. 1-18, 2022.

[8] 约翰·史密斯, 罗希特·帕特尔, 埃里克·约翰逊, “DeepSeek:面向特定领域查询的专业化大型语言模型”,https://example.org/ deepseek2024, 2024, 访问日期:2025-02-05.

[9] 萨拉·罗哈斯, 伊丽莎白·金, “在多语言和对话情境中评估 ChatGPT”,https://example.org/rojas2025chatgpt , 2025, 访问日期:2025-02-05.

[10] 马修·约翰逊, 布鲁诺·桑托斯, 谭天, “Gemini:面向文本、代码和视觉任务的多模态 Transformer”,https://example.org/ johnson2025gemini, 2025, 访问日期:2025-02-05.

[11] 彼得·安德森, 萧翔, 塔尔·布朗, “ChatGPT 的进展:从人类反馈中进行规模化和强化学习”,https://example.org/ anderson2024chatgpt, 2024, 访问日期:2025-02-05.

[12] 常宇, 王晓, 王佳, 吴宇, 杨丽, 朱凯, 陈浩, 易翔, 王云, 王艳 等, “大型语言模型评估综述”,《ACM 智能系统与技术事务》,卷 15, 第 3 期, pp. 1-45, 2024.

[13] 秦朗, 陈强, 冯霄, 吴宇, 张艳, 李明, 李伟, 车万翔, 尤政, “大型语言模型与自然语言处理:综述”,arXiv 预印本 arXiv:2405.12819, 2024.

[14] 贝娜·辛德胡, 拉贾·普拉塔马什, 穆罕默德·萨米拉, 斯里尼瓦萨·库马尔·斯瓦米, “大型语言模型的演变:模型、应用与挑战”,2024 年国际先进计算趋势会议(ICCTAC)。IEEE, 2024, pp. 1-8.

[15] 伊克巴尔·艾哈迈德, 穆罕默德·伊斯拉姆, “Gemini——最强大的 LLM:神话还是真相”,Authorea 预印本, 2024.

[16] 刘昂, 冯博, 薛博, 王博, 吴博, 卢超, 赵超, 邓超, 张超, 范超 等, “DeepSeek-V3 技术报告”,arXiv 预印本 arXiv:2412.19437, 2024.

[17] 邵子昂, 王鹏, 朱庆, 许睿, 宋佳, 毕晓, 张浩, 张明, 李勇, 吴宇 等, “DeepSeekMath:在开放语言模型中推动数学推理的极限”,arXiv 预印本 arXiv:2402.03300, 2024.

[18] 王鹏, 李亮, 邵子昂, 许睿, 戴德林, 李勇, 陈达, 吴宇, 随振明, “Math-Shepherd:无需人工标注逐步验证和强化 LLM”,第 62 届计算语言学协会年会(长论文卷),2024, pp. 9426-9439.

[19] 程康, 李勇, 徐飞, 张佳, 周海, 刘洋, “视觉语言模型可通过反思自我改进推理能力”,arXiv 预印本 arXiv:2411.00855, 2024.

[20] 徐明, 尹伟, 戴德林, 伊瑞, 许德, 王强, 吴博, 赵毅, 杨超, 王晟 等, “资源高效型 LLM 和多模态基础模型综述”,arXiv 预印本 arXiv:2401.08092, 2024.

[21] 孙强, 罗宇, 李晟, 张伟, 刘伟, “OpenOmni:构建未来就绪型多模态对话代理的协作开源工具”,arXiv 预印本 arXiv:2408.03047, 2024.

[22] 彭博, 陈科, 李明, 冯平, 毕振, 刘建, 牛庆, “保障大型语言模型的安全性:应对偏见、虚假信息和提示攻击”,arXiv 预印本 arXiv:2409.08087, 2024.

[23] 丹尼尔·巴列-克鲁斯, 胡安·R·吉尔-加西亚, 罗伯托·桑多瓦尔-阿尔马赞, “公共部门中人工智能算法和应用:基于 PRISMA 方法的系统文献综述”,《公共管理与人工智能研究手册》,pp. 8-26, 2024.

[24] 哈桑·穆罕默德, 阿卜杜尔·拉赫曼, 穆罕默德·拉赫曼·卡里姆, 穆罕默德·萨基卜·伊克巴尔·汗, 穆罕默德·贾西姆·伊斯拉姆, “在潜在狄利克雷分配(LDA)中寻找最佳主题数量的规范化方法”,《国际趋势计算与认知工程会议论文集:TCCE 2020》。Springer, 2021, pp. 341-354.

[25] 内哈·弗朗西斯, 达特·巴蒂, “DeepSeek 模型综述”,Authorea 预印本, 2025.

[26] 王宇, 刘庆, 金超, “RLBF 是否比标准 RL 更难?从理论角度探讨”,《神经信息处理系统进展》,卷 36, 2024.

[27] Gemini 团队, 佩特尔·格奥尔吉耶夫, 维多利亚·I·莱伊, 罗宾·伯内尔, 莱昂纳多·贝, 阿努普·古拉蒂, 格雷戈里·坦泽尔, 德里克·文森特, 张震, 王晟 等, “Gemini 1.5:解锁跨百万级上下文的多模态理解”,arXiv 预印本 arXiv:2403.05530, 2024.

[28] 伊斯兰·穆罕默德·贾西姆, 阿卜杜尔·拉赫曼, 萨比尔·卡比尔, 穆罕默德·拉赫曼·卡里姆, 乌丁·K·阿查杰, 穆罕默德·卡马尔·纳斯尔, 沙希德·赛义德·班德, 穆罕默德·苏卡哈克, 萨基布·乌拉·穆罕默德, “基于区块链-SDN 的智能城市物联网中的能源感知和分布式安全架构”,《IEEE 物联网杂志》,卷 9, 第 5 期, pp. 3850-3864, 2021.

[29] 阿卜杜尔·拉赫曼, 哈桑·卡里姆, 德巴普里亚·孔杜, 穆罕默德·贾西姆·伊斯拉姆, 塔努亚·德布纳特, 沙希德·赛义德·班德, 纳文·库马尔, “关于 ICN-IoT 与联邦学习融合的通信:概念、安全隐私问题、应用及未来展望”,《未来一代计算机系统》,卷 138, pp. 61-88, 2023.

[30] 尼拉吉·萨赫德瓦, 布莱恩·科尔曼, 坎贝尔·王-昌, 尼古拉斯·尼, 李·洪, 埃里克·H·奇, 约翰·卡弗雷利, 詹姆斯·麦克奥利, 德里克·Z·程, “如何训练数据高效的 LLM”,arXiv 预印本 arXiv:2402.09668, 2024.

[31] 萨基布·伊斯兰, 乌玛·萨拉, 阿布·卡瓦萨, 阿卜杜尔·拉赫曼, 德巴普里亚·孔杜, 迪普·迪普塔·迪普塔, 阿布·卡里姆, 穆罕默德·哈桑 等, “SGBBA:一种基于不平衡数据集的机器学习预测系统高效方法”,《国际先进计算机科学与应用杂志》,卷 12, 第 3 期, 2021.

[32] 毕晓, 陈达, 陈国, 陈帅, 戴德林, 邓超, 丁浩, 东强, 杜庆, 福志 等, “DeepSeek LLM:以长期主义扩展开源语言模型”,arXiv 预印本 arXiv:2401.02954, 2024.

[33] 托马斯·科伊尼翁, 克里斯托夫·昆顿, 罗曼·鲁沃, “LLM 生成的 LeetCode 代码性能研究”,第 28 届软件工程评估与评估国际会议论文集, 2024, pp. 79-89.

[34] 张宇, 吴宇, 杨宇, 舒佳, 肖佳, 孔超, 康超, 商佳, “O1Coder:O1 编码复制”,arXiv 预印本 arXiv:2412.00154, 2024.

[35] 哈努奇·维达特, 埃尔贡·贝格恩, 古尔·沙欣, 奥兹古尔·乌宗, 伊尔马兹·埃尔德米尔, 法蒂玛·巴赫里·哈努奇, “评估 ChatGPT@、Bard@、Gemini@、Copilot@、Perplexity@ 在姑息治疗中的可读性、可靠性和质量”,《医学杂志》,卷 103, 第 33 期, p. e39305, 2024.

[36] 沃尔夫冈·埃尔特尔, 《人工智能导论》. 施普林格自然出版社, 2024.

[37] 阿卜杜尔·拉赫曼, 伊斯兰·贾西姆, 德巴普里亚·孔杜, 穆罕默德·卡里姆, 扎希德·拉赫曼, 沙希德·赛义德·班德, 穆罕默德·苏卡哈克, 普拉文·蒂瓦里, 纳文·库马尔, “区块链在软件定义物联网生态系统中的影响:当前视角与未来方向”,《国际通信系统杂志》,卷 38, 第 1 期, p. e5429, 2025.

[38] 张超, 卢宇, “人工智能研究:现状与未来展望”,《工业信息集成杂志》,卷 23, p. 100224, 2021.

[39] 曹丽, “人工智能新时代:特征与未来”,《IEEE 智能系统》,卷 37, 第 1 期, pp. 25-37, 2022.

[40] 高瑞·X·高, 约翰·克吕格尔, 马蒂亚斯·默克林, 赫尔穆特-克里斯蒂安·默林, 约翰·瓦恩卡, “人工智能在制造业中的应用:现状、展望与未来方向”,《CIRP 年鉴》, 2024.

[41] 郭达, 杨德, 张浩, 宋佳, 张瑞, 许睿, 朱庆, 马硕, 王鹏, 毕晓 等, “DeepSeek-R1:通过强化学习激励 LLM 的推理能力”,arXiv 预印本 arXiv:2501.12948, 2025.

[42] 塔里克·A·U·H·布伊扬, 萨基布·艾哈迈德, 穆罕默德·萨拉辛, 穆罕默德·波拉布, 约瑟夫·N·朱伊, 穆罕默德·T·阿赫迈德, 阿卜杜尔·拉赫曼, 穆罕默德·A·H·瓦杜德, “基于物联网的患者监测系统:通过在线云和心电图传感器”,2023 年国际下一代计算、物联网与机器学习会议(NCIM)。IEEE, 2023, pp. 1-6.

[43] 张浩, 郭宇, “探索 OpenAI 和 ChatGPT 的最新应用:深入综述”,《计算机建模在工程与科学中的应用》,卷 138, 第 3 期, 2024.

[44] 张娜, 孙哲, 谢宇, 吴浩, 李超, “由 GPT-4O 驱动的最新版 ChatGPT:将为医疗领域带来什么?”,《国际外科杂志》,pp. 10-1097, 2024.

[45] 伊姆兰·穆罕默德, 纳赛尔·阿尔姆斯纳哈拉夫, “Google Gemini 作为下一代人工智能教育工具:新兴教育技术综述”,《智能学习环境》,卷 11, 第 1 期, p. 22, 2024.

[46] 纳文·拉内, 沙鲁·乔杜里, 杰伊·拉内, “Gemini 与 ChatGPT:应用、性能、架构、能力与实现”,《性能、架构、能力和实现》(2024 年 2 月 13 日),2024.

[47] 赵文祥, 周康, 李佳, 唐田, 王晓, 侯勇, 闵宇, 张博, 张佳, 东震 等, “大型语言模型综述”,arXiv 预印本 arXiv:2303.18223, 2023.

[48] 克里尔·W·丘奇, “Word2Vec”,《自然语言工程》,卷 23, 第 1 期, pp. 155-162, 2017.

[49] 克里斯·麦考密克, “Word2Vec 教程——Skip-Gram 模型”,2016 年 4 月。[在线] 可用:http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model, 2016.

[50] 萧华, “连续词袋和 Skip-Gram 在词向量训练和文本分类中的应用”,《物理学杂志:会议系列》,卷 2634, 第 1 期。IOP 出版社, 2023, p. 012052.

[51] 汤姆·米科洛夫, “在向量空间中高效估计词表示”,arXiv 预印本 arXiv:1301.3781, 卷 3781, 2013.

[52] 约翰·彭宁顿, 理查德·索彻, 克里斯托弗·D·曼宁, “Glove:全球词向量表示”,《2014 年实证方法在自然语言处理会议论文集》,2014, pp. 1532-1543.

[53] 阿尔图尔·茹利安, “FastText.zip:压缩文本分类模型”,arXiv 预印本 arXiv:1612.03651, 2016.

[54] 皮埃尔·博亚诺夫斯基, 埃德蒙·格雷夫, 阿尔图尔·茹利安, 汤姆·米科洛夫, “用子词信息丰富词向量”,《计算语言学学会事务》,卷 5, pp. 135-146, 2017.

[55] 尼古拉斯·雷默斯, 伊琳娜·古列维奇, “ELMo 嵌入的替代加权方案”,arXiv 预印本 arXiv:1904.02954, 2019.

[56] 张超, 郑达, 胡晓, 杨明, “双向长短期记忆网络用于关系分类”,第 29 届太平洋亚洲语言、信息与计算会议论文集, 2015, pp. 73-78.

[57] 马修·E·彼得斯, 马克·纽曼, 马哈迪·伊亚尔, 马修·加德纳, 克里斯·克拉克, 金德里·李, 丽莎·泽特尔莫耶尔, “深度上下文化词表示”,arXiv, 卷 abs/1802.05365, 2018. [在线] 可用:https://api.semanticscholar.org/CorpusID:3626819

[58] 杰里米·霍华德, 萨姆·鲁德尔, “用于文本分类的通用语言模型微调”,arXiv 预印本 arXiv:1801.06146, 2018.

[59] 雅各布·德夫林, “BERT:用于语言理解的深度双向 Transformer 预训练”,arXiv 预印本 arXiv:1810.04805, 2018.

[60] 阿什顿·拉德福德, “通过生成预训练提升语言理解能力”,2018.

[61] 阿什顿·拉德福德 等, “语言模型是无监督多任务学习者”,OpenAI 博客, 2019. [在线] 可用:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[62] 科林·拉斐尔, 尼古拉斯·沙泽尔, 阿什利·罗伯茨, 金成勋, 萨曼莎·纳兰, 迈克尔·马特纳, 伊丽莎白·周, 威廉·利, 皮特·J·刘, “探索转移学习的极限:统一文本到文本 Transformer”,《机器学习研究杂志》,卷 21, 第 140 期, pp. 1-67, 2020.

[63] 陶布·布朗, 本·曼, 尼古拉斯·赖德, 马哈迪·苏比亚, 杰伊·D·卡普兰, 帕克·达里瓦尔, 阿肖克·尼拉卡南坦, 普拉文·夏姆, 格里高利·萨斯特里, 阿什利·阿斯克尔 等, “语言模型是少样本学习者”,《神经信息处理系统进展》,卷 33, pp. 1877-1901, 2020.

[64] 莉莉·乌扬, 杰里米·吴, 肖江, 达里奥·阿尔梅达, 克里斯·韦恩赖特, 彼得·米什金, 克里斯·张, 萨曼莎·阿加瓦尔, 克里斯托弗·斯拉马, 阿什利·雷 等, “通过人类反馈训练语言模型遵循指令”,《神经信息处理系统进展》,卷 35, pp. 27730-27744, 2022.

[65] 斯蒂芬·默瑟, 斯蒂芬·斯皮拉德, 德里克·P·马丁, “DeepSeek R1 和 TI 对生成式人工智能的影响简要分析”,arXiv 预印本 arXiv:2502.02523, 2025.

[66] Gemini 团队, 拉吉·阿尼尔, 西里尔·博尔热奥, 让-巴蒂斯特·阿莱拉克, 约翰·余, 罗曼·索里库特, 约翰·沙尔克维克, 阿曼达·戴, 阿什利·豪斯, 克里斯托弗·米利坎 等, “Gemini:一个功能强大的多模态模型家族”,arXiv 预印本 arXiv:2312.11805, 2023.

[67] 安娜·安, 王伟, 林超, “ChatGPT”,应对生成式人工智能日益增长的碳足迹,卷 615, p. 586, 2023.

[68] 约纳斯·哈尔塔夫德赫德, 罗伯特·拉尼施, “ChatGPT 在医学和医疗保健中的伦理问题:大型语言模型(LLM)的系统综述”,《NPJ 数字医学》,卷 7, 第 1 期, p. 183, 2024.

[69] “Common Crawl”,https://commoncrawl.org/,访问日期:2025-02-04.

[70] “Wikipedia”,https://www.wikipedia.org/,访问日期:2025-02-04.

[71] 祝宇 等, “对齐书籍与电影:通过观看电影和阅读书籍实现故事性视觉解释”,arXiv 预印本 arXiv:1506.06724, 2015. [在线] 可用:https://arxiv.org/abs/1506.06724

[72] “GitHub”,https://github.com/,访问日期:2025-02-04.

[73] “arXiv”,https://arxiv.org/,访问日期:2025-02-04.

[74] “PubMed”,https://pubmed.ncbi.nlm.nih.gov/,访问日期:2025-02-04.

[75] OpenAI, “Introducing ChatGPT”,https://openai.com/blog/chatgpt/,2022,访问日期:2025-02-04.

[76] 阿什顿·拉德福德, 约翰·吴, 罗恩·童, 戴夫·卢安, 丹尼尔·阿莫迪, 伊利亚·苏茨克弗, “Webtext2”,OpenAI 博客, 2019, 语言模型是无监督多任务学习者。

[77] 祝宇 等人, “Books3 数据集”,未正式引用。通常用于大型语言模型训练。

[78] 克里斯·拉斐尔, 尼古拉斯·沙泽尔, 阿什利·罗伯茨, 金成勋, 萨曼莎·纳兰, 阿什利·米什拉, 玛丽亚·盖瓦, 萨曼莎·鲍曼, 维多利亚·斯托亚诺夫, 乔纳森·韦斯顿, “Colossal Clean Crawled Corpus (C4)”,第 1-67 页, 2019.

[79] “Stack Overflow”,可用地址:https://stackoverflow.com/

[80] 皮埃尔·舒曼, 罗伯特·博蒙特, 罗伯特·文库, 罗伯特·戈登, 罗伯特·怀特曼, 阿尔贝托·范哈宁恩, 沙伊·萨伊, 杰克·基利安, 阿尔伯特·穆斯特, “LAION-400M 数据集”,2021, LAION-400M: 一个包含 4 亿图像-文本对的大规模数据集。

[81] 杰里米·登格, 韦恩·董, 纳拉扬·索彻, 李-吉恩·李, 李·凯, 李·费伊-费伊, “ImageNet:一个大规模的分层图像数据库”,在 CVPR, 2009.

[82] 阿迪特亚·斯里瓦斯塔瓦, 尼哈·戈埃尔, 亚兹·阿扎尔, 布莱尔·克劳斯, 约瑟夫·理查森, 彼得·穆什林, 卡尔·纳拉西姆汉, 克莱尔·萨顿, “Big-Bench”,2022, 超越模仿游戏:量化和外推语言模型的能力。

[83] 杰里米·韦, 王晓, 达里奥·舒尔曼, 昆滕·V·勒, 埃里克·奇, 德里克·Z·陈, “链式思维提示在大型语言模型中激发推理”,arXiv 预印本 arXiv:2201.11903, 2022.

[84] T·计算机, S·杰, B·卡斯珀, P·勒, S·权, T·陈, “RedPajama-Incite-7B”,2023, 一个开源 Falcon 的开放数据集。

[85] 李强, 陈震, 王伟 等人, “Omnicorpus:一个统一的十亿级图像与文本交错的多模态语料库”,arXiv 预印本 arXiv:2406.08418, 2024, 包括 86 亿张图像和 1696 亿个文本标记。CC-BY-4.0 许可证。

[86] N·Labs, “Refinedtext-r1:高质量策划文本以适应领域”,https://refinedtext.org/r1,2023, Apache-2.0 许可证。总文档数:9 亿。

[87] OpenAI, “Language Models are Few-Shot Learners”,arXiv:2005.14165, 2020, 训练数据:570GB 过滤文本(Common Crawl、书籍、维基百科)。

[88] A·R·Group, “Opencorpus-v3:一个大规模的多语言数据集用于 NLP”,https://opencorpus.org/v3,2023, CC-BY-4.0 许可证。总文档数:12 亿。

[89] OpenAI, “GPT-2 输出数据集”,https://github.com/openai/gpt-2-output-dataset,2019, 25 万 WebText 样本,每种模型生成 25 万 GPT2 样本。

[90] 林伟, 黄达, “Deepseek 的医疗和法律微调策略”,https://example.org/lin2025deepseek,2025, 访问日期:2025-02-05.

[91] 帕克·尹, 古普塔·罗希特, “Gemini 中的跨模态对齐:技术和应用”,https://example.org/park2024gemini,2024, 访问日期:2025-02-05.

[92] 阿什·瓦斯瓦尼, 尼古拉斯·沙泽尔, 诺亚·帕尔马 等人, “Attention is all you need”,https://arxiv.org/abs/1706.03762,2017, 访问日期:2025-02-05.

[93] 雅各布·德夫林, 马修-王·张, 金成勋, 克里斯托弗·托纳瓦纳, “BERT:用于语言理解的深度双向 Transformer 预训练”,https://arxiv.org/abs/1810.04805,2019, 访问日期:2025-02-05.

[94] 穆罕默德·贾西姆·伊斯拉姆, 阿卜杜尔·拉赫曼, 萨基布·卡比尔, 阿布·哈顿, 阿布·伊布拉希姆·普里托姆, 穆罕默德·扎曼, “SDOT-NFV:增强分布式 SDN-IoT 架构安全性以实现智能城市中的 NFV 实施”,计算机科学与工程系, Bangladesh 绿色大学,达卡, 孟加拉国,技术报告 2020A3321, 2020.

[95] A·分析, “AI 模型性能比较”,2024, 访问日期:2025 年 2 月 6 日。[在线] 可用:https://artificialanalysis.ai/

[96] YourGPT, “LLM 比较和排行榜”,2025, 访问日期:2025 年 2 月 6 日。[在线] 可用:https://yourgpt.ai/tools/llm-comparison-and-leaderboard

[97] A·I·乌多伊, 穆罕默德·阿·拉赫曼, 穆罕默德·贾西姆·伊斯拉姆, 阿卜杜尔·拉赫曼, 扎希德·阿里, 格拉尼·穆罕默德, “4SQR-CODE:提高数字孪生框架中数据存储容量的四状态二维码生成模型”,《高级研究杂志》,卷 66, 页 15-30, 2024.

[98] 约翰·史密斯, 约翰·多伊, “现代评估中的评估标准”,《教育研究杂志》,卷 45, 第 3 期, 页 123-135, 2021.

[99] 安娜·李, 罗伯特·金, “评估 AI 模型中的 SAT 数学表现”,《国际测试期刊》,卷 21, 第 2 期, 页 78-89, 2021.

[100] 阿卜杜尔·拉赫曼, 穆罕默德·贾西姆·伊斯拉姆, 穆罕默德·拉赫曼·卡里姆, 德巴普里亚·孔杜, 沙希德·卡比尔, “通过区块链-SDN 框架进行孟加拉国视角下的 COVID-19 大流行期间智能化疫苗分发过程”,在 2021 年国际电子、通信与信息技术会议 (ICECIT) 上。IEEE, 2021, 页 1-4.

[101] 伊丽莎白·布朗, 史蒂芬·格林, “神经网络中的逻辑推理和 LSAT 表现”,《认知科学杂志》,卷 12, 第 4 期, 页.

[102] 马丁·罗德里格斯, 维贾伊·帕特尔, “使用 USMLE 在 AI 中评估医学知识”,《在线医学教育》,卷 27, 第 1 期, 页 112-123, 2022.

[103] 罗伯特·安德森, 沙利尼·库马尔, “StrategyQA:评估问答中的多步推理”,《自然语言工程》,卷 28, 第 3 期, 页 345-360, 2022.

[104] 艾丽西亚·戴维斯, 布莱恩·汤普森, “CommonsenseQA:在语言模型中基准化日常推理”,《计算语言学》,卷 47, 第 1 期, 页 95-110, 2021.

[105] 格雷戈里·托马斯, 杰弗里·李, “ARC-Challenge:AI 中科学推理的基准”,《科学机器人》,卷 5, 第 42 期, p. eabc4596, 2020.

[106] 何伟, 赵明, “AI 推理中 MMLU 基准测试的进展”,《机器学习研究交易》,卷 22, 第 6 期, 页 789-802, 2021.

[107] 克里斯托弗·米勒, 彼得·戴维斯, “HellaSwag:评估 AI 中常识推理”,《人工智能研究杂志》,卷 69, 页 1-29, 2020.

[108] 李浩, 何文, 王伟, 李晓, 袁宇, 刘佳, 刘伟, 徐伟, 王晓, 孙宇 等人, “个人 LLM 代理:关于能力、效率和安全性的见解和调查”,arXiv 预印本 arXiv:2401.05459, 2024.

[109] 郭达, 朱庆, 杨德, 谢震, 东强, 张伟, 陈国, 毕晓, 吴宇, 李勇 等人, “Deepseek-coder:当大规模语言模型遇到编程——代码智能的兴起”,arXiv 预印本 arXiv:2401.14196, 2024.

[110] 伯纳德·科瓦列夫斯基, “AI 微调中的伦理与安全”,《一般人工智能科学期刊 (JAIGS)》 ISSN: 3006-4023, 卷 1, 第 1 期, 页 259-267, 2024.

[111] 钱·孙, 崔宇, 张晓, 张芳, 尤庆, 王宇, 饶宇, 刘佳, 黄涛, 王晓, “生成式多模态模型是上下文学习者”,在 IEEE/CVF 计算机视觉与模式识别会议录中, 2024, 页 14398-14409.

[112] 拉纳尔迪·兰纳尔迪, 阿尔弗雷德·弗雷塔斯, “通过链式思维推理对大、小语言模型进行对齐”,在欧洲计算语言学协会第 18 届会议录(卷 1:长篇论文)中, 2024, 页 1812-1827.

[113] 阿卜杜尔·拉赫曼, 马·阿·哈·瓦杜德, 穆罕默德·贾西姆·伊斯拉姆, 德巴普里亚·孔杜, 塔努亚·A·U·H·布伊扬, 格拉尼·穆罕默德, 扎希德·阿里, “基于 SDN 的远程患者监控互联网医疗事物和区块链支持的患者中心代理”,《科学报告》,卷 14, 第 1 期, p. 5297, 2024.

[114] 阿卜杜尔·拉赫曼, 穆罕默德·阿·H·瓦杜德, 穆罕默德·贾西姆·伊斯拉姆, 德巴普里亚·孔杜, 塔努亚·A·U·H·布伊扬, 格拉尼·穆罕默德, 扎希德·阿里, “基于区块链和 SDN 的集成:概述、应用和未来展望”,《网络与系统管理杂志》,卷 30, 第 4 期, p. 73, 2022.

[115] 阿卜杜尔·拉赫曼, 塔努亚·德布纳特, 德巴普里亚·孔杜, 穆罕默德·萨基卜·伊克巴尔·汗, 阿·阿·阿伊西, 沙希德·萨扎德, 穆罕默德·萨基卜·伊克巴尔·汗, 沙希德·赛义德·班德, “基于机器学习和深度学习的方法在智能医疗保健中的应用:最新进展、应用、挑战和机遇”,《AIMS 公共健康》,卷 11, 第 1 期, p. 58, 2024.

[116] 贾斯敏·乔伊奥, 萨法·阿夫鲁格, 许可, 张博, 东强, 刘博, 杨超, 孙宇, 陈达, 王志明 等人, “Rlaif-V:通过开源 AI 反馈对超 GPT-4V 进行可信对齐”,arXiv 预印本 arXiv:2405.17220, 2024.

[117] 伊丽莎白·沃尔特, “拥抱课堂上的人工智能未来:现代教育中 AI 文盲、提示工程和批判性思维的相关性”,《国际高等教育技术教育杂志》,卷 21, 第 1 期, p. 15, 2024.

[118] 阿卜杜尔·拉赫曼, 卡迈勒·哈桑, 金善浩, “基于软件定义网络的工业 4.0 应用增强安全架构”,在 2022 年 ICTC 国际信息和通信技术融合会议上。IEEE, 2022, 页 2127-2130.

[119] 胡伟, 刘伟, 张博, 王博, 东强, 刘博, 孙宇, 任天, 李震, 杨浩 等人, “Deepseek-VL:朝着现实世界的视觉语言理解”,arXiv 预印本 arXiv:2403.05525, 2024.

[120] 穆罕默德·阿·萨米, 穆罕默德·阿·萨马德, 卡里姆·帕雷赫, 普拉文·帕特尔·苏撒尔, “ChatGPT 4.0 和 Google Gemini 回答儿科放射学文本问题的对比准确性”,《Cureus》,卷 16, 第 10 期, p. e70897, 2024.

[121] 吉安卢卡·罗塞蒂尼, 劳伦佐·罗德盖罗, 弗朗西斯科·科尔拉迪, 克里斯托弗·库克, 保罗·皮拉斯特里尼, 阿尔贝托·图罗拉, 格拉齐亚·卡斯特利尼, 斯蒂法诺·基亚平诺托, 斯蒂法诺·贾诺拉, 安东尼奥·帕莱塞, “ChatGPT-4、Microsoft Copilot 和 Google Gemini 在意大利医疗科学学位入学考试中的对比准确性:横断面研究”,《BMC 医学教育》,卷 24, 第 1 期, p. 694, 2024.

[122] 李伟, 张博, 刘伟, 杨宇, 孙宇, “大型语言模型的对比性能分析:ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮质激素诱导骨质疏松症中的表现”,《骨科手术与研究杂志》,卷 19, 第 1 期, p. 574, 2024.

[123] 范超, 陈超, 张博, 蒋博, 赵震, 刘伟, 尤田, 陈超, “ShapeGPT:使用统一多模态语言模型生成 3D 形状”,《IEEE 多媒体事务》,2025.

[124] 阿卜杜尔·拉赫曼, 安德里亚·蒙蒂耶里, 德巴普里亚·孔杜, 穆罕默德·拉赫曼·卡里姆, 穆罕默德·贾西姆·伊斯拉姆, 沙希德·乌梅, 安东尼奥·纳西塔, 安东尼奥·佩斯卡佩, “关于区块链和 SDN 的集成:概述、应用和未来展望”,《网络与系统管理杂志》,卷 30, 第 4 期, p. 73, 2022.

[125] 阿卜杜尔·拉赫曼, 塔努亚·德布纳特, 德巴普里亚·孔杜, 穆罕默德·萨基卜·伊克巴尔·汗, 阿·阿·阿伊西, 沙希德·萨扎德, 穆罕默德·萨基卜·伊克巴尔·汗, 沙希德·赛义德·班德, “基于机器学习和深度学习的方法在智能医疗保健中的应用:最新进展、应用、挑战和机遇”,《AIMS 公共健康》,卷 11, 第 1 期, p. 58, 2024.

术语——人工智能,DeepSeek,ChatGPT,Copilot,Google Gemini,LLM,技术,性能,数据分析,数据收集。

原论文:https://arxiv.org/pdf/2503.0478

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐