大模型领域常用专业词汇(分类整理)
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!
·
本文总结了大模型领域常用的专业词汇解释,并分类进行了整理,仅供参考,如下:
1、模型架构
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 大语言模型(LLM) | Large Language Model (LLM) | 基于深度学习的大规模神经网络模型,通常采用Transformer架构,通过大规模数据集训练生成高质量文本。 |
| Transformer架构 | Transformer Architecture | 采用自注意力机制的神经网络架构,高效处理序列数据的长距离依赖关系,成为NLP主流架构。 |
| 循环神经网络(RNN) | Recurrent Neural Network (RNN) | 处理序列数据的神经网络,但存在梯度消失或爆炸问题,难以捕捉长期依赖。 |
| 长短期记忆网络(LSTM) | Long Short-Term Memory (LSTM) | 改进的RNN,通过门控机制解决梯度消失问题,增强长期依赖捕捉能力。 |
| 卷积神经网络(CNN) | Convolutional Neural Network (CNN) | 用于图像处理的神经网络,通过卷积操作提取特征,也可用于文本分类等其他领域。 |
| 多头注意力 | Multi-Head Attention | Transformer中的机制,将注意力分解为多个“头”,学习输入的不同特征以提高表现力。 |
| 位置编码 | Positional Encoding | 为Transformer提供序列位置信息的编码方式,弥补其无序列记忆能力的缺陷。 |
| 自注意力机制 | Self-Attention Mechanism | 允许序列中每个元素关注其他元素的注意力机制,帮助捕捉长距离依赖关系。 |
| 编码器-解码器架构 | Encoder-Decoder Architecture | 序列到序列任务的通用架构,编码器将输入转换为中间表示,解码器生成输出序列。 |
| 图神经网络(GNN) | Graph Neural Network (GNN) | 处理图结构数据的神经网络,适用于社交网络分析、分子结构预测等。 |
| 混合专家模型(MoE) | Mixture of Experts (MoE) | 通过多个“专家”网络并行处理输入,门控机制选择最优结果,平衡计算效率与性能。 |
2、训练方法与技术
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 预训练 | Pre-training | 在大规模无标注数据上训练模型,学习通用语言规律。 |
| 微调 | Fine-tuning | 在预训练模型基础上,用特定领域的小规模数据进一步优化模型性能。 |
| 监督微调(SFT) | Supervised Fine-Tuning (SFT) | 使用标注数据对预训练模型进行任务适配,提升特定任务表现。 |
| 少样本学习 | Few-shot Learning | 仅用少量标注数据训练模型快速适应新任务。 |
| 零样本学习 | Zero-shot Learning | 模型无需特定任务数据即可进行推理。 |
| 对抗训练 | Adversarial Training | 通过生成对抗样本增强模型鲁棒性。 |
| 自监督学习 | Self-Supervised Learning | 利用数据自身生成标签进行训练,如掩码语言建模(MLM)。 |
| 人类反馈的强化学习 | Reinforcement Learning from Human Feedback (RLHF) | 结合人类反馈优化模型输出,使其更符合人类价值观。 |
| 迁移学习 | Transfer Learning | 将源领域的知识迁移到目标领域,加速模型训练。 |
| 元学习 | Meta-learning | 学习如何快速适应新任务,提升模型泛化能力。 |
3、模型优化与压缩
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 知识蒸馏 | Knowledge Distillation | 通过小模型(学生)模仿大模型(教师)的行为,减少计算复杂度。 |
| 量化 | Quantization | 降低参数和激活值的位数(如32位→8位),减少存储和计算需求。 |
| 剪枝 | Pruning | 去除冗余权重或神经元,简化模型结构。 |
| 稀疏激活 | Sparse Activation | 激活函数大部分输出零值,减少计算量和存储需求。 |
| 低秩分解 | Low-Rank Factorization | 将高维矩阵分解为低维矩阵乘积,降低参数量。 |
| 权重共享 | Weight Sharing | 在不同位置复用相同权重(如CNN滤波器),减少参数数量。 |
4、推理与应用
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 推理 | Inference | 模型根据输入数据生成预测结果的过程。 |
| 模型融合 | Model Ensembling | 结合多个模型的预测结果提升整体性能。 |
| 多模态学习 | Multimodal Learning | 处理多种输入形式(文本、图像、语音等)的模型。 |
| 提示词 | Prompt | 引导生成式模型输出的输入文本,显著影响生成质量。 |
| 上下文窗口 | Context Window | 模型处理输入时能“看到”的上下文范围,影响长距离依赖捕捉能力。 |
| 在线学习 | Online Learning | 模型实时更新参数以适应动态数据环境。 |
5、计算与性能优化
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 混合精度训练 | Mixed-Precision Training | 结合16位和32位浮点数加速训练,减少内存占用。 |
| 批处理 | Batching | 一次性处理多个样本以提高硬件利用率。 |
| 并行计算 | Parallel Computing | 拆分任务到多处理器并行执行,加速计算。 |
| 分布式训练 | Distributed Training | 在多台机器上分配训练任务,缩短训练时间。 |
6、数据与标签
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 数据清洗 | Data Cleaning | 处理数据集中的错误、冗余或无关数据。 |
| 数据增强 | Data Augmentation | 通过变换生成新样本(如旋转图像),提升模型泛化能力。 |
| 合成数据 | Synthetic Data | 算法生成的人工数据,补充真实数据不足。 |
| 硬标签 | Hard Labels | 单热编码的确定性分类标签(如类别索引)。 |
| 软标签 | Soft Labels | 概率分布形式的标签(如教师模型预测结果)。 |
7、模型评估与调试
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 对抗样本 | Adversarial Examples | 添加细微扰动误导模型输出的数据,用于测试鲁棒性。 |
| 可解释性 | Explainability | 模型决策过程的透明度和可理解性。 |
| 模型鲁棒性 | Model Robustness | 模型在噪声、对抗攻击或数据分布变化下的稳定性。 |
| 交叉验证 | Cross-validation | 通过多轮数据划分评估模型泛化能力。 |
| AUC-ROC曲线 | AUC-ROC Curve | 评估二分类模型性能的指标,值越接近1性能越好。 |
8、伦理与公平性
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 伦理和偏见 | Ethics and Bias | 模型训练和应用中的歧视性偏差及隐私保护问题。 |
| 公平性 | Fairness | 模型在不同群体间的表现公正性。 |
| 隐私保护 | Privacy Protection | 保护用户数据隐私的技术(如差分隐私)。 |
9、其他
| 中文名称 | 英文名称 | 名词解释 |
|---|---|---|
| 能力密度 | Capability Density | 衡量模型有效参数与实际参数的比率,评估训练质量。 |
| 缩放定律 | Scaling Law | 描述模型性能随规模、数据量和计算资源变化的幂律规律。 |
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)