非常棒的长文本输入大模型:基于MiniMax的海螺AI模型,快来体验一下吧! 海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率

这个大模型最大的特点就是支持长文本输入,而且是从内部就擅长对长文本的处理,根据其github开源项目的描述,其长文本处理能力要优于当前市面上流行的各类模型,就像断水流大师兄说的:我不是针对谁,我是说在座的各位,都是XX。

MiniMax-01 系列模型

源代码:https://github.com/MiniMax-AI/MiniMax-01

 MiniMax-01 系列模型包括两款模型:MiniMax-Text-01 和 MiniMax-VL-01

MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,每个令牌激活 459 亿个参数。为了解锁其长上下文功能,它采用了集成了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE) 的混合架构。利用线性注意力序列并行增强 (LASP+)、varlen 环注意力和专家张量并行 (ETP) 等高级并行策略,其训练上下文长度扩展到 100 万个令牌,并且在推理过程中可以处理多达 400 万个令牌。因此,MiniMax-Text-01 在各种学术基准测试中展示了顶级性能。

基于 MiniMax-Text-01 的强大功能,开发了 MiniMax-VL-01 以增强视觉功能。它使用多模态 LLM 中常见的 “ViT-MLP-LLM” 框架。它使用三个关键组件进行初始化和训练:用于视觉编码的 3.03 亿参数视觉转换器 (ViT)、用于图像自适应的随机初始化的两层 MLP 投影仪以及作为基本 LLM 的 MiniMax-Text-01。该模型具有动态分辨率机制。输入图像根据预设网格调整大小,分辨率范围为 336×336 到 2016×2016,同时保持 336×336 缩略图。调整大小后的图像被分割成相同大小的不重叠的图块。这些色块和缩略图分别编码,然后组合起来形成完整的图像表示形式。因此,MiniMax-VL-01 在多模态排行榜上取得了顶级性能,展示了其在复杂多模态任务中的优势。

模型架构

MiniMax-Text-01 的架构简要说明如下:

  • 总参数: 456B
  • 每个令牌的激活参数数:45.9B
  • 编号层数:80
  • 混合注意力:每 7 次闪电注意后放置一个 softmax 注意力。
    • 注意力头数:64
    • 注意头尺寸:128
  • 专家混合:
    • 专家人数: 32
    • 专家隐藏维度:9216
    • Top-2 路由策略
  • 位置编码:旋转位置嵌入 (RoPE) 应用于注意力头尺寸的一半,基本频率为 10,000,000
  • 隐藏尺寸: 6144
  • 词汇量: 200,064

对于 MiniMax-VL-01,其他 ViT 架构详细信息如下:

  • 总参数:303M
  • 层数: 24
  • 补丁大小:14
  • 隐藏尺寸: 1024
  • FFN 隐藏大小:4096
  • 刀头数量: 16
  • 注意头尺寸:64

3. 评估

文本基准测试

核心学术基准Core Academic Benchmarks
Tasks GPT-4o (11-20) Claude-3.5-Sonnet (10-22) Gemini-1.5-Pro (002) Gemini-2.0-Flash (exp) Qwen2.5-72B-Inst. DeepSeek-V3 Llama-3.1-405B-Inst. MiniMax-Text-01
General
MMLU* 85.7 88.3 86.8 86.5 86.1 88.5 88.6 88.5
MMLU-Pro* 74.4 78.0 75.8 76.4 71.1 75.9 73.3 75.7
SimpleQA 39.0 28.1 23.4 26.6 10.3 24.9 23.2 23.7
C-SimpleQA 64.6 56.8 59.4 63.3 52.2 64.8 54.7 67.4
IFEval (avg) 84.1 90.1 89.4 88.4 87.2 87.3 86.4 89.1
Arena-Hard 92.4 87.6 85.3 72.7 81.2 91.4 63.5 89.1
Reasoning
GPQA* (diamond) 46.0 65.0 59.1 62.1 49.0 59.1 50.7 54.4
DROP* (F1) 89.2 88.8 89.2 89.3 85.0 91.0 92.5 87.8
Mathematics
GSM8k* 95.6 96.9 95.2 95.4 95.8 96.7 96.7 94.8
MATH* 76.6 74.1 84.6 83.9 81.8 84.6 73.8 77.4
Coding
MBPP + 76.2 75.1 75.4 75.9 77.0 78.8 73.0 71.7
HumanEval 90.2 93.7 86.6 89.6 86.6 92.1 89.0 86.9

* Evaluated following a 0-shot CoT setting.

任务 GPT-4o (11-20) 克劳德-3.5-十四行诗 (10-22) 双子座-1.5-Pro (002) Gemini-2.0-Flash (exp) Qwen2.5-72B-研究所 深度搜索-V3 美洲驼-3.1-405B-研究所 MiniMax-Text-01 (英文)
常规
MMLU* 85.7 88.3 86.8 86.5 86.1 88.5 88.6 88.5
MMLU-Pro 系列* 74.4 78.0 75.8 76.4 71.1 75.9 73.3 75.7
简单质量保证 39.0 28.1 23.4 26.6 10.3 24.9 23.2 23.7
C-SimpleQA 型 64.6 56.8 59.4 63.3 52.2 64.8 54.7 67.4
IFEval (avg) 84.1 90.1 89.4 88.4 87.2 87.3 86.4 89.1
竞技场-困难 92.4 87.6 85.3 72.7 81.2 91.4 63.5 89.1
推理
GPQA(钻石)* 46.0 65.0 59.1 62.1 49.0 59.1 50.7 54.4
DROP (F1)* 89.2 88.8 89.2 89.3 85.0 91.0 92.5 87.8
数学
GSM8k* 95.6 96.9 95.2 95.4 95.8 96.7 96.7 94.8
数学* 76.6 74.1 84.6 83.9 81.8 84.6 73.8 77.4
编码
MBPP + 76.2 75.1 75.4 75.9 77.0 78.8 73.0 71.7
HumanEval 90.2 93.7 86.6 89.6 86.6 92.1 89.0 86.9
 长文本:Ruler
Model 4k 8k 16k 32k 64k 128k 256k 512k 1M
GPT-4o (11-20) 0.970 0.921 0.890 0.888 0.884 - - - -
Claude-3.5-Sonnet (10-22) 0.965 0.960 0.957 0.950 0.952 0.938 - - -
Gemini-1.5-Pro (002) 0.962 0.960 0.960 0.958 0.938 0.917 0.916 0.861 0.850
Gemini-2.0-Flash (exp) 0.960 0.960 0.951 0.957 0.937 0.860 0.797 0.709 -
MiniMax-Text-01 0.963 0.961 0.953 0.954 0.943 0.947 0.945 0.928 0.910

可以看到,越长的文本,MiniMax的表现越好!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐