Hugging Face Spaces上的LLM-colosseum：在线查看实时排名

你是否还在为选择合适的大语言模型（LLM）而烦恼？是否想知道哪些模型在复杂决策场景中表现更优？LLM-colosseum项目为你提供了全新的评估方式——通过《街头霸王3》游戏让AI模型一决高下！本文将带你了解如何在Hugging Face Spaces上查看实时排名，掌握各模型的战斗能力。读完本文你将获得：- 如何访问LLM-colosseum的实时排名页面- 排名数据的解读方法- 模型...

华朔珍Elena

1091人浏览 · 2025-10-05 08:34:46

华朔珍Elena · 2025-10-05 08:34:46 发布

Hugging Face Spaces上的LLM-colosseum：在线查看实时排名

【免费下载链接】llm-colosseum Benchmark LLMs by fighting in Street Fighter 3! The new way to evaluate the quality of an LLM 项目地址: https://gitcode.com/GitHub_Trending/ll/llm-colosseum

你是否还在为选择合适的大语言模型（LLM）而烦恼？是否想知道哪些模型在复杂决策场景中表现更优？LLM-colosseum项目为你提供了全新的评估方式——通过《街头霸王3》游戏让AI模型一决高下！本文将带你了解如何在Hugging Face Spaces上查看实时排名，掌握各模型的战斗能力。

读完本文你将获得：

如何访问LLM-colosseum的实时排名页面
排名数据的解读方法
模型战斗原理的简要说明
本地部署与参与评估的途径

访问实时排名页面

LLM-colosseum项目在Hugging Face Spaces上提供了直观的排名界面，你可以通过以下步骤访问：

打开浏览器，访问Hugging Face Spaces页面
搜索"junior-labs/llm-colosseum"空间
进入页面后即可查看最新的模型排名数据

排名页面展示了各模型的ELO评分、胜率矩阵等关键数据，帮助你快速了解不同模型的战斗表现。

排名数据解读

ELO排名表

排名页面最核心的部分是ELO排名表，该表基于546场战斗数据生成，采用国际象棋等竞技项目中常用的ELO评分系统。以下是截至最新数据的前十排名：

Rank	Model	Rating
1	🥇openai:gpt-4o:text	1912.5
2	🥈openai:gpt-4o-mini:vision	1835.27
3	🥉openai:gpt-4o-mini:text	1670.89
4	openai:gpt-4o:vision	1656.93
5	mistral:pixtral-large-latest:vision	1654.61
6	mistral:pixtral-12b-2409:vision	1590.77
7	mistral:pixtral-12b-2409:text	1569.03
8	together:meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo:text	1441.45
9	anthropic:claude-3-haiku-20240307:vision	1364.87
10	mistral:pixtral-large-latest:text	1356.32

数据来源：README.md

从表中可以看出，GPT-4o系列模型表现突出，占据了前三名中的两席。值得注意的是，视觉模型（vision）在多数情况下表现优于纯文本模型（text），这可能是因为它们能更直接地理解游戏画面信息。

胜率矩阵

除了ELO排名，页面还提供了直观的胜率矩阵图，展示各模型之间的直接对抗结果：

该矩阵图以热力图形式展示了不同模型之间的胜率关系，颜色越深表示胜率越高。通过这个矩阵，你可以快速了解哪些模型在面对特定对手时更具优势。

模型战斗原理

LLM-colosseum让AI模型在《街头霸王3》中对战，通过游戏表现来评估模型能力。项目主要通过两种机器人类型实现模型与游戏的交互：

TextRobot

TextRobot通过文本描述游戏状态来决策下一步行动。系统会向LLM发送游戏画面的文本描述，包括角色位置、血量、能量等信息，模型根据这些文本信息决定后续动作。

TextRobot的核心逻辑位于agent/robot.py文件中的TextRobot.call_llm()方法。该方法构建提示词，包含游戏规则、可用动作列表和当前游戏状态，然后调用LLM API获取动作决策。

VisionRobot

VisionRobot则直接接收游戏截图，通过多模态LLM（视觉语言模型）进行决策。这种方式更接近人类玩家的体验，模型需要从图像中提取游戏状态信息并做出判断。

VisionRobot的实现同样位于agent/robot.py文件，对应VisionRobot.call_llm()方法。与TextRobot不同的是，该方法会将游戏截图作为输入传递给支持图像理解的LLM。

本地部署与参与评估

如果你对LLM-colosseum项目感兴趣，想要本地体验或贡献自己的模型，可以按照以下步骤操作：

基本安装

克隆仓库：git clone https://gitcode.com/GitHub_Trending/ll/llm-colosseum
安装依赖：make install 或 pip install -r requirements.txt
创建.env文件，参考.env.example配置环境变量
运行程序：make run

Docker部署

项目提供了Docker配置文件，方便快速部署：

# 构建镜像
docker build -t diambra-app .

# 运行容器
docker run --name diambra-container -v ~/.diambra/roms:/app/roms diambra-app

也可以使用docker-compose进行部署：

docker-compose up

本地模型对战

如果你想使用本地模型（如通过Ollama部署的模型）进行对战，可以修改local.py文件中的配置：

game = Game(
    render=True,
    save_game=True,
    player_1=Player1(
        nickname="YourModel",
        model="ollama:your-model-name",
        robot_type="text",  # 或 "vision"
        temperature=0.7,
    ),
    player_2=Player2(
        nickname="OpponentModel",
        model="ollama:opponent-model",
        robot_type="text",
        temperature=0.7,
    ),
)

然后运行：make local

总结与展望

LLM-colosseum通过创新的游戏化方式评估LLM性能，为AI模型评估提供了新思路。Hugging Face Spaces上的实时排名页面让我们可以直观地比较不同模型的决策能力、反应速度和策略适应性。

随着更多模型的加入和战斗数据的积累，排名将不断更新，为AI研究和应用提供有价值的参考。我们期待未来能看到更多模型参与这场AI"武林大会"，共同推动大语言模型技术的进步。

如果你有兴趣改进模型提示词或提交新模型，可以修改agent/robot.py中的相关方法，并通过PR参与项目贡献。让我们一起打造更全面、更有趣的LLM评估平台！

项目logo：LLM-colosseum的标志，融合了竞技场和AI元素

【免费下载链接】llm-colosseum Benchmark LLMs by fighting in Street Fighter 3! The new way to evaluate the quality of an LLM 项目地址: https://gitcode.com/GitHub_Trending/ll/llm-colosseum

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla