Hugging Face Spaces上的LLM-colosseum:在线查看实时排名
你是否还在为选择合适的大语言模型(LLM)而烦恼?是否想知道哪些模型在复杂决策场景中表现更优?LLM-colosseum项目为你提供了全新的评估方式——通过《街头霸王3》游戏让AI模型一决高下!本文将带你了解如何在Hugging Face Spaces上查看实时排名,掌握各模型的战斗能力。读完本文你将获得:- 如何访问LLM-colosseum的实时排名页面- 排名数据的解读方法- 模型...
Hugging Face Spaces上的LLM-colosseum:在线查看实时排名
你是否还在为选择合适的大语言模型(LLM)而烦恼?是否想知道哪些模型在复杂决策场景中表现更优?LLM-colosseum项目为你提供了全新的评估方式——通过《街头霸王3》游戏让AI模型一决高下!本文将带你了解如何在Hugging Face Spaces上查看实时排名,掌握各模型的战斗能力。
读完本文你将获得:
- 如何访问LLM-colosseum的实时排名页面
- 排名数据的解读方法
- 模型战斗原理的简要说明
- 本地部署与参与评估的途径
访问实时排名页面
LLM-colosseum项目在Hugging Face Spaces上提供了直观的排名界面,你可以通过以下步骤访问:
- 打开浏览器,访问Hugging Face Spaces页面
- 搜索"junior-labs/llm-colosseum"空间
- 进入页面后即可查看最新的模型排名数据
排名页面展示了各模型的ELO评分、胜率矩阵等关键数据,帮助你快速了解不同模型的战斗表现。
排名数据解读
ELO排名表
排名页面最核心的部分是ELO排名表,该表基于546场战斗数据生成,采用国际象棋等竞技项目中常用的ELO评分系统。以下是截至最新数据的前十排名:
| Rank | Model | Rating |
|---|---|---|
| 1 | 🥇openai:gpt-4o:text | 1912.5 |
| 2 | 🥈openai:gpt-4o-mini:vision | 1835.27 |
| 3 | 🥉openai:gpt-4o-mini:text | 1670.89 |
| 4 | openai:gpt-4o:vision | 1656.93 |
| 5 | mistral:pixtral-large-latest:vision | 1654.61 |
| 6 | mistral:pixtral-12b-2409:vision | 1590.77 |
| 7 | mistral:pixtral-12b-2409:text | 1569.03 |
| 8 | together:meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo:text | 1441.45 |
| 9 | anthropic:claude-3-haiku-20240307:vision | 1364.87 |
| 10 | mistral:pixtral-large-latest:text | 1356.32 |
数据来源:README.md
从表中可以看出,GPT-4o系列模型表现突出,占据了前三名中的两席。值得注意的是,视觉模型(vision)在多数情况下表现优于纯文本模型(text),这可能是因为它们能更直接地理解游戏画面信息。
胜率矩阵
除了ELO排名,页面还提供了直观的胜率矩阵图,展示各模型之间的直接对抗结果:
该矩阵图以热力图形式展示了不同模型之间的胜率关系,颜色越深表示胜率越高。通过这个矩阵,你可以快速了解哪些模型在面对特定对手时更具优势。
模型战斗原理
LLM-colosseum让AI模型在《街头霸王3》中对战,通过游戏表现来评估模型能力。项目主要通过两种机器人类型实现模型与游戏的交互:
TextRobot
TextRobot通过文本描述游戏状态来决策下一步行动。系统会向LLM发送游戏画面的文本描述,包括角色位置、血量、能量等信息,模型根据这些文本信息决定后续动作。
TextRobot的核心逻辑位于agent/robot.py文件中的TextRobot.call_llm()方法。该方法构建提示词,包含游戏规则、可用动作列表和当前游戏状态,然后调用LLM API获取动作决策。
VisionRobot
VisionRobot则直接接收游戏截图,通过多模态LLM(视觉语言模型)进行决策。这种方式更接近人类玩家的体验,模型需要从图像中提取游戏状态信息并做出判断。
VisionRobot的实现同样位于agent/robot.py文件,对应VisionRobot.call_llm()方法。与TextRobot不同的是,该方法会将游戏截图作为输入传递给支持图像理解的LLM。
本地部署与参与评估
如果你对LLM-colosseum项目感兴趣,想要本地体验或贡献自己的模型,可以按照以下步骤操作:
基本安装
- 克隆仓库:
git clone https://gitcode.com/GitHub_Trending/ll/llm-colosseum - 安装依赖:
make install或pip install -r requirements.txt - 创建.env文件,参考.env.example配置环境变量
- 运行程序:
make run
Docker部署
项目提供了Docker配置文件,方便快速部署:
# 构建镜像
docker build -t diambra-app .
# 运行容器
docker run --name diambra-container -v ~/.diambra/roms:/app/roms diambra-app
也可以使用docker-compose进行部署:
docker-compose up
本地模型对战
如果你想使用本地模型(如通过Ollama部署的模型)进行对战,可以修改local.py文件中的配置:
game = Game(
render=True,
save_game=True,
player_1=Player1(
nickname="YourModel",
model="ollama:your-model-name",
robot_type="text", # 或 "vision"
temperature=0.7,
),
player_2=Player2(
nickname="OpponentModel",
model="ollama:opponent-model",
robot_type="text",
temperature=0.7,
),
)
然后运行:make local
总结与展望
LLM-colosseum通过创新的游戏化方式评估LLM性能,为AI模型评估提供了新思路。Hugging Face Spaces上的实时排名页面让我们可以直观地比较不同模型的决策能力、反应速度和策略适应性。
随着更多模型的加入和战斗数据的积累,排名将不断更新,为AI研究和应用提供有价值的参考。我们期待未来能看到更多模型参与这场AI"武林大会",共同推动大语言模型技术的进步。
如果你有兴趣改进模型提示词或提交新模型,可以修改agent/robot.py中的相关方法,并通过PR参与项目贡献。让我们一起打造更全面、更有趣的LLM评估平台!
项目logo:LLM-colosseum的标志,融合了竞技场和AI元素
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐


所有评论(0)