Hugging Face Spaces上的LLM-colosseum:在线查看实时排名

【免费下载链接】llm-colosseum Benchmark LLMs by fighting in Street Fighter 3! The new way to evaluate the quality of an LLM 【免费下载链接】llm-colosseum 项目地址: https://gitcode.com/GitHub_Trending/ll/llm-colosseum

你是否还在为选择合适的大语言模型(LLM)而烦恼?是否想知道哪些模型在复杂决策场景中表现更优?LLM-colosseum项目为你提供了全新的评估方式——通过《街头霸王3》游戏让AI模型一决高下!本文将带你了解如何在Hugging Face Spaces上查看实时排名,掌握各模型的战斗能力。

读完本文你将获得:

  • 如何访问LLM-colosseum的实时排名页面
  • 排名数据的解读方法
  • 模型战斗原理的简要说明
  • 本地部署与参与评估的途径

访问实时排名页面

LLM-colosseum项目在Hugging Face Spaces上提供了直观的排名界面,你可以通过以下步骤访问:

  1. 打开浏览器,访问Hugging Face Spaces页面
  2. 搜索"junior-labs/llm-colosseum"空间
  3. 进入页面后即可查看最新的模型排名数据

排名页面展示了各模型的ELO评分、胜率矩阵等关键数据,帮助你快速了解不同模型的战斗表现。

排名数据解读

ELO排名表

排名页面最核心的部分是ELO排名表,该表基于546场战斗数据生成,采用国际象棋等竞技项目中常用的ELO评分系统。以下是截至最新数据的前十排名:

Rank Model Rating
1 🥇openai:gpt-4o:text 1912.5
2 🥈openai:gpt-4o-mini:vision 1835.27
3 🥉openai:gpt-4o-mini:text 1670.89
4 openai:gpt-4o:vision 1656.93
5 mistral:pixtral-large-latest:vision 1654.61
6 mistral:pixtral-12b-2409:vision 1590.77
7 mistral:pixtral-12b-2409:text 1569.03
8 together:meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo:text 1441.45
9 anthropic:claude-3-haiku-20240307:vision 1364.87
10 mistral:pixtral-large-latest:text 1356.32

数据来源:README.md

从表中可以看出,GPT-4o系列模型表现突出,占据了前三名中的两席。值得注意的是,视觉模型(vision)在多数情况下表现优于纯文本模型(text),这可能是因为它们能更直接地理解游戏画面信息。

胜率矩阵

除了ELO排名,页面还提供了直观的胜率矩阵图,展示各模型之间的直接对抗结果:

Win rate matrix

该矩阵图以热力图形式展示了不同模型之间的胜率关系,颜色越深表示胜率越高。通过这个矩阵,你可以快速了解哪些模型在面对特定对手时更具优势。

模型战斗原理

LLM-colosseum让AI模型在《街头霸王3》中对战,通过游戏表现来评估模型能力。项目主要通过两种机器人类型实现模型与游戏的交互:

TextRobot

TextRobot通过文本描述游戏状态来决策下一步行动。系统会向LLM发送游戏画面的文本描述,包括角色位置、血量、能量等信息,模型根据这些文本信息决定后续动作。

TextRobot的核心逻辑位于agent/robot.py文件中的TextRobot.call_llm()方法。该方法构建提示词,包含游戏规则、可用动作列表和当前游戏状态,然后调用LLM API获取动作决策。

VisionRobot

VisionRobot则直接接收游戏截图,通过多模态LLM(视觉语言模型)进行决策。这种方式更接近人类玩家的体验,模型需要从图像中提取游戏状态信息并做出判断。

VisionRobot的实现同样位于agent/robot.py文件,对应VisionRobot.call_llm()方法。与TextRobot不同的是,该方法会将游戏截图作为输入传递给支持图像理解的LLM。

本地部署与参与评估

如果你对LLM-colosseum项目感兴趣,想要本地体验或贡献自己的模型,可以按照以下步骤操作:

基本安装

  1. 克隆仓库:git clone https://gitcode.com/GitHub_Trending/ll/llm-colosseum
  2. 安装依赖:make installpip install -r requirements.txt
  3. 创建.env文件,参考.env.example配置环境变量
  4. 运行程序:make run

Docker部署

项目提供了Docker配置文件,方便快速部署:

# 构建镜像
docker build -t diambra-app .

# 运行容器
docker run --name diambra-container -v ~/.diambra/roms:/app/roms diambra-app

也可以使用docker-compose进行部署:

docker-compose up

本地模型对战

如果你想使用本地模型(如通过Ollama部署的模型)进行对战,可以修改local.py文件中的配置:

game = Game(
    render=True,
    save_game=True,
    player_1=Player1(
        nickname="YourModel",
        model="ollama:your-model-name",
        robot_type="text",  # 或 "vision"
        temperature=0.7,
    ),
    player_2=Player2(
        nickname="OpponentModel",
        model="ollama:opponent-model",
        robot_type="text",
        temperature=0.7,
    ),
)

然后运行:make local

总结与展望

LLM-colosseum通过创新的游戏化方式评估LLM性能,为AI模型评估提供了新思路。Hugging Face Spaces上的实时排名页面让我们可以直观地比较不同模型的决策能力、反应速度和策略适应性。

随着更多模型的加入和战斗数据的积累,排名将不断更新,为AI研究和应用提供有价值的参考。我们期待未来能看到更多模型参与这场AI"武林大会",共同推动大语言模型技术的进步。

如果你有兴趣改进模型提示词或提交新模型,可以修改agent/robot.py中的相关方法,并通过PR参与项目贡献。让我们一起打造更全面、更有趣的LLM评估平台!

项目logo

项目logo:LLM-colosseum的标志,融合了竞技场和AI元素

【免费下载链接】llm-colosseum Benchmark LLMs by fighting in Street Fighter 3! The new way to evaluate the quality of an LLM 【免费下载链接】llm-colosseum 项目地址: https://gitcode.com/GitHub_Trending/ll/llm-colosseum

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐