vllm 在多个数据集上进行推理

本文针对LLaMA-Factory的vllm推理脚本存在的两个痛点进行了优化：1）多数据集注册繁琐问题；2）切换数据集需重复加载模型问题。通过重构vllm_infer函数，将LLM对象作为参数传入而非内部创建，实现了模型单次加载多次使用的优化方案。代码实现包含两部分：1）vllm_infer.py负责处理数据集加载、批量推理和结果保存；2）主脚本完成模型初始化、参数设置并遍历数据集进行推理。该方案

jieshenai

632人浏览 · 2025-08-26 14:50:59

jieshenai · 2025-08-26 14:50:59 发布

简介

下述代码参考自：https://github.com/hiyouga/LLaMA-Factory/blob/main/scripts/vllm_infer.py

以前一直都用的llamafactory的 vllm_infer.py的推理脚本。使用 llamafactory微调完模型，再使用它的vllm_infer.py 脚本做推理预测。

但是使用过程中，遇到了两个痛点，所以我自己编写了下述代码：

llamafactory多个数据集注册，人工逐个注册很麻烦。因为llamafactory用到的数据集都要在 dataset_info.json文件中进行注册。
每次数据集切换，LLM要重新重复加载；明明只是同一个模型，只是切换了数据集，该脚本就要重新加载模型。

我实现的代码，实现给 vllm_infer 函数传递 llm，而不是在 vllm_infer函数里面定义llm，这样就不需要重复创建llm。

代码实现

import os
import json


def vllm_infer(llm, sampling_params, dataset_file, output_file):
    # 加载模型
    # 遍历 jsonl 文件
    prompts = []
    labels = []
    with open(dataset_file, "r", encoding="utf-8") as f:
        for line in f:
            item = json.loads(line)
            prompt = item["instruction"] + item.get("input", "")
            prompts.append(prompt)
            labels.append(item["output"])

    # 批量推理
    results = llm.generate(prompts, sampling_params)

    preds = [result.outputs[0].text for result in results]

    with open(output_file, "w", encoding="utf-8") as f:
        for text, pred, label in zip(prompts, preds, labels):
            f.write(
                json.dumps(
                    {"prompt": text, "predict": pred, "label": label},
                    ensure_ascii=False,
                )
                + "\n"
            )

        print("*" * 70)
        print(
            f"{len(prompts)} total generated results have been saved at {output_file}."
        )
        print("*" * 70)

import os
import time
from vllm import LLM, SamplingParams
from vllm_infer import vllm_infer

output_dir = "output"
os.makedirs(output_dir, exist_ok=True)

model_dir = (
    "Qwen/Qwen3-30B-A3B-Instruct-2507-FP8"
)

dataset_dir = "data/alpaca_dataset"


llm = LLM(
    model=model_dir, max_model_len=2048, gpu_memory_utilization=0.95, dtype="float16"
)

# 设置采样参数
sampling_params = SamplingParams(
    presence_penalty=1.0,
    repetition_penalty=1.0,
    temperature=0.7,
    top_p=0.8,
    top_k=20,
    max_tokens=256,
    skip_special_tokens=True,
    min_p=0,
)

for file in os.listdir(dataset_dir):
    output_file = os.path.join(output_dir, os.path.basename(file))
    if file.endswith(".jsonl") and not os.path.exists(output_file):
        dataset_file = os.path.join(dataset_dir, file)
        vllm_infer(llm, sampling_params, dataset_file, output_file)
        # time.sleep(300)

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大