Numerical Difference between vLLM logprobs and huggingface logprobs

本文比较了vLLM和HuggingFace在语言模型推理时的输出差异。代码首先使用vLLM生成文本并记录token概率，然后使用HuggingFace Transformers重新计算相同输入的logits。通过对比两者的logprobs和概率值，发现存在一定差异：在概率低于0.9时，相对误差可能超过10%。统计结果显示，vLLM与HuggingFace之间的logprob相对误差均值约为0.00

taoqick

197人浏览 · 2025-08-15 21:47:02

taoqick · 2025-08-15 21:47:02 发布

来自 https://fengyao.notion.site/off-policy-rl#246721e3f6c480259e6ff598ac4c317b 中引用的code：

# VLLM Side
import torch
from vllm import LLM, SamplingParams
import math

if __name__ == '__main__':

    TEMPERATURE = 0.7
    DTYPE = torch.bfloat16
    llm = LLM(model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", dtype=DTYPE, enforce_eager=True)
    # model = llm.llm_engine.model_executor.driver_worker.model_runner.model
    # saved_outputs = []
    # def logits_processor_hook(module, input, output):
    #     assert isinstance(output, torch.Tensor)
    #     saved_outputs.append(output.clone())
    # model.logits_processor.register_forward_hook(logits_processor_hook)

    prompts = [
        "One of the most important things in life is to",
        "The answer to 1 + 1 is",
    ]
    outputs = llm.generate(
        prompts,
        sampling_params=SamplingParams(
            max_tokens=512,
            temperature=TEMPERATURE,
            logprobs=2,
        ),
    )

    save_stuff = []
    for output in outputs:
        assert len(output.outputs[0].token_ids) == len(output.outputs[0].logprobs)
        #for token, logprob in zip(output.outputs[0].token_ids, output.outputs[0].logprobs):
            #print(token, logprob)
        save_stuff.append(
            {
                "input_ids": output.prompt_token_ids,
                "output_ids": output.outputs[0].token_ids,
                "logprobs": output.outputs[0].logprobs,
            }
        )

    # HF Side
    torch.cuda.set_device(1)
    from transformers import AutoModelForCausalLM, AutoTokenizer
    import torch
    import torch.nn.functional as F

    model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", torch_dtype=DTYPE, device_map="cuda")
    tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")

    seq_id = 0
    vllm_errs = []
    # hook_errs = []
    vllm_prob_errs = []
    # hook_prob_errs = []
    for output in save_stuff:
        token_ids = torch.tensor([*output["input_ids"], *output["output_ids"]], device="cuda").unsqueeze(0)
        print(token_ids.shape)

        with torch.inference_mode():
            model_outputs = model(token_ids)
        
        print(model_outputs[0].shape)

        real_logprobs = F.log_softmax(model_outputs[0] / TEMPERATURE, dim=-1)
        print(real_logprobs.shape)
        for i in range(len(output["logprobs"])):
            print("===", output["output_ids"][i], "===")
            # hook_logprobs = F.log_softmax(saved_outputs[i][seq_id] / TEMPERATURE, dim=-1)
            for key in output["logprobs"][i]:
                _real_logprobs = real_logprobs[0, i -1 + len(output["input_ids"])]
                vllm_rel_err = abs((output["logprobs"][i][key].logprob - _real_logprobs[key].item()) / (_real_logprobs[key].item() + 1e-10))
                # hook_rel_err = abs((hook_logprobs[key].item() - _real_logprobs[key].item()) / (_real_logprobs[key].item() + 1e-10))
                vllm_errs.append(vllm_rel_err)
                # hook_errs.append(hook_rel_err)

                vllm_prob = math.exp(output["logprobs"][i][key].logprob)
                # hook_prob = math.exp(hook_logprobs[key].item())
                real_prob = math.exp(_real_logprobs[key].item())
                vllm_prob_err = abs(vllm_prob - real_prob)
                # hook_prob_err = abs(hook_prob - real_prob)
                vllm_prob_errs.append(vllm_prob_err)
                # hook_prob_errs.append(hook_prob_err)

                if (vllm_rel_err > 0.1) and real_prob < 0.9:
                    print(
                        key, output["logprobs"][i][key],
                        "HF logprobs:", real_logprobs[0, i -1 + len(output["input_ids"])][key].item()
                    )
                    print(f"Prob: {real_prob}, VLLM: {vllm_prob}")

                # if (vllm_rel_err > 0.1 or hook_rel_err > 0.1) and real_prob < 0.9:
                #     print(
                #         key, output["logprobs"][i][key],
                #         "HF logprobs:", real_logprobs[0, i -1 + len(output["input_ids"])][key].item(),
                #         "Hook logprobs:", hook_logprobs[key].item(),
                #     )
                #     print(f"Prob: {real_prob}, VLLM: {vllm_prob}, Hook: {hook_prob}")
        seq_id += 1

    from statistics import mean, stdev, median

    print("Relative logprob errors")
    print(f"VLLM: max={max(vllm_errs)}, mean={mean(vllm_errs)}, stdev={stdev(vllm_errs)}, median={median(vllm_errs)}, min={min(vllm_errs)}")
    # print(f"Hook: max={max(hook_errs)}, mean={mean(hook_errs)}, stdev={stdev(hook_errs)}, median={median(hook_errs)}, min={min(hook_errs)}")

    print("Absolute prob errors")
    print(f"VLLM: max={max(vllm_prob_errs)}, mean={mean(vllm_prob_errs)}, stdev={stdev(vllm_prob_errs)}, median={median(vllm_prob_errs)}, min={min(vllm_prob_errs)}")
    # print(f"Hook: max={max(hook_prob_errs)}, mean={mean(hook_prob_errs)}, stdev={stdev(hook_prob_errs)}, median={median(hook_prob_errs)}, min={min(hook_prob_errs)}")

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大