1llm部署层面设置不输出

(1)本地模型,以vllm启动为例子,在部署本地模型的时候reasoning-parser 标志指定用于从模型输出中提取推理内容的推理解析器。如默认关闭思考模式

vllm serve Qwen/Qwen3-8B \
    --reasoning-parser qwen3 \
    --default-chat-template-kwargs '{"enable_thinking": false}'

vllm针对reson的说明
(2)在线模型,需要查看模型官方示例以及说明,例如qwen3.5-plus的示例代码中:
在这里插入图片描述

2代码层面处理,也就是请求级别覆盖模型本地部署配置也就是默认配置

常用的参数配置有deepseek_r1,qwen3
(1)针对deepseek_r1,可以使用"/no_think",在usermessage中设置”no_think“开始的对话;
(2)针对qwen3,可以使用"enable_thinking", false,注意:如果是非OpenAI标准参数的话,需要将这个配置放入 extra_body 对象.extraBody(Map.of( "chat_template_kwargs", chatTemplateKwargs )) 或者 .extraBody("enable_thinking", false)

Java实现示例

    Map<String, Object> chatTemplateKwargs = new HashMap<>();
    chatTemplateKwargs.put("enable_thinking", false);
    OpenAiChatOptions chatOptions = OpenAiChatOptions.builder()
    .model(模型名称)
    .extraBody(Map.of(
        "chat_template_kwargs", chatTemplateKwargs
    ))
    .build();
    OpenAiApi openAiApi = OpenAiApi.builder()
        .baseUrl()
        .apiKey()
        .build();

    // 3. 创建 ChatModel
    OpenAiChatModel openAiChatModel = OpenAiChatModel.builder()
        .openAiApi(openAiApi)
        .defaultOptions(chatOptions)
        .build();

在这里插入图片描述

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐