LiteLLM 最新 API 和基础能力全解

LiteLLM是一个开源的大语言模型统一网关，提供标准化OpenAI API接口，支持100+模型和80+提供商。最新v1.78.5版本扩展了OCR、结果重排等新功能，并增强了企业级API服务（微调管理、预算控制等）。核心能力包括统一接口层、1800+模型支持、智能负载均衡和语义缓存等优化功能。性能方面，通过日志优化和缓存改进，单实例可处理250 RPS请求。提供Python SDK和代理服务器两

是乐谷

875人浏览 · 2025-11-18 21:35:34

是乐谷 · 2025-11-18 21:35:34 发布

大家好，我是jobleap.cn的小九。今天学习LiteLLM的能力设计。

LiteLLM是一个开源的LLM统一网关，提供标准化的OpenAI API接口，让开发者能无缝调用100+大语言模型，支持1800+模型和80+提供商。

一、最新API功能(v1.78.5)

1. 核心API端点

端点	功能描述	支持情况
`/v1/chat/completions`	聊天完成(支持OpenAI、Anthropic、Azure等)	全面支持
`/v1/completions`	文本补全	全面支持
`/v1/embeddings`	向量嵌入(支持10+提供商)	全面支持
`/v1/images/generations`	图像生成(支持OpenAI、Gemini等)	全面支持
`/v1/images/edits`	图像编辑	全面支持
`/v1/ocr`	OCR文字识别	新支持
`/v1/rerank`	结果重排(提升多轮对话质量)	新支持
`/v1/batches`	批量请求(提升效率)	支持

2. 企业级API(付费功能)

微调管理：创建/查询/取消微调任务
预算控制：设置组织/用户/模型组的消费限额
密钥管理：动态密钥生成、IP白名单、密钥轮换、AWS KMS集成
审计追踪：详细的请求日志、IP追踪、敏感数据(PII)屏蔽

二、核心基础能力

1. 统一接口层

标准化OpenAI格式：所有模型调用使用相同的请求/响应结构，降低适配成本
自动格式转换：将OpenAI格式自动转为各提供商原生格式(如Claude、Gemini等)
一致输出：所有模型的回复均在['choices'][0]['message']['content']路径下

2. 多模型支持矩阵

提供商	支持模型示例	特性支持
OpenAI	gpt-4-1106-preview、gpt-3.5-turbo	全功能
Anthropic	Claude 3、Claude 4、Claude Sonnet 4.5	全功能
Google	Gemini 2.5系列(Flash/Pro)	全功能
Azure	gpt-5系列、Claude系列	全功能
开源模型	LLaMA 3、Qwen 2.5、LlamaIndex等	支持通过Hugging Face/本地部署

3. 高级特性(性能与可靠性)

智能负载均衡：自动分配请求到最优实例，支持"least-busy"等策略
故障转移机制：当主模型不可用时，自动切换到备用模型
语义缓存：自动缓存相同请求，减少重复计算，节省30-50%成本
异步调用：支持asyncio，高并发场景性能提升2-5倍
流式响应：逐词返回结果，提升用户体验，降低延迟感

4. 管理与监控能力

成本跟踪：精确统计每个请求的消费，支持按模型/用户/组织维度分析
速率限制：支持优先级配额预留，确保关键业务有足够资源
请求日志：支持S3存储、结构化日志，便于审计和调试
批量API：支持JSONL格式批量处理，大幅提升数据处理效率
模型管理UI：可视化管理模型、密钥、配额和使用情况

三、最新性能优化亮点(v1.77.7+)

UUID生成加速：集成fastuuid，/chat/completions等端点RPS提升80%
日志优化：默认不打印请求参数，减少I/O开销，RPS提升50%
缓存性能：内存缓存速度提升21%，减少响应延迟
动态速率限制v3：低负载时最大化吞吐量，高负载时公平分配资源，延迟降低2.9倍
单实例性能：单实例可处理250 RPS，代理延迟降至50ms(针对流响应)

四、使用方式

LiteLLM提供两种使用方式：

1. Python SDK

# 安装
pip install litellm

# 使用示例
from litellm import completion

response = completion(
    model="gpt-4",
    messages=[{"role": "user", "content": "Hello world"}]
)

2. 代理服务器部署

# 启动代理
litellm --config config.yaml

# 调用示例
curl https://your-litellm-proxy/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gpt-4",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

总结

LiteLLM已从单纯的API适配器进化为全面的LLM管理平台，核心价值在于：统一接口、降低集成成本、提升开发效率，同时提供企业级的监控、管理和优化能力。

若需了解更多细节，可访问官方文档(docs.litellm.ai)或GitHub仓库(github.com/BerriAI/litellm)获取完整API规范和最新特性说明。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla