关于Graphrag调用阿里云embedding API出错的解决办法分享

星辰会划水

325人浏览 · 2025-09-25 15:14:38

星辰会划水 · 2025-09-25 15:14:38 发布

其实在本地部署Graphrag按照官方的教程：https://microsoft.github.io/graphrag/get_started/一步一步执行便可。但是在运行命令执行之后：

graphrag index --root ./christmas

会莫名的中断，我在查看了日志之后发现，是因为我调用的是阿里云的embedding API然后与settings.yaml文件里面的初始设置冲突有关系：

14:08:34,572 graphrag.index.operations.embed_text.strategies.openai INFO embedding 25 inputs via 25 snippets using 2 batches. max_batch_size=16, batch_max_tokens=8191
14:08:37,135 httpx INFO HTTP Request: POST

因为阿里云DashScope的embedding API限制批处理大小不能超过10，但默认设置的是16，所以在settings.yaml文件里面更改：

models:
  default_chat_model:
    ...(前面不变)
    max_batch_size: 8
  default_embedding_model:
    ...(前面不变)
    max_batch_size: 8

embed_text:
  model_id: default_embedding_model
  vector_store_id: default_vector_store
  batch_size: 8
  batch_max_tokens: 8191

然后还需要在graphrag/index/operations/embed_text/strategies/openai.py这个文件里面对应地方进行改成8：

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

LangChain核心组件深入理解第四篇 -- Tool Agent运行的手和脚

智能体开发者社区

AI Agent 技术在汽车智驾平台中的应用与底层 Infra 技术栈全景

注：本文由AI辅助生成从“训练模型”转向“构建系统” —— 把大模型作为大脑，通过工程手段让其自主调用工具、记忆信息，稳定可靠地完成复杂任务。答案：不是全部部署，量产方案是“端云协同”——部分放车端，部分放云端。结论：对于底层智驾岗位，“车端部署 + 实时通信 + 智能路由”是核心护城河，Agent 搭建是基本功（默认必须会）。一句话总结：AI Agent 是“用模型”，AI Infra 是“供模

智能体开发者社区

聊聊“AI智能体Harness”该怎么测？

Harness 的每个组件都是可以独立测试的代码单元：工具的重试逻辑、状态持久化的读写接口、上下文压缩算法、权限拦截逻辑。数据认证不是 QA 的事，也不是 ETL 的事——在 Agent 测试里，它是一切测试的前提条件。集成测试要验证它们组合在一起工作时，有没有新的问题出现——这是经典的「集成地狱」：每个组件单独测都没问题，组合起来就出错了。一个常见的测试流程是这样的：准备 50 个测试问题，跑模