谷歌代理开发工具包 (ADK)快速入门

官方文档 : google.github.io/adk-docs/get-started/quickstart/

一、Quickstart

1.配置环境

参照官方文档配置环境、创建项目结构、获取APIkey (注意Google AI Studio的API密钥设置了地理位置限制,仅允许特定国家/地区访问,需要先挂代理)

在这里插入图片描述

2.运行项目

运行adk web后打开http://localhost:8000/,经测试对话功能和agent的时间、天气查询功能均能正常使用(demo代码仅支持new york单个城市)
在这里插入图片描述


二、Quickstart (streaming)

1.配置环境

和no streaming的流程基本一样,参照官方文档完成。
在这里插入图片描述

2.运行项目

在这里插入图片描述
在这里插入图片描述
通过测试发现这个demo虽然代码简短,且仅调用了 google_serach 这一个tool,却可以很有效地识别图片、语音、视频、通过搜索回答实时问题。

3.demo分析

ADK Streaming和Gemini模型的协同设计实现了这种"简单调用,多模态响应"的效果,核心原因有三:

  1. 模型多模态原生支持:gemini-2.0-flash本身是多模态模型,内置理解图像/语音/视频的能力。ADK Streaming通过框架层自动将音视频流转换为模型可理解的格式,无需额外工具。

  2. 实时数据流处理:ADK Streaming架构采用异步双向通信管道,能实时处理流式输入(麦克风/摄像头数据流)并分片传输给模型,同时保持对话上下文连贯。

  3. 工具链集成:虽然只显式添加google_search,但ADK底层已集成多种基础工具链,可以通过参数配置调用激活。

这种模式特别适用于AI原生应用开发:​​用大模型的多模态能力作认知引擎,用框架处理传感器级的信号转换,开发者只需聚焦业务逻辑编排​​。

4.构建自定义流式app

原先使用的是 ADK 自带的默认界面,这一步使用 FastAPI 和 ADK Streaming 构建自定义流式应用,学习如何集成 ADK 的 agent 到 Web 服务中。(官方文档中给出的代码只包含基础的文字聊天界面)
在这里插入图片描述

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐