spring-ai-alibaba 多模态之音频
摘要:新增了对音频文件(如MP3)的支持,使用需注意:1)在UserMessage metadata中设置AUDIO格式;2)选用支持音频的多模态模型(如qwen-audio-turbo-latest);3)开启withMultiModel(true)开关。目前该功能尚未正式发布,需使用1.0.0.3-SNAPSHOT版本或自行打包。调用时需按指定格式构建Media对象和消息结构。
·
目前主干分支中新增了对音频文件的支持,原先仅支持视频和图片(可以参考spring-ai-alibaba 1.0.0.2 学习(十六)——多模态-CSDN博客)
使用时需要注意三点:
Media media = new Media(MediaType.parseMediaType("audio/mpeg"),
URI.create("https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"));;
UserMessage message =
UserMessage.builder().text(prompt).media(media).metadata(new HashMap<>()).build();
message.getMetadata().put(DashScopeApiConstants.MESSAGE_FORMAT, MessageFormat.AUDIO);
ChatResponse response = dashScopeChatClient
.prompt(new Prompt(message,
DashScopeChatOptions.builder().withModel("qwen-audio-turbo-latest").withMultiModel(true).build()))
.call()
.chatResponse();
1.需要在UserMessage的metadata中设置消息格式为AUDIO
2.需要使用支持音频的多模态模型,如qwen-audio-turbo-latest
3.需要开启多模态开关,withMultiModel(true)
ps:目前还未正式发布,使用需自行打包或使用1.0.0.3-SNAPSHOT(SNAPSHOT版本需修改仓库)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)