目前主干分支中新增了对音频文件的支持,原先仅支持视频和图片(可以参考spring-ai-alibaba 1.0.0.2 学习(十六)——多模态-CSDN博客

使用时需要注意三点:

        Media media = new Media(MediaType.parseMediaType("audio/mpeg"),
                URI.create("https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"));;

        UserMessage message =
        UserMessage.builder().text(prompt).media(media).metadata(new HashMap<>()).build();
        message.getMetadata().put(DashScopeApiConstants.MESSAGE_FORMAT, MessageFormat.AUDIO);

        ChatResponse response = dashScopeChatClient
                .prompt(new Prompt(message,
                        DashScopeChatOptions.builder().withModel("qwen-audio-turbo-latest").withMultiModel(true).build()))
                .call()
                .chatResponse();

1.需要在UserMessage的metadata中设置消息格式为AUDIO

2.需要使用支持音频的多模态模型,如qwen-audio-turbo-latest

3.需要开启多模态开关,withMultiModel(true)

ps:目前还未正式发布,使用需自行打包或使用1.0.0.3-SNAPSHOT(SNAPSHOT版本需修改仓库)

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐