在Spring AI Alibaba的官网可以看到,框架本身已经提供了可以使用的model。
在这里插入图片描述

默认

直接引入没有叫这个名字的,找了一下发现实际引用的是SpeechSynthesisModel,阿里云DashScope系列模型对应的类是【DashScopeSpeechSynthesisModel】,看一下源码,这里默认用的是【sambert-zhichu-v1】模型,搜了一下叫【Sambert语音合成-知厨】。
在这里插入图片描述
使用起来和ChatModel差不多,调用call方法,不过这里的参数换成了SpeechSynthesisPrompt需要注意下。最终能拿到其返回的字节数组。拿到后可以根据具体情况操作,这里直接作为文件输出。音频放不上来,不过是可以正常听的。
在这里插入图片描述
在这里插入图片描述

自定义模型

当然,如果想换一个模型使用或者换一个声音也是可以的,打开阿里云百炼平台的模型广场,随机抓一个幸运模型。
在这里插入图片描述
这里用到的是【语音合成CosyVoice大模型】,复制其模型名【cosyvoice-v1】。
打开API详情页,找到【音色】的超链接,找到想要的音色,复制voice参数,为了和默认的女声做区分,这里选择的是【longxiaocheng】。
在这里插入图片描述
在这里插入图片描述

刚才看源码的时候也看到了,其构造方法内用的就是DashScopeSpeechSynthesisOptions,直接拿来自己构建一个就可以了。构建时手动指定模型名和音色即可。

在这里插入图片描述
在这里插入图片描述
最后正常输出男声的音频文件。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐