@[TOC](如何申请星火大模型Api Key并实现语音转文字(Python版本))

1.登录科大讯飞星火大模型官网

星火大模型官网地址
图1 官网首页
点击免费试用或者登录,会跳转到注册登录界面,输入手机号注册登陆即可

图2 注册登录
图3 登陆后的页面
在这里我们直接点击在线调试,即可跳转到讯飞开放平台首页,并且已经默认给我们创建好了一个应用
图4 默认创建好的应用
我们可以使用这个默认的应用,也可以自己另外创建,下面就自己创建于一个应用
图5
图6
点击创建应用,然后给应用起名,选择分类,以及一些大概功能描述(测试的话,随便乱填就行)
图7
创建完之后进入该应用,在左侧栏点击语音识别,接着选择语音听写(流式版),就可以在右上角看到我们的APPID以及API KEY等信息,后边在代码中需要用到。
图8
着这个页面往下滑一点,可以看到有一个文档,也就是实现语音转文字案例的详细文档,我们点击即可跳转页面
图  9
在文档里有很多跳转url,都可以看一看,在上图的动态修正效果里,可以实时将我们说的话转为文字,可以玩一下。
图 10
图 11

在文档末尾部分有不同语言版本的案例文件以及音频文件,然后我们选择python3版本的下载并解压到本地,音频文件选择pcm格式的下载,因为所给的案例代码无法识别其他格式的音频,当然也可以用ffmpeg工具将其他格式的转为pcm格式
可以在命令行输入代码ffmpeg -y -i test.mp3 -acodec pcm_s16le -f s16le -ac 1 -ar 8000 test.pcm
其中test.mp3可以替换为你自己的非pcm格式音频文件名,test.pcm则是转换后的文件名。

图 12
解压完成后我们把代码文件以及音频文件放在同一个目录下,并使用Pycharm或者 VS Code打开,b并进入到iat_was_python3.py文件中,然后把我们自己的APPID等信息配置上去

!图 13

AudioFile='音频文件地址'

配置完就可以直接运行了
图 14
可以看到,默认的输出很长,把所有信息都打印了,不太美观,我们可以把下边这行代码注释掉,并加一个打印语句就会好看一些
图 14
图 15
到这里,就完成了官方所给的案例,我们也可以在这个基础上修改,例如换成本地的音频文件进行识别。每天会赠送500的服务量
图 16
我们刚刚试了很多次,才用了10左右。
最后,我们可以在代码里自己定义一个格式转换的方法,这样就能识别MP3、wav等格式的音频了,
代码贴在这儿吧

def other2pcm(file_path):
    _, fname = os.path.split(file_path)
    trans_file_path = os.path.join('./', fname.split('.')[0] + "_test1.pcm")
    ffmpeg_commend = f"ffmpeg -y -i {file_path} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {trans_file_path}"

    # 44100,16bit,单声道pcm 转换为 16k 16bit 单声道 pcm
    # ffmpeg -y -f s16le -ar 44100 -ac 1 -i test.pcm -acodec pcm_s16le -f s16le -ac 1 -ar 16000 test.pcm
    
    result = subprocess.run(ffmpeg_commend, shell=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
    return trans_file_path

图 17 格式转换方法
最后改一下调用以及传参方式方式就可以了
图 17
说明:需要下载ffmepg工具,并配置到环境变量中,其次在python文件中导入subprocess

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐