Python调用百度API实现语音识别(一)

咪哥杂谈

共 843字,需浏览 2分钟

 ·

2019-11-19 23:29

咪哥杂谈

e6c9703d5f0c51bccd62bdc5412472e9.webp

本篇阅读时间约为 2 分钟。


1

前言


上篇文章介绍了下如何用 Python 剪辑视频,想回顾的同学可以拉到文章最下面,有历史链接。
有了上篇文章野狼disco音频今天就来带大家玩一下百度的API,如何借用百度 API 的语音识别功能,将我们的音频转为文字。最终落地到 word 中。
当然,转为文字后,也为之前语音机器人做了铺垫,转换的文字可以写入到程序中,后续机器人朗读声音而用。


2

百度 API 官网准备工作


1. 搜索


25b344d8e93d674ca94a00514be4d5a7.webp


2. 开放能力 -> 语音技术 -> 语音识别


3ba92c91856a87e9992d68bf96bfa9f7.webp

可以看到这里有三种语音类型,点哪个都行,这里选择语音识别即可。


3d94bd68635a7854c1a8a24383e9313a.webp


先点击技术文档看下:


6bb1b6b6599e0033a9f703d112a8fb0c.webp


左侧实际上只包含了标准版和极速版,没有看到长语音版。


对比了下价格,果断选择了标准版!自己玩,怎么实惠怎么来!


e6e4c2b8b8877dbb23246d50fa0f752c.webp



看了上面普通版的文档,有几点需要注意的:


1. 格式


原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

百度开放平台


2. 时长


目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。

百度开放平台



3

注册获取key


不论是之前写过的调用高德api,还是这次的百度api,都可以找到共性,你在用别人提供的接口时,必须要有身份验证这一步。
这意味着你需要去人家平台注册,获取到人家平台给你颁发的身份验证。也就是 key 之类的信息。
查看 Python SDK 文档发现:


3961c5c4ca364df8d78df57ae40d0694.webp


文档页的右上侧,有个控制台,点进去,自己注册下。


1. 左侧音频图标 -> 创建应用


7e4404e9652ae4429a9152775610137d.webp


2. 填写信息


c618bf4ca86ea5a2c0dec568b5ba8460.webp


3. 完成


741450d5cee00b66f134040137c977ec.webp


0c4b58e249fd855bc9fe8aab5e7d255c.webp


4

总结


前戏已备好,key等信息已经有了。只需要记住上面说的两个注意点即可。


下一篇开始我们真正的编码。


有什么问题,欢迎评论区留言!f079eba023e46db67ea8da31dc118ca4.webpf079eba023e46db67ea8da31dc118ca4.webp





▼往期精彩回顾▼用Python玩转视频剪辑,秀的飞起!
 Python打造自己的语音机器人设计思路Python实现电脑录音(含音频基础知识讲解)



a14b1cdcf4164dcc9ee97e6bc677c4d2.webp你点的每个在看,我都认真当成了喜欢


浏览 31
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报