全爱科技 - 中文语音识别

中文语音识别

语音转文字样例

功能：使用语音转换模型对输入语音进行推理。
样例输入：由.wav文件转换成的.bin文件。
样例输出：将.bin文件转换成文本。

前置条件

请检查以下条件要求是否满足，如不满足请按照备注进行相应处理。如果CANN版本升级，请同步检查第三方依赖是否需要重新安装（5.0.4及以上版本第三方依赖和5.0.4以下版本有差异，需要重新安装）。

条件	要求	备注
CANN版本	>=5.0.4	请参考CANN样例仓介绍中的安装步骤完成CANN安装，如果CANN低于要求版本请根据版本说明切换samples仓到对应CANN版本
硬件要求	Atlas200DK/Atlas300(ai1s)	当前已在Atlas200DK和Atlas300测试通过，产品说明请参考硬件平台，其他产品可能需要另做适配
第三方依赖	ffmpeg+acllite	请参考第三方依赖安装指导(C++样例)完成对应安装

样例准备

获取源码包。

可以使用以下两种方式下载，请选择其中一种进行源码准备。

命令行方式下载（下载时间较长，但步骤简单）。

# 开发环境，非root用户命令行中执行以下命令下载源码仓。    
cd ${HOME}     
git clone https://gitee.com/ascend/samples.git

注：如果需要切换到其它tag版本，以v0.5.0为例，可执行以下命令。

git checkout v0.5.0

压缩包方式下载（下载时间较短，但步骤稍微复杂）。
注：如果需要下载其它版本代码，请先请根据前置条件说明进行samples仓分支切换。

 # 1. samples仓右上角选择 【克隆/下载】 下拉框并选择 【下载ZIP】。    
 # 2. 将ZIP包上传到开发环境中的普通用户家目录中，【例如：${HOME}/ascend-samples-master.zip】。     
 # 3. 开发环境中，执行以下命令，解压zip包。     
 cd ${HOME}    
 unzip ascend-samples-master.zip

获取此应用中所需要的原始网络模型。

模型名称	模型说明	模型下载路径
wav2word	语音转文字推理模型。	请参考https://gitee.com/ascend /ModelZoo-TensorFlow/tree/master /TensorFlow/contrib/nlp/wav2word /ATC_wav2word_tf_AE目录中README.md下载原始模型章节下载模型。

# 为了方便下载，在这里直接给出原始模型下载及模型转换命令,可以直接拷贝执行。也可以参照上表在modelzoo中下载并手工转换，以了解更多细节。     
cd ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word/model    
wget https://modelzoo-train-atc.obs.cn-north-4.myhuaweicloud.com/003_Atc_Models/AE/ATC%20Model/Wav2word/Wav2word.pb  
atc --input_shape="the_input:1,1600,200,1" --input_format=NHWC --output=voice --soc_version=Ascend310 --framework=3 --model="./Wav2word.pb"

样例部署

执行以下命令，执行编译脚本，开始样例编译。

cd ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word/scripts    
bash sample_build.sh

样例运行

注：开发环境与运行环境合一部署，请跳过步骤1，直接执行步骤2即可。

执行以下命令,将开发环境的 WAV_to_word 目录上传到运行环境中，例如 /home/HwHiAiUser，并以HwHiAiUser（运行用户）登录运行环境（Host）。

# 【xxx.xxx.xxx.xxx】为运行环境ip，200DK在USB连接时一般为192.168.1.2，300（ai1s）为对应的公网ip。
scp -r ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word HwHiAiUser@xxx.xxx.xxx.xxx:/home/HwHiAiUser    
ssh HwHiAiUser@xxx.xxx.xxx.xxx     
cd ${HOME}/WAV_to_word/scripts