中文语音识别

中文语音识别

中文语音识别

语音转文字样例

功能:使用语音转换模型对输入语音进行推理。
样例输入:由.wav文件转换成的.bin文件。
样例输出:将.bin文件转换成文本。

前置条件

请检查以下条件要求是否满足,如不满足请按照备注进行相应处理。如果CANN版本升级,请同步检查第三方依赖是否需要重新安装(5.0.4及以上版本第三方依赖和5.0.4以下版本有差异,需要重新安装)。

条件 要求 备注
CANN版本 >=5.0.4 请参考CANN样例仓介绍中的安装步骤完成CANN安装,如果CANN低于要求版本请根据版本说明切换samples仓到对应CANN版本
硬件要求 Atlas200DK/Atlas300(ai1s) 当前已在Atlas200DK和Atlas300测试通过,产品说明请参考硬件平台 ,其他产品可能需要另做适配
第三方依赖 ffmpeg+acllite 请参考第三方依赖安装指导(C++样例)完成对应安装

样例准备

  1. 获取源码包。

    可以使用以下两种方式下载,请选择其中一种进行源码准备。

    • 命令行方式下载(下载时间较长,但步骤简单)。
      # 开发环境,非root用户命令行中执行以下命令下载源码仓。    
      cd ${HOME}     
      git clone https://gitee.com/ascend/samples.git
       
      注:如果需要切换到其它tag版本,以v0.5.0为例,可执行以下命令。
      git checkout v0.5.0
       
    • 压缩包方式下载(下载时间较短,但步骤稍微复杂)。
      注:如果需要下载其它版本代码,请先请根据前置条件说明进行samples仓分支切换。
       # 1. samples仓右上角选择 【克隆/下载】 下拉框并选择 【下载ZIP】。    
       # 2. 将ZIP包上传到开发环境中的普通用户家目录中,【例如:${HOME}/ascend-samples-master.zip】。     
       # 3. 开发环境中,执行以下命令,解压zip包。     
       cd ${HOME}    
       unzip ascend-samples-master.zip
       
  2. 获取此应用中所需要的原始网络模型。

    模型名称 模型说明 模型下载路径
    wav2word 语音转文字推理模型。 请参考https://gitee.com/ascend
    /ModelZoo-TensorFlow/tree/master
    /TensorFlow/contrib/nlp/wav2word
    /ATC_wav2word_tf_AE
    目录中README.md下载原始模型章节下载模型。
    # 为了方便下载,在这里直接给出原始模型下载及模型转换命令,可以直接拷贝执行。也可以参照上表在modelzoo中下载并手工转换,以了解更多细节。     
    cd ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word/model    
    wget https://modelzoo-train-atc.obs.cn-north-4.myhuaweicloud.com/003_Atc_Models/AE/ATC%20Model/Wav2word/Wav2word.pb  
    atc --input_shape="the_input:1,1600,200,1" --input_format=NHWC --output=voice --soc_version=Ascend310 --framework=3 --model="./Wav2word.pb"
     

样例部署

执行以下命令,执行编译脚本,开始样例编译。

cd ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word/scripts    
bash sample_build.sh
 

样例运行

注:开发环境与运行环境合一部署,请跳过步骤1,直接执行步骤2即可。

  1. 执行以下命令,将开发环境的 WAV_to_word 目录上传到运行环境中,例如 /home/HwHiAiUser,并以HwHiAiUser(运行用户)登录运行环境(Host)。
    # 【xxx.xxx.xxx.xxx】为运行环境ip,200DK在USB连接时一般为192.168.1.2,300(ai1s)为对应的公网ip。
    scp -r ${HOME}/samples/cplusplus/level2_simple_inference/5_nlp/WAV_to_word HwHiAiUser@xxx.xxx.xxx.xxx:/home/HwHiAiUser    
    ssh HwHiAiUser@xxx.xxx.xxx.xxx     
    cd ${HOME}/WAV_to_word/scripts
     
  2. 执行运行脚本,开始样例运行。
    bash sample_run.sh
     

查看结果

运行完成后,会在运行环境的命令行中打印出推理结果。

常见错误

请参考常见问题定位对遇到的错误进行排查。如果wiki中不包含,请在samples仓提issue反馈。

订阅快讯

通过快讯订阅,您将及时收到我们的信息更新通知。