1,確定采集音頻的開始,作為時基。
2,語速不同導致音頻不同,要平均取時間點。
3,音量不同導致波形振幅不同,將采集的音頻按比例壓制或放大到可以比較的程度。
4,將采集的音頻特征與已經排序好的音頻庫作對比,取出匹配程度較高的單詞或字母。
這壹步可能涉及壹些優化和高效的算法,最重要的是這壹部分
5,將所得結果反饋給用戶