當前位置:編程學習大全網 - 源碼下載 - AI語音識別目前只能識別普通話,什麽時候才能實現方言的轉換?

AI語音識別目前只能識別普通話,什麽時候才能實現方言的轉換?

語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。

語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,例如語音到語音的翻譯。 語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的***振峰。該系統得到了98%的正確率。到1950年代末,倫敦學院(College of London)的Denes已經將語法概率加入語音識別中。

1960年代,人工神經網絡被引入了語音識別。這壹時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間規整Dynamic Time Warp技術。

語音識別技術的最重大突破是隱馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Labiner等人的研究,卡內基梅隆大學的李開復最終實現了第壹個基於隱馬爾科夫模型的非特定人大詞匯量連續語音識別系統Sphinx。此後嚴格來說語音識別技術並沒有脫離HMM框架。盡管多年來研究人員壹直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。

  • 上一篇:請教如何羽化!
  • 下一篇:PSP刀劍神域:無限時刻漢化版金手指?
  • copyright 2024編程學習大全網