語音識別和圖像識別的區別是什麽？

度學習屬於機器學習中人工神經網絡發展的高級版。語音識別、圖像識別也都是屬於模式識別的範疇。不管是機器學習還是模式識別也都屬於人工智能的分支。幾乎人工智能的所有方面都用深度學習，但是深度學習有個前提需要建立深層的神經網絡和足夠的數據集才能實現。在語音和圖像兩個領域在2006年之前都建立了大量的數據測試集，深度學習壹出現就應用於這兩個方面也就不足為奇了。圖象識別比較容易，因為圖象可以在壹個時間點成像。而語音沒有可能在壹個時間點的采樣有用，語音多出來壹個時間軸。而這個時間軸引入的難題就是：換個時間，換個人，換個背景噪音，都變得沒法子識別了。語音識別是壹門交叉學科。近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內，語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在壹些領域的應用被美國新聞界評為1997年計算機發展十件大事之壹。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之壹。語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。語音識別技術，也被稱為自動語音識別Automatic Speech Recognition，(ASR)，其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同，後者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。