[導讀]目前,該更新只在谷歌Pixel手機上可用,但將來應(yīng)該會在其他設(shè)備上使用。
目前,該更新只在谷歌Pixel手機上可用,但將來應(yīng)該會在其他設(shè)備上使用。
新的AI聽寫方法逐個字符地輸入消息,而非一次一個單詞。圖片來源:谷歌
谷歌正在Pixel手機上更新其Gboard鍵盤,采用人工智能離線聽寫。谷歌表示,更新意味著用戶可以更快,更可靠地指定電子郵件和文本,而無需擔心他們是否已連接到互聯(lián)網(wǎng)。
谷歌語音識別和移動輸入小組的研究科學家兼組長Francoise Beaufays說:“想象一下,你正走出你的大樓,你想向某人發(fā)送一條信息,說‘我要遲到了’。這正是你無法上網(wǎng)的時刻,因為你正從Wi-Fi轉(zhuǎn)向蜂窩網(wǎng)絡(luò)計劃?!彪S著Gboard的升級,Beaufays告訴Verge,“這個問題已經(jīng)不存在了?!?/p>
這可能聽起來像一個微不足道的用例,但Beaufays認為語音識別的改進,將慢慢改變我們與移動設(shè)備交互的方式。她指出,雖然語音識別近年來有所改善,但它仍然是一項不成熟的技術(shù)。它是計算密集型的,這意味著大多數(shù)語音識別系統(tǒng)必須通過互聯(lián)網(wǎng)發(fā)送數(shù)據(jù),而結(jié)果是聽寫速度緩慢且不可靠。
“如果你使用手機鍵盤,只要連接情況不好就不能點擊鍵盤,”Beaufays說?!澳憔褪遣粫媚莻€鍵盤?!钡f,通過讓系統(tǒng)離線,聽寫將成為一種更自然的選擇。
為實現(xiàn)這一轉(zhuǎn)變,Google團隊花了五年時間研究問題并簡化應(yīng)用程序用于語音識別的AI系統(tǒng)。例如,舊版Gboard的聽寫軟件使用三個獨立的組件來模擬音頻波形,將聲音與音素匹配,然后將這些音素組合成書面輸出,更新后的版本將所有這些工作集成到一個步驟中。
為了實現(xiàn)這一轉(zhuǎn)變,谷歌的團隊花了五年時間研究這個問題,并簡化了應(yīng)用程序用于語音識別的人工智能系統(tǒng)。例如,舊版Gboard的聽寫軟件使用三個獨立的組件來模擬音頻波形,匹配聲音和音素,然后將這些音素組合成書面輸出,而更新版本將所有這些工作集成到一個步驟中。
新模型還縮小了系統(tǒng)的一部分,稱為“解碼器圖形”,這個組件的功能類似于書中的索引,將音頻波形與書面文字相匹配。在Gboard的聽寫模型的舊版本中,這個解碼器圖形大小為2GB,對于設(shè)備上處理來說太大了。相比之下,新版本僅為80兆字節(jié),小25倍。
新模型還將系統(tǒng)中被稱為“解碼器圖”的部分縮小,該組件的功能類似于書中的索引,將音頻波形與書面文字進行匹配。在舊版本的Gboard的聽寫模型中,這個解碼器圖形大小為2GB,對于設(shè)備上處理來說太大了。相比之下,新版本只有80MB,小了25倍。
此次升級目前僅限于美式英語聽寫和Pixel手機,但Beaufays表示,未來這一功能將得到更廣泛的應(yīng)用——擴展AI語音識別的范圍。“從技術(shù)的角度來看,我認為我們可以在更多的手機上做到這一點,而不僅僅是Pixel,”Beaufays說?!拔艺J為將會發(fā)生的事情是,我們可能會在更多的設(shè)備(以及更多的語言)上啟動它?!?/p>
原標題:Google upgrades Gboard keyboard with faster and more reliable AI dictation
作者:James Vincent
編譯:鄭翊君
文章來源:
https://www.theverge.com/2019/3/12/18261444/google-gboard-keyboard-dictation-voice-recognition-pixel-ai-offline-update
評論文章