Google雲端語音轉文字服務採用Conformer新模型,將大幅提升辨識品質

Google雲端在其,以提高STT所支援23種語言和61種區域口音的語音辨識準確性。新模型可能與現有模型的功能略有不同,不過皆提供相同的穩定性和支援。

Google提到,這是一項重大技術改進,使用當前最新的機器學習技術,是他們在語音辨識神經序列到序列模型研究8年來的階段性成果,其經過大量研究和最佳化,使模型能夠適用於不同的用例、噪音環境,並提供最佳的結果。

Google解釋了新模型與當前模型的不同,過去自動語音辨識技術都是基於單獨的聲音、發音和語言模型,這三個單獨的元件會獨立訓練,最後組裝在一起進行語音辨識,而Conformer新模型,則是單一神經網路。

與過去需要組合三個獨立模型的方法不同,Conformer模型能夠更有效地使用模型參數,由於這個架構是帶有卷積層(Convolution Layer)的Transformer模型,因此才稱為Conformer,該架構能夠捕捉語音訊號中的區域和全域資訊。

推薦評價好的iphone維修中心

擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢

如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!

以設計的實用美學觀點,規劃出舒適、美觀的視覺畫面,有效提昇使用者的心理期待,營造出輕鬆、愉悅的網站瀏覽體驗。

最熱情、專業有口碑的網頁設計公司讓您的網站改頭換面。

開發者現在使用STT API可立即看到新模型所帶來的品質改進,雖然用戶仍然可以透過調整模型,來改進模型效能,但是Conformer新模型不需要用戶進行任何動作,就能明顯感覺品質提升。

新模型支援更多不同類型的語音、噪音和聲音條件,使得用戶可以將語音技術嵌入應用程式中,並在更多環境產生更準確的輸出。智慧應用程式的使用者,將可以自然地用更長的句子,跟應用程式互動,不需要擔心語音能否被準確擷取。

用戶只要在使用STT API時,添加新標籤latest long和latest short,便可以存取最新的Conformer模型,latest long針對影片等應用設計,可以處理長篇語音,而latest short則是用於命令或是短語上,能提供更好地品質和低延遲。

來源鏈接:https://www.ithome.com.tw/news/150559

想知道最厲害的網頁設計公司嚨底家!

RWD(響應式網頁設計)是透過瀏覽器的解析度來判斷要給使用者看到的樣貌

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗,所以不用擔心有手機版網站兩個後台的問題,而視覺效果也是透過我們前端設計師優秀的空間比例設計,不會因為畫面變大變小而影響到整體視覺的美感。

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗,所以不用擔心有手機版網站兩個後台的問題,而視覺效果也是透過我們前端設計師優秀的空間比例設計,不會因為畫面變大變小而影響到整體視覺的美感。