語音輸入爭霸 搜狗語音輸入后來居上
隨著智能手機的不斷推廣,越來越多的新輸入技術(shù)正在得到長足的發(fā)展,而作為最重要的人機接口之一,語音識別技術(shù)在近年來發(fā)展迅速,相關(guān)應用也日趨廣泛。評論認為,在不遠的未來,智能語音接口將有可能促使各種穿戴設(shè)備進一步發(fā)展成為可攜帶的“服務(wù)提供者”和“生活伙伴”。在這樣的趨勢下,語音輸入法市場發(fā)展迅猛,僅國內(nèi)就有多家公司推出了具有中文語音輸入功能的產(chǎn)品,其中訊飛、搜狗、百度、微信四家公司的語音產(chǎn)品具有自主研發(fā)的識別技術(shù),在互聯(lián)網(wǎng)業(yè)界產(chǎn)生的影響也較大。近期,北京郵電大學、重慶郵電大學針對上述幾家公司所開發(fā)的語音輸入產(chǎn)品做出了評測報告,展開了一場“四強爭霸賽”。兩所大學的測評參與人員均有200人之多,每名測試者所使用的測評文本總數(shù)也達200條,并以細致的分類覆蓋到語音輸入的各種應用場景,使得這場比拼無論從專業(yè)性或是客觀程度上,都十分值得業(yè)界參考。
識別率之戰(zhàn),后來者居上
近十年來,對字、句的識別準確率一直都是語音輸入技術(shù)研發(fā)的主攻方向。這并沒有看上去那么簡單,輸入法不僅要適應不同個體迥異的聲音特征,更要克服外界環(huán)境中背景噪音所帶來的各種干擾。如果準確率不足,使用者將被迫對同一輸入信息進行重復識別,或者切換鍵盤輸入,大大影響語音輸入應用的使用體驗。有鑒于此,參與此次評測的兩所大學對輸入法準確率的評估設(shè)計可謂細致入微:測試人的性別、地域,不同的環(huán)境干擾,均被考慮在內(nèi)。
數(shù)據(jù)顯示搜狗在語音輸入的各種場景下表現(xiàn)穩(wěn)定突出(數(shù)值越低越穩(wěn)定)
從測試的結(jié)果來看,4款被測的主流語音輸入法在字識別率上均能超過90%,而在整句準確率方面則仍有14~24%不等的誤差。這其中,搜狗語音輸入法在各項測評中的表現(xiàn)優(yōu)異,各項測評中差錯率均控制在14%~16%之間,比肩、甚至超過訊飛輸入法,而百度、微信語音輸入的性能較之前者則還存在著一定的差距。值得一提的是,語音識別界早就形成的一大共識是:只有識別技術(shù)的整句準確率達到83%以上,產(chǎn)品才能真正具備有實際價值的可用性。
在四款被測產(chǎn)品中,訊飛以語音合成起家;百度從2010年其就開始了語音識別研究;微信依托騰訊研究院,語音技術(shù)研發(fā)其始于2011年;而搜狗2012年初才開始涉獵語音識別。因此,評測顯示完成自主研發(fā)時間最短的搜狗,其產(chǎn)品性能卻優(yōu)于同類,不能不說是令人意外。
“深度學習”或成點金手
語音輸入不僅需要支持自身產(chǎn)品,還要做到為其他垂直領(lǐng)域(如地圖,搜索和購物等)提供服務(wù)輸出,這就要求識別技術(shù)具有全面、穩(wěn)定的性能,除了能夠高效地處理長句,也要準確地識別單詞輸入。從測評結(jié)果可以看出,與在整句識別中的高光表現(xiàn)相對的是,訊飛輸入在短詞識別中性能明顯下降。就全面性而言,搜狗則是本次測評中唯一兼具穩(wěn)定性和高性能的產(chǎn)品。
測評參與人員的分析認為,能夠取得這樣的成績,離不開搜狗語音輸入所應用的“深度神經(jīng)網(wǎng)絡(luò)”(或稱“深度學習”)技術(shù)。這一技術(shù)最先由微軟引入語音識別領(lǐng)域,是最為前沿的識別技術(shù)之一。微軟技術(shù)報告顯示,深度神經(jīng)網(wǎng)絡(luò)能夠在各種不同的模式識別場景下提供較好的準確率,但也指出該技術(shù)在實際應用中仍相當具有挑戰(zhàn)性。從中不難看出:搜狗或許是國內(nèi)語音領(lǐng)域第一個吃“深度學習”這只螃蟹的公司,而能夠在此基礎(chǔ)上以如此快的速度形成高度成熟的產(chǎn)品,搜狗技術(shù)人員的努力實在令人嘆為觀止??梢哉f,從開拓創(chuàng)新和擁抱前沿的角度上講,搜狗雖然最后起跑,但今天卻已經(jīng)沖刺到了領(lǐng)先的位置上。
方言識別成技術(shù)攻堅重點
整句識別是語音輸入最為重要的應用場景之一。而從本次評測來看盡管技術(shù)進步迅速,但幾大語音輸入產(chǎn)品在整句識別方面仍然存在著從一成多到近三成不等的錯誤率,仍有很大的改進空間。不得不說,訊飛作為語音識別領(lǐng)域的資深行家,技術(shù)積累從其產(chǎn)品在這一方面的性能上的優(yōu)勢中可見一斑—目前僅有搜狗語音輸入的性能以微弱地差距緊隨其后,其他產(chǎn)品則尚有較大的差距。
據(jù)參與測評的技術(shù)人員介紹,除性別差異外,整句識別誤差主要源自于測試人的地方口音差異(這一點也是此測評的一項關(guān)鍵設(shè)計)。這一結(jié)果也確實反映出中文語音識別技術(shù)較之其他語言的一個特有難關(guān)。在此次測試中,僅訊飛和搜狗兩種語音輸入應用在面對全國各種主要地方口音時均能表現(xiàn)出較好的性能(這其中,訊飛甚至已經(jīng)將“方言輸入”作為其主要特點之一)。盡管如此,當測試人操較濃重方言時,被測輸入法均只能在背景噪音干擾較低的情況下方能令人滿意地工作??梢灶A期,如何進一步提高識別方言的能力,將成為語音識別領(lǐng)域接下來的研發(fā)重點。
隨著技術(shù)的發(fā)展,互聯(lián)網(wǎng)行業(yè)如今已經(jīng)全面邁入無線時代,移動端產(chǎn)品在產(chǎn)業(yè)中的重要性正在不斷提高,可謂是“得無線者得天下”,語音識別技術(shù)將更加成熟、應用也會更加廣泛。最新數(shù)據(jù)顯示,搜狗無線業(yè)務(wù)總體展現(xiàn)出蓬勃發(fā)展的勢頭,移動用戶總數(shù)和移動搜索份額均穩(wěn)居行業(yè)第二。而從搜狗在語音技術(shù)上令人意外的突破上看來,搜狗的確是敏銳而準確地把握住了未來發(fā)展的主流趨勢,在移動布局上已經(jīng)占得先機,而其在語音識別技術(shù)上的快速發(fā)展也將使其贏得更多?!?/p>
編者注:本文觀點僅代表作者本人觀點,與本網(wǎng)站無關(guān),本網(wǎng)站亦不對其真實性負責。
關(guān)注我們
