CMU Sphinx 是一款開源、免費(fèi)的智能語(yǔ)音識(shí)別軟件。它可以用于多種不同的場(chǎng)合。語(yǔ)音轉(zhuǎn)錄、字幕、語(yǔ)言翻譯、聲音搜索和語(yǔ)言學(xué)習(xí)等等,也因?yàn)樗情_源的,它允許研究人員和開發(fā)人員建立語(yǔ)音識(shí)別系統(tǒng)。歡迎免費(fèi)下載!
CMU Sphinx有哪些功能
語(yǔ)音識(shí)別
音頻轉(zhuǎn)錄
標(biāo)題對(duì)齊
IVR
文字轉(zhuǎn)語(yǔ)音
CMU Sphinx怎么用
建立語(yǔ)言模型
有幾種類型的模型描述語(yǔ)言識(shí)別——關(guān)鍵字列表,語(yǔ)法和統(tǒng)計(jì)語(yǔ)言模型,語(yǔ)音的統(tǒng)計(jì)語(yǔ)言模型。 你可以選擇任何解碼方式根據(jù)您的需求,你甚至可以在運(yùn)行時(shí)模式之間切換。
關(guān)鍵字列表
Pocketsphinx支持關(guān)鍵字定位模式,您可以指定要查找關(guān)鍵字列表。 這種模式的優(yōu)點(diǎn)是,你可以指定一個(gè)閾值為每個(gè)關(guān)鍵字,關(guān)鍵字可以連續(xù)語(yǔ)音中發(fā)現(xiàn)。 所有其他模式將試圖從語(yǔ)法檢測(cè)的話即使你使用的話,沒(méi)有語(yǔ)法。 關(guān)鍵字列表看起來(lái)像這樣:
oh mighty computer /1e-40/
hello world /1e-30/
other phrase /1e-20/
閾值必須指定每一個(gè)短語(yǔ)。 等較短的短語(yǔ)可以使用較小的閾值1 e 1,必須更大更長(zhǎng)時(shí)間閾值。 假警報(bào)閾值必須調(diào)整平衡,錯(cuò)過(guò)了檢測(cè),調(diào)整閾值的最佳方法是使用一個(gè)預(yù)先錄制的音頻文件。
最好的精度最好有短語(yǔ)3 - 4音節(jié)。 太短的短語(yǔ)很容易混淆。
關(guān)鍵字列表支持pocketsphinx,而不是sphinx4。
語(yǔ)法
語(yǔ)法描述非常簡(jiǎn)單類型的命令和控制的語(yǔ)言,和他們通常是手寫或自動(dòng)生成的代碼。 語(yǔ)法通常沒(méi)有詞序列的概率,但一些元素可能重。 語(yǔ)法可以創(chuàng)建JSGF格式和通常有擴(kuò)展。 克或.jsgf。
語(yǔ)法允許精確指定可能的輸入,例如,某些詞可能只重復(fù)兩到三次。 然而,這種嚴(yán)格可能是有害的,如果用戶不小心跳過(guò)的話語(yǔ)法要求。 在這種情況下整個(gè)識(shí)別將會(huì)失敗。 因此最好使語(yǔ)法更放松,而不是短語(yǔ)的袋子單詞列表允許任意的順序。 避免與許多非常復(fù)雜的語(yǔ)法規(guī)則和情況下,它只是減緩識(shí)別器,可以使用簡(jiǎn)單的規(guī)則。 在過(guò)去的語(yǔ)法需要大量的努力調(diào)整,正確分配變異等等。 大的VXML咨詢行業(yè)。
語(yǔ)言模型
統(tǒng)計(jì)語(yǔ)言模型描述更復(fù)雜的語(yǔ)言。 它們包含概率的詞和詞的組合。 這些概率估計(jì)的樣本數(shù)據(jù),并自動(dòng)有一些靈活性。 例如,每個(gè)詞匯的組合是可能的,雖然這樣的組合的概率可能有所不同。 例如,如果你創(chuàng)建統(tǒng)計(jì)語(yǔ)言模型從一個(gè)單詞列表,它將仍然允許解碼詞組合盡管它可能不是你的意圖。 總的來(lái)說(shuō),統(tǒng)計(jì)語(yǔ)言模型推薦自由輸入,用戶可以說(shuō)任何一個(gè)自然語(yǔ)言和他們需要工程工作比語(yǔ)法,你只是列出可能的句子。 例如,您可能數(shù)字列表“二十”和“三十三”和統(tǒng)計(jì)語(yǔ)言模型將允許“三十”有一定概率。
總的來(lái)說(shuō),現(xiàn)代語(yǔ)音識(shí)別接口往往更自然,避免指揮控制的上一代風(fēng)格。 因此大多數(shù)界面設(shè)計(jì)師喜歡自然語(yǔ)言識(shí)別與統(tǒng)計(jì)語(yǔ)言模型比傳統(tǒng)的VXML語(yǔ)法。
設(shè)計(jì)主題的VUI接口你可能感興趣的書如下: 最好是一個(gè)很好的機(jī)比壞人:語(yǔ)音識(shí)別和其他外來(lái)用戶界面由布魯斯Balentine Jetsonian時(shí)代的《暮光之城》
有很多方法可以建立統(tǒng)計(jì)語(yǔ)言模型。 當(dāng)您的數(shù)據(jù)集很大,有使用CMU語(yǔ)言建模工具包。 小模型時(shí),您可以使用一個(gè)在線快速web服務(wù)。 當(dāng)你需要特定的選項(xiàng)或者你只是想用你最喜歡的工具包構(gòu)建ARPA模型,您可以使用它。
語(yǔ)言模型可以存儲(chǔ)和加載在三個(gè)不同的格式文本 ARPA 格式,二進(jìn)制格式本和二進(jìn)制DMP格式。 ARPA格式需要更多空間,可以編輯它。 ARPA文件 .lm 擴(kuò)展。 二進(jìn)制格式需要大大減少空間和更快的加載。 二進(jìn)制文件 .lm.bin 擴(kuò)展。 也可以在格式之間進(jìn)行轉(zhuǎn)換。 DMP格式是過(guò)時(shí)的,不推薦。
建立一個(gè)語(yǔ)法
語(yǔ)法通常是手工編寫JSGF格式:
#JSGF V1.0;
/**
* JSGF Grammar for Hello World example
*/
grammar hello;
public <greet> = (good morning | hello) ( bhiksha | evandro | paul | philip | rita | will );
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版