expert Stuff: Google Mike Cohen
Správca Google reči technológií Mike Cohen chápe reč na úrovni väčšina z nás si nemyslím, že o. Všíma si ho na základnej úrovni zvukových kombinácií a kontextových záchytných bodov. Má to - je to na starosti oddelenie v spoločnosti Google, ktorý pracuje na technológii rozpoznávania reči
Výučba počítač rozpoznať reč je zradné .. Ak chcete porozumieť anglicky, existuje mnoho prekážok treba prekonať. Anglický jazyk má mnoho homonymám - slová, ktoré foneticky znie rovnaký, ale znamenať rôzne veci. Myslite na " k, " &Quot; dvoch " a " i &Quote .; Ľudia hovoriaci s prízvukom alebo v regionálnom dialekte môže vysloviť slová spôsobom, ktorý je úplne odlišný od štandardného výslovnosti. A potom sú tu slová ako " trase " ktoré majú alternatívne výslovnosti - môžete povedať, " koreň " alebo " debakel " a obaja sú v poriadku.
Ako sa vám učí počítač, aby sa tieto rozdiely? Ako môže stroj rozumieť tomu, čo hovoríme, a vhodne reagovať? To sú problémy, Cohen a jeho tím tvári Google. Hovorili sme s Cohenom a požiadal ho, aby viac podrobností o jeho prácu v oblasti výskumu a aplikácií na rozpoznávanie reči.
Na každej stránke, uvidíte na naše otázky v titule a odpovede Cohena v tele. Začali sme sa základy technológiu rozpoznávania reči, ako uvidíte na nasledujúcej stránke.
Ako sa technológia rozpoznávania reči pracovať na základnej úrovni?
OK, tak zásadne, tak, že pole odišla počas posledných niekoľkých desaťročí, je stále viac a viac k riadenej dátami alebo štatistické-modelovanie prístupov. Čo tým chcem povedať, že je skôr než mať ľudí ísť a pokúsiť sa naprogramovať všetky tieto pravidlá, alebo všetky tieto popisy, ako jazyk funguje, sme sa snažili postaviť modely, kde by sme sa mohli živiť veľa a veľa dát do modelov a modelov dozviete sa o štruktúre reči z dát. Takže prístupy riadené dátami sú prístupy založené na budovanie veľkých štatistické modely jazyku, kŕmenie jej veľké množstvo dát.
To je prvý princíp, a že pohyb smerom k učeniu stroja, alebo dáta-riadený alebo štatistické prístupy bol vlastne jeden z najdôležitejších pokrokov v histórii odbore rozpoznávania reči. A tak sa stáva otázka, aký druh modelu by sme mali začať s tým potom môžeme kŕmiť tieto dáta, takže sa môžeme dostať dobrý výkon von z rozpoznávania? Čo robíme je, že sme v podstate máte model, ktorý má tri základné k