Thank You
V tomto článku sme hovorili s Johnom Garofolo, skupina Speech manažér v Informačnom Technology Laboratory Národného inštitútu pre štandardy a technológie. Radi by sme tiež radi poďakovali Joshua Senecal za jeho pomoc s týmto článkom.
Prejav dát
Ak chcete previesť reč na text na obrazovke alebo na príkaz počítač, počítač musí prejsť niekoľkými komplexných krokov , Keď hovoríte, môžete vytvoriť vibrácie vo vzduchu. Analógovo-digitálny prevodník (ADC), prevádza túto analógové vlny do digitálnych dát, že počítač rozumie. Ak sa chcete to podarilo, vzorky, alebo digitalizuje, zvuk tým, že presné merania vlny v pravidelných intervaloch. Systém filtruje digitalizovaný zvuk odstrániť nežiaduce šum, a niekedy sa oddeliť ju do rôznych pásiem frekvencia (frekvencia je vlnová dĺžka zvukové vlny, počul ľuďmi as rozdiely vo ihrisku). To tiež normalizuje zvuk, alebo ju vykonáva na konštantnú úroveň hlasitosti. To môže mať tiež byť časovo zladené. Ľudia nemajú vždy hovorí rovnakou rýchlosťou, takže zvuk, musí byť upravená tak, aby zodpovedala rýchlosti vzoriek zvukových šablóna už uložených v pamäti systému.
Ďalej je signál je rozdelený do malých segmentov čo najkratšie niekoľko stotín sekundy, alebo dokonca tisícinám v prípade plosive spoluhlásky zvukov - spoluhlások zastávky produkované airflow prekážania v hlasovej ploche - ako " P " alebo ". t " Program potom zodpovedá tieto segmenty sa známymi foném v príslušnom jazyku. Fonéma je najmenší prvok jazyka - reprezentáciu zvukov robíme a dať dohromady, aby vytvorili zmysluplné výrazy. Existuje zhruba 40 fonémy v angličtine (rôzne jazykovedci majú rôzne názory na presnom počte), zatiaľ čo iné jazyky majú viac či menej foném.
V ďalšom kroku sa zdá jednoduché, ale to je vlastne najťažšie dosiahnuť a je zaostrenie väčšiny výskumu rozpoznávanie reči. Program sa zaoberá foném v rámci iných fonémům okolo nich. To beží kontextuálnej fonémový sprisahania prostredníctvom komplexného štatistického modelu, a porovnáva ich s veľkou knižnicu známych slov, fráz a viet. Program potom určuje, čo užívateľ bol pravdepodobne hovoria a buď výstupy ho ako text alebo vydá príkaz počítač