Het modelleren van uitspraakvariatie in een Nederlandse spraakherkenner

Authors

Kessens, Judith, Mirjam Wester, and Helmer Strik

Abstract

In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.

Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:

* Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.
* Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.
* Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.

In deze methode kunnen stap 2 en 3 iteratief herhaald worden.

Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12% (9% relatief). Voor meer details zie [2].

H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini & L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
Judith M. Kessens, Mirjam Wester & Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.

Publication type

Presentation

Year of publication

1999

Conference location

Utrecht

Conference name

Dag van de Fonetiek 1999

Publisher

Nederlandse Vereniging voor Fonetische Wetenschappen