Abstract
In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.
Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:
* Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.
* Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.
* Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.
In deze methode kunnen stap 2 en 3 iteratief herhaald worden.
Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12% (9% relatief). Voor meer details zie [2].
H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini & L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
Judith M. Kessens, Mirjam Wester & Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.
Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:
* Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.
* Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.
* Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.
In deze methode kunnen stap 2 en 3 iteratief herhaald worden.
Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12% (9% relatief). Voor meer details zie [2].
H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini & L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
Judith M. Kessens, Mirjam Wester & Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.
Publication type
Presentation
Year of publication
1999
Conference location
Utrecht
Conference name
Dag van de Fonetiek 1999
Publisher
Nederlandse Vereniging voor Fonetische Wetenschappen