Abstract
Het modelleren van uitspraakvariatie kan de prestaties van automatische spraakherkenners verbeteren [1]. In [1] hebben wij gebruik gemaakt van fonologische kennis om uitspraakvariatie te beschrijven. Fonologische kennis heeft echter twee nadelen: 1) veel van de resultaten zijn op laboratorium spraak gebaseerd, waardoor ze misschien niet gelden voor andere soorten spraak zoals bv. spontane spraak en 2) de kennis over uitspraakvariatie is niet volledig.
Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon. Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven. Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.
De methode die wij gebruiken werkt als volgt. Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden. Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie. Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63% [2]. De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn. Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.
Judith M. Kessens, Mirjam Wester & Helmer Strik (1999). Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation, Speech Communication, 29 (2-4), 193-207.
Mirjam Wester, Judith M. Kessens and Helmer Strik. (1998). Two automatic approaches for analyzing the frequency of connected speech processes in Dutch, Proceedings International Conference on Spoken Language Processing and Student Day, Vol. 7, pp. 3351-3356
Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon. Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven. Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.
De methode die wij gebruiken werkt als volgt. Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden. Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie. Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63% [2]. De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn. Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.
Judith M. Kessens, Mirjam Wester & Helmer Strik (1999). Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation, Speech Communication, 29 (2-4), 193-207.
Mirjam Wester, Judith M. Kessens and Helmer Strik. (1998). Two automatic approaches for analyzing the frequency of connected speech processes in Dutch, Proceedings International Conference on Spoken Language Processing and Student Day, Vol. 7, pp. 3351-3356
Publication type
Publication
Year of publication
1999
Conference location
Utrecht
Conference name
Dag van de Fonetiek 1999
Publisher
Nederlandse Vereniging voor Fonetische Wetenschappen