Segmentele en prosodische verbeteringen aan spraakgeneratie

TitleSegmentele en prosodische verbeteringen aan spraakgeneratie
Publication TypePresentation
Year of Publication2000
Conference Name(Af-)Lopende Promotieprojecten
AuthorsKlabbers, Esther
PublisherNederlandse Vereniging voor Fonetische Wetenschappen
Conference LocationNijmegen, The Netherlands
Abstract

Deze presentatie geeft een overzicht van mijn promotieonderzoek. Het doel van het onderzoek was om de segmentele en prosodische kwaliteit van spraaksynthese te verbeteren. Hiervoor zijn twee methoden van spraakgeneratie vergeleken: fraseconcatenatie en difoonsynthese. Fraseconcatenatie levert zeer natuurlijke spraak op wanneer rekening wordt gehouden met de gewenste prosodie en de context waarin de eenheden worden opgenomen. Het is echter niet zo flexibel. Difoonsynthese biedt maximale flexibiliteit maar laat qua natuurlijkheid nog wat te wensen over.

In het vervolg van dit onderzoek is gekeken naar twee problemen die de kwaliteit van difoonsynthese beinvloeden. Het eerste probleem is van segmentele aard en betreft het voorkomen van hoorbare discontinuiteiten op difoongrenzen. Er is een vergelijking gemaakt tussen scores van luisteraars en een aantal objectieve spectrale afstandsmaten, om een maat te vinden die hoorbare discontinuiteiten kan voorspellen. Het tweede probleem is prosodisch van aard en betreft het voorspellen van segmentele duren. Met een relatief klein corpus van 297 zinnen, is een nieuwe duurmodule ontwikkeld, die gebruik maakt van de sums-of-products aanpak van van Santen. De nieuwe module presteert iets beter dan de oude regel-gebaseerde module.