Automatische spraakherkenning in omgevingen met achtergrondgeluid

TitleAutomatische spraakherkenning in omgevingen met achtergrondgeluid
Publication TypePresentation
Year of Publication2001
Conference NameNieuwe Projecten
Authorsde Veth, Johan
PublisherNederlandse Vereniging voor Fonetische Wetenschappen
Conference LocationAmsterdam, The Netherlands
Abstract

Het gebruik van telecom diensten zoals '118', het nummer dat geraadpleegd kan worden om inlichtingen over telefoonnummers te verkrijgen neemt almaar toe. Daarmee wordt de behoefte groter om te trachten een deel van dergelijke diensten te automatiseren. Een essentiele stap in die automatisering is het gebruik van de computer om te herkennen wat de gebruiker heeft gezegd. Een goede prestatie van de automatische spraakherkenning is onder andere afhankelijk van de aanwezigheid van achtergrondgeluid. Wanneer er achtergrondgeluid aanwezig is tijdens de herkenning, dan 'hoort' de herkenner in feite de combinatie van het achtergrondgeluid en de spraakgeluiden. Wanneer het achtergrondgeluid tevoren bekend is, dan kunnen een of meer modellen getraind worden die de herkenner helpen om spraak en achtergrondgeluid van elkaar te onderscheiden. Maar als het achtergrondgeluid onvoorspelbaar is (wat in de praktijk van mobiele telefonie erg vaak voorkomt), dan is er een onbekende verstoring in de waarnemingen aanwezig. Omdat de spraakklankmodellen die de herkenner gebruikt getraind zijn met spraak zonder die onbekende verstoring, ontstaat er een discrepantie tussen de opnamecondities tijdens training en de opnamecondities tijdens gebruik van de modellen.

In het kader van het Europese onderzoeksproject SMADA (Speech-driven Multi-modal Automatic Directory Assistance) is onder andere onderzoek verricht naar combinaties van verschillende signaalbewerkingstechnieken om de uitvoer van een automatische spraakherkenner minder gevoelig voor achtergrondgeluiden te maken. Daarbij zijn verschillende soorten van achtergrondgeluid bestudeerd. De resultaten van deze studie laten zien wat de mogelijkheden en beperkingen zijn van de verschillende methodes die getest zijn om de discrepantie tussen opnamecondities tijdens training en testen te verkleinen.