@article {498, title = {A speech recognizer for subtitling Frisian/Dutch council meetings}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Late 2020, the Fryske Akademy was granted a project to develop a subtitling service for council meetings of Frisian municipalities. The project was financed by the Province of Frysl{\^a}n, the {\textquotedblleft}Wetterskip{\textquotedblright} and a number of Frisian municipalities. An existing speech recognizer for Frisian named FAME!, was repurposed for a new application domain: council meetings (FAME! was trained and tested on radio broadcasts only). The council meeting domain is difficult for speech recognition because of the acoustic background noise, speaker overlap and the jargon language typically used in council meetings. To train the new recognizer, we used the radio broadcast materials utilized for the FAME! recognizer and in addition, newly created manually transcribed audio recordings of council meetings from several Frisian municipalities. The council meeting audio recordings consist of approximately 49 hours of speech, with 26 hours of Frisian speech and 23 hours of Dutch speech. Further, we obtained texts in the domain of council meetings, namely council meeting minutes and council policy documents containing approximately 11 million words; 1.1 million Frisian words and 9.9 million Dutch words. We describe the methods used to train the new recognizer, report the observed word error rates, and perform an error analysis on remaining errors. }, author = {Henk van den Heuvel and Bentum, Martijn and Louis ten Bosch and Wills, Simone} } @article {479, title = {Forced Alignment: een krachtig hulpmiddel voor spraakonderzoek}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetiek}, address = {online}, abstract = {In veel onderzoek aan spraak wordt gebruik gemaakt van Forced Alignment. Bij een Forced Alignment wordt de orthografische transcriptie van een bepaald audiofragment "opgelijnd" met dat fragment. Deze oplijning houdt in dat het akoestische begin en einde van elk woord zo precies mogelijk worden gezocht als ankerpunten in de audio. En dit oplijnen geldt niet alleen de woorden maar ook de eventuele stiltes voor, tussen en na de woorden. Als resultaat van de Forced Aligner weet je precies hoe lang woorden en stiltes duren. Deze kennis is van groot belang bij bijvoorbeeld onderzoek naar sprekervariatie, naar uitspraakvariatie, spreektempo, en voor het mogelijk maken van het semi-automatisch doorzoeken van audiobestanden via geschreven queries. Bij het CLST in Nijmegen is in samenwerking met de Stichting Open Spraaktechnologie een aligner gebouwd waarin niet alleen woorden maar ook de spraakklanken in elk woord worden opgelijnd met een audiofile. De resultaten op woord- en foonniveau komen tegelijkertijd beschikbaar als twee tiers in een Praat textgrid file. Daarnaast is het mogelijk de aligner een eigen woordenboek mee te geven waarin bijvoorbeeld specifieke woorden kunnen worden voorzien van afwijkende uitspraakrealisaties. Dat maakt onderzoek aan uitspraakvarianten mogelijk. In de presentatie gaan we in op de functionaliteit van de aligner in een aantal realistische toepassingen, en op de design filosofie van de forced alignment webservice. }, author = {Arjan van Hessen and Louis ten Bosch} } @article {456, title = {Morphological effects on the acoustics of word-final /s/}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Previous research on English has shown that final /s/s in monomorphemic words are acoustically longer than /s/ suffixes, suggesting that morphology influences the articulation of segments (Plag, Homann, \& Kunter, 2017). The present study extends this line of research to Dutch by investigating the duration and spectral centre of gravity (CoG) of non-suffixal /s/ (e.g., kies) and plural /s/ (e.g., ski{\textquoteright}s) across both scripted and spontaneous speech registers in Dutch speech corpora. Models of the residualised measures showed significant interactions between register and morphological status for both duration and CoG. In conversational speech, non-suffixal /s/ was longer and had a higher CoG than plural /s/. In news broadcasts, only a durational effect was found, whereas read-aloud stories showed no morpho-acoustic effects whatsoever. These results replicate previous durational findings for English. Moreover, the additional spectral difference in conversational speech seems to reflect a general phonetic reduction of /s/ in plurals. However, the differences do not hold across scripted speech registers, suggesting a role for speech planning. References Plag, I., Homann, J., \& Kunter, G. (2017). Homophony and morphology: The acoustics of word-final s in English. Journal of Linguistics, 53(1), 181{\textendash}216. }, author = {Zee, Tim and Louis ten Bosch and Plag, Ingo and Mirjam Ernestus} } @article {61, title = {The role of lexical representation in the recognition of phonologically reduced and unreduced variants by non-native listeners}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In casual speech, words are often pronounced with fewer segments than in their citation forms. For instance, the French word renard {\textquoteright}fox{\textquoteright} may sound like rnard. Previous research has shown that non-native listeners have problems understanding these reduced pronunciation variants. The reason for this difficulty might be that during classes they mainly hear words pronounced in their citation forms and therefore lack lexical representations for reduced variants. We conducted a lexical decision experiment preceded by a learning phase in order to investigate whether Dutch listeners with a low proficiency level in French have problems understanding reduced variants (rnard) if they only learnt the unreduced variants (renard). In addition, we investigated the reverse: whether they have problems understanding the unreduced variants (renard) if they only learnt the reduced variants (rnard). We found that both reduced and unreduced variants were recognized faster and more accurately when these variants matched the variants that had been learnt. Surprisingly, unreduced variants were recognized faster than reduced variants in this match condition. In the mismatch condition, there was no significant difference. These findings suggest that factors independent of lexical representation contribute to the difficulties of non-native listeners to recognize reduced variants.\ 

}, author = {Sascha Coridun and Mirjam Ernestus and Louis ten Bosch} } @article {101, title = {Reading skills and challenged phoneme perception}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Numerous studies support the hypothesis that dyslexic persons have a specific problem with phonological processing. This problem is manifest in a weaker mastery of the relation between phonemes and graphemes and of the decoding of words. This research aims to reveal whether a discernable difficulty in correctly identifying distinct phones in speech could have a bearing on the ability to acquire reading skills. In a number of experiments, children with different reading proficiency levels were sub ject to perception experiments in which VCVs were presented, in combination with visual display showing the correct target consonant C and a distracter consonant. Two types of distracters were used, a phonologically close and distant one. Sub jects had to do a two-alternative forced choice task to indicate which of the visually presented graphemes corresponded to the consonant that was presented in the VCV, in various noise conditions (SNR). The findings show that all sub jects are less accurate and less fast when consonants had to be identified in noise. They are also less accurate and less fast if the target phoneme is presented together with a close distracter, as compared to a distant distracter. There was a marked drop in accuracy of the poor readers, but not of the good readers, when the surrounding noise level increased. The experimental results support the hypothesis that phonological representations of poor readers are less adequately built up as compared to good readers.

}, author = {Cecile Kuijpers and Louis ten Bosch and Renske Schilte} } @article {164, title = {Een computationeel model voor taalverwerving - Woorddetectie op basis van multimodale input}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Taalverwerving bij baby{\textquoteright}s en jonge kinderen is een interessant proces, want baby{\textquoteright}s beginnen zonder woordenschat en in gesproken taal zijn woordgrenzen als zodanig niet hoorbaar. Toch zijn baby{\textquoteright}s en jonge kinderen heel goed in staat auditieve (multimodale) stimuli te gebruiken om woorden en betekenissen te leren die hen in staat stellen met de omgeving te kunnen communiceren. In deze presentatie laten we een rekenmodel zien dat dit woordleerproces simuleert. Het leerdermodel is in staat zonder voorafgaand gedefinieerd lexicon woorden (en woordachtige eenheden) te leren uit {\textquoteright}ruwe{\textquoteright} multimodale stimuli die in een dialoog worden aangeboden door de {\textquoteright}verzorger{\textquoteright}.

Het leerder-model bestaat uit 4 ingredi{\"e}nten: een waarnemingsmodule ({\textquoteright}zintuig{\textquoteright}), een geheugen, een drijfveer om te leren, en een module die de communicatie met de {\textquoteright}verzorger{\textquoteright} regelt.

In de presentatie bespreken we de resultaten van de leerder als functie van een aantal parameters (zoals hoeveelheid trainingstokens, sprekerafhankelijkheid, leren versus vergeten), voor drie talen (Nederlands, Fins en Zweeds). Resultaten worden gerelateerd aan wat bekend is uit de taalverwervingsliteratuur.

}, author = {Louis ten Bosch and Lou Boves and Hugo Van hamme} } @article {200, title = {Automatische detectie van "articulatorische" eigenschappen}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Gedurende de laatste jaren heeft onderzoek aan automatische spraakherkenning een grote verbetering laten zien van de kwaliteit van de herkenresultaten. Toch blijft een automatische herkenner qua prestatie in het algemeen ver achter bij de menselijke luisteraar. Het grote verschil tussen machinale en menselijke prestatie kan voor een deel worden verkleind door het inzetten nog grotere training spraakcorpora (bijvoorbeeld duizenden uren spraak voor de training van akoestische modellen) en door geavanceerdere adaptatietechnieken en ruisrobuustheid, maar het wordt algemeen betwijfeld of deze werkwijze uiteindelijk het verschil substantieel zal verkleinen. Een veelbelovende alternatieve benadering die nu op verschillende plaatsen wordt onderzocht is het beter gebruik maken van de gedetailleerde informatie in het signaal zelf ({\textquoteleft}fine phonetic details{\textquoteright}) voor de decoding van het spraaksignaal. Een van de manieren om potentieel nuttige informatie uit het signaal te schatten is gebruik te maken van automatische detectoren van articulatorische kenmerken. We zullen voorbeelden van zulke detectoren laten zien en een aantal toepassingen bespreken.

}, author = {Louis ten Bosch} } @article {244, title = {COMIC: een project over multimodale interactie, automatisch redeneren, en mens-machine dialogen}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het COMIC-project (www.mpi.nl/comic) bestudeert het gebruik van multimodale in/uitvoer en van automatisch redeneren in mens-machine communicatie. Het project heeft een theoretisch en praktisch doel die overigens tamelijk verweven zijn. Het praktisch doel is het creeren van een werkend prototype voor een design-systeem dat het ontwerpen van een badkamer ondersteunt. Het design van een badkamer is gekarakteriseerd door een zeer groot aantal opties waarvan de meeste alleen aan specialisten bekend zijn. De gebruiker {\textendash} die meestal geen expert is {\textendash} moet door de applicatie op een informatieve manier door een oerwoud van mogelijkheden worden geleid. Dat oerwoud van mogelijkheden wordt afgegrensd door logische, fysische en esthetische regels die binnen het applicatiedomein gelden. De input van de gebruiker is multimodaal: zowel spraak als 2-dimensionale gebaren (tekeningen, handschrift, aanwijzen enz.) worden door het systeem geinterpreteerd. De automatische spraakherkenner en automatische gebarenherkenner worden gekoppeld en gevolgd door een redeneersysteem (een {\textquoteright}intelligente{\textquoteright} dialoogmanager) dat fouten in de spraak/gebaarherkenning probeert op te lossen door gebruik te maken van de {\textquoteright}hogere-orde{\textquoteright} kennis in en over het domein. Het onderzoeksdoel is, samengevat, uit te zoeken hoe informatie uit gebaar en spraak moet worden samengebracht en geinterpreteerd, in hoeverre automatisch redeneren kan worden toegepast in een {\textquoteright}medium-complex{\textquoteright} domein, en hoe cognitieve aspecten een rol spelen in mens-machine communicatie.

}, author = {Louis ten Bosch} } @article {290, title = {ASH en dialectafstanden}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De huidige commerciele spraakherkenningssystemen komen tot een herkenning van 80 tot 95 procent voor dicteertoepassingen na een spreker-adaptatiefase op ruwweg 10-20 minuten spraak van een testspreker. Deze sprekeradaptatie kleurt het spreker-onafhankelijke akoestisch model bij op basis van de spraakkarakteristieken van de testspreker. In het algemeen wordt het testresultaat voor die spreker aanzienlijk verbeterd, zoals bijvoorbeeld in het geval dat die spreker een accent heeft of dialectisch spreekt.

In dit praatje passeren de volgende punten de revue:

(a) het verschil in herkenning voor en na adaptatie

(b) de {\textquoteright}akoestische{\textquoteright} afstand tussen twee dialecten

(c) fonologische observaties van Nerbonne en Heeringa voor dialect-afstanden.

De meeste data zullen gebaseerd zijn op het Nederlands.

}, author = {Louis ten Bosch} }