@article {523, title = {Compositionality in intonation: Are tunes composed of independent elements?}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {A recurrent issue in the study of intonation relates to whether contours should be treated as gestalts [1, 2] or composites of independent elements [3, 4]. We contribute to this debate by examining a corpus of 2135 Greek wh-questions, elicited from 18 speakers using a discourse completion task (DCT). DCTs involved two scenarios: Scenario A presented a situation ending with an information-seeking question, while Scenario B presented a situation in which the wh-question was used as an implicit statement. The expected tune for Scenario A is autosegmentally analysed as a L*+H pitch accent on the utterance-initial wh-word, followed by a L- phrase accent and a H\% boundary tone; for Scenario B the expected tune is analysed as L+H* L- L\% [5]. We applied functional principal component analysis (FPCA), a data-driven method that breaks down curves into components capturing independent modes of curve variation. FPCA was followed by LMEMs on the principal component coefficients. The results show that the pitch movement associated with each of the posited tonal elements is captured by a different PC: PC1 captures the shape of the fall (as a consequence of peak height and alignment), PC2 captures the extent of the initial rise and subsequent peak alignment of the pitch accent (the difference between L*+H and L+H*), and PC4 the difference between a final rise (H\%) and low, flat pitch (L\%). Given that each PC presents an independent mode of variation, we can conclude that tunes are composites of independent elements. These results provide prima facie evidence for tune compositionality. References [1] Hirst, D., \& Di Cristo, A.1998. A survey of intonation systems. In D. Hirst \& A. Di Cristo (Eds.), Intonation Systems a Survey of Twenty Languages, 1-44. [2] Xu, Y. 2005. Speech melody as articulatorily implemented communicative functions. Speech Communication, 46(3-4), 220-251. [3] Pierrehumbert, J. \& Hirschberg, J. B. 1990. The meaning of intonational contours in the interpretation of discourse. In P.R. Cohen, J. Morgan \& M.E. Pollack (Eds.), Intentions in Communication, 271-311. [4] Ladd, D. R. 2008. Intonational Phonology. Cambridge University Press. [5] Baltazani, M., Gryllia, S., \& Arvaniti, A. 2020. The Intonation and Pragmatics of Greek wh- Questions. Language and Speech, 63(1), 56{\textendash}94. https://doi.org/10.1177/0023830918823236 }, author = {Gryllia, Stella and Arvaniti, Amalia} } @article {525, title = {Fonetische natuurlijkheid als drijfveer van verandering?}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Een belangrijk onderdeel van het {\textquoteleft}constraints problem{\textquoteright} van Weinreich, Labov, \& Herzog (1968) is de vraag welke taalveranderingen mogelijk en onmogelijk zijn. In de fonetiek worden de mogelijkheden beperkt, volgens Garrett \& Johnson (2013), door fonetische biases, die voortkomen uit de eigenschappen van het productie- en perceptieapparaat. In hun visie leiden die biases tot taalverandering, indien ze (waarom dan ook) sociale relevantie verkrijgen. Hoe werken die biases? Drijven die verandering {\textendash} in termen uit de biologie, veroorzaken ze selectiedruk {\textendash} of zijn ze slechts een beperking op de weg die een taalverandering van nature (uit zgn. stochastische verschuiving) zou moeten vinden? Ik onderzoek die vraag in een specifieke casus uit het Engels van Philadelphia. {\'E}{\'e}n van de kenmerken van het Philadelphia-accent is American Raising: een centralisering van [aɪ] tot [əɪ] voor stemloze obstruenten. Voor deze verandering zijn twee verklaringen geponeerd (Davis \& Berkson 2021): pre-fortis clipping (vocaalverkorting die maakt dat de [a] niet helemaal bereikt wordt) en offglide peripheralization (de [ɪ] wordt [i] en de [a] coarticuleert mee). Ik onderzoek American Raising in het Philadelphia Neighborhood Corpus (408 sprekers geboren in 1880-1994) d.m.v. een statistisch model oorspronkelijk uit de populatiegenetica (zie Nourmohammad et al 2017) dat onderscheid maakt tussen selectie en stochastische verschuiving. Resultaten tonen sterke selectiedruk in de genormaliseerde F1/F2-ruimte, die bovendien sterker is bij vrouwen dan bij mannen. Ik vind echter geen evidentie voor bijkomstige selectie op kortere vocaalduren in deze allofooncontext, noch voor sterkere selectie in offglides dan in onglides. Het gevonden verschil tussen mannen en vrouwen leidt tot de conclusie dat sociale factoren een drijfveer (kunnen) zijn van taalverandering. Over de rol van fonetische factoren is, gezien de nulresultaten voor die factoren, echter geen conclusie mogelijk. Referenties Davis, S., \& Berkson, K. (2021). American Raising: An Introduction. Publication of the American Dialect Society, 106(1), 1-12. Garrett, A., \& Johnson, K. (2013). Phonetic bias in sound change. In: Yu, A. C. L. (Ed.). Origins of sound change: Approaches to phonologization (pp. 51-97). Oxford University Press. Nourmohammad, A., Rambeau, J., Held, T., Kovacova, V., Berg, J., \& L{\"a}ssig, M. (2017). Adaptive evolution of gene expression in Drosophila. Cell Reports, 20(6), 1385-1395. Weinreich, U., Labov, W., \& Herzog, M. (1968). Empirical foundations for a theory of language change. University of Texas Press. }, author = {Voeten, Cesko} } @article {524, title = {Handy prosody: how hands can help you hear}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Speech conveys both segmental information about vowels and consonants as well as suprasegmental information about for instance intonation, rhythm, and lexical stress; also known as the prosody of speech. However, in face-to-face conversations, we do not only exchange sounds; we also move, nod, and gesture to the rhythm of our speech. In this keynote, I will demonstrate how the timing of hand gestures contributes to audiovisual prosody perception, with a focus on lexical stress. For instance, evidence for a {\textquoteleft}manual McGurk effect{\textquoteright} showcases how even relatively simple flicks of the hands can guide whether you hear "PLAto" or "plaTEAU". Moreover, human listeners are shown to actively weigh various multisensory cues to prosody depending on the listening conditions at hand. Thus, these findings emphasize that prosody is a multimodal linguistic phenomenon, with the voice, lips, and even hands conveying prosody in concert.}, author = {Hans Rutger Bosker} } @article {521, title = {How to Measure Real Pitch Jumps in Praat: An Example Study from Korean}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Pitch doubling and halving occur when the F0 pitch contour does not follow a consistent curve but rather {\textquoteleft}jumps{\textquoteright} in pitch are observed. Often these pitch jumps are deemed as pitch tracking {\textquoteleft}errors{\textquoteright}, due to the initial seemingly inconsistent nature of the jumps. This phenomenon often co-occurs with creak, thus leading to further complications in automatic measurements in pitch-tracking software. However, a visual investigation into Seoul Korean instead suggests that doubling and halving effects in {\textquoteleft}fortis{\textquoteright} plosives are not {\textquoteleft}errors{\textquoteright}, but rather constitute an inherent characteristic of this kind of stops. Previous research often tried to {\textquoteleft}correct{\textquoteright} for such pitch tracking jumps by ignoring tokens below a certain F0 threshold, and as a result likely did not provide a complete overview. The {\textquoteleft}true{\textquoteright} pitch contour of Korean fortis stops can be established through adjustment of specific settings in Praat, upon which it becomes clear that Korean fortis stops often come with creaky voice and true pitch halving during the initial part of the following vowel. We conclude that (1) pitch jumps should not automatically be assumed as software or measurement errors, (2) Praat is able to handle pitch jumps and visualize them systematically, and (3) selectively leaving out tokens to avoid pitch jumps is unnecessary and can even misrepresent the phonetic data. }, author = {Watkins, Michaela and Silke Hamann and Paul Boersma} } @article {522, title = {Idiosyncratic and linguistic information in /s/ in telephone speech}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Telephone speech can be characterised by a limited bandwidth, varying bitrates (in the case of mobile signals), and different speech behaviour. For vowels, formants that are situated near lower signal cut offs are shown to be affected (e.g., Künzel 2001). Investigating the effects of telephone filters is particularly relevant for forensic speaker comparisons, where wiretapped telephone conversations are commonly analyzed. However, not much is known about the effect of telephone filters on different consonants. In the current work, we investigated fricative /s/, which has been described to contain relatively high amounts of idiosyncratic information (Kavanagh, 2012; Van den Heuvel, 1996), even in narrowband telephone recordings where most of its high-frequency spectral characteristics are compromised (Smorenburg \& Heeren, 2021). We annotated >100 /s/ tokens for 60 speakers of British English from the West Yorkshire Regional English Database (WYRED: Gold, 2020). These participants performed a forensic speech task in which they conversed over the telephone with an {\textquoteleft}accomplice{\textquoteright} and were recorded both over a microphone placed in front of them and wiretapped over the landline. Results show that linguistic information (effects of phonetic context and syllabic position) is compromised in telephone recordings compared to microphone recordings, but that some linguistic environments still show more between-speaker variability. Specifically, when /s/ is followed by labial sounds, speaker-classification accuracy was higher. This indicates that coarticulation contains idiosyncrasies that can be used in forensic speaker comparisons. References Gold, Erica (2020). WYRED - West Yorkshire Regional English Database 2016-2019. [Data Collection]. Colchester, Essex: UK Data Service. 10.5255/UKDA-SN-854354 Künzel, H. J. (2001) Beware of the {\textquoteleft}telephone effect{\textquoteright}: the influence of telephone transmission on the measurement of formant frequencies. Forensic Linguistics 8: 80{\textendash}99. http://dx.doi.org/10.1558/sll.2001.8.1.80 Smorenburg, L. and Heeren, W. (2021) The distribution of speaker information in Dutch fricatives /s/ and /x/ from telephone dialogues. Journal of the Acoustical Society of America 147(2): 979{\textendash}989. https://doi.org/10.1121/10.0005845 }, author = {Laura Smorenburg and Willemijn Heeren} } @article {527, title = {Phonological challenges in Children With Developmental Language Disorder (DLD) Across Slavic Languages}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Developmental Language Disorder (DLD) causes significant challenges in expressive and/or receptive language and affects around 7\% of the population (Bishop, 2017). While many studies have investigated various aspects of DLD, most of them focused on English-speaking regions, leaving many other regions underrepresented in the DLD framework. Meanwhile, the inclusion of diverse language groups is crucial for understanding the overall homogeneity of DLD, discussing standardized diagnostic tools and potentially developing better interventions. Here we present our systematic review of DLD in the Slavic language group that included all original studies in English and Russian databases (PROSPERO ID - CRD42021235107). While we have been looking at several linguistic processing and comprehension skills (phonology, morphology, syntax, semantics and pragmatics), for this conference, we highlight the results specific to phonological processing. Our final sample includes 8 phonological studies of Russian (4), Slovak (1), Serbian (2), and Czech (1) languages, covering a range of children from 3 to 14 years old. Across these studies, common issues include misarticulated/omitted sounds, diphthong simplification, and deficiencies in phonological memory, strongly associated with rhyme, phonemic awareness, and grapheme recognition. Overall, deficits in phonology across Slavic languages tend to co-occur together with other difficulties (e.g. grammar and semantics), may result from deficits in motor development or correlate with other processes (such as reading). Therefore, the phonological deficits in Slavic children with DLD should be viewed as one of the facets of the heterogeneous multifaceted DLD. }, author = {Ivanova, Elizaveta and Sukmanova, Anastasia and Norkina, Marina and Kosikova, Alisa} } @article {520, title = {Wie is er aan de beurt? De rol van spraakmelodie bij beurtwisselingen in het Nederlands}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {In natuurlijke conversatie wisselen sprekers elkaar soepel en snel af. Uit onderzoek blijkt dat er tussen opeenvolgende sprekers gemiddeld 0-200 ms stilte zit, terwijl het plannen van een beurt ca. 600-1500 ms kost. Dit zou kunnen betekenen dat de rol van uitingsfinale zinsmelodie in het beurtwisselingssysteem beperkt is tot het markeren van de plaats waar de beurt eventueel kan worden overgenomen, maar dat het type finale grenstoon - stijgend (H\%) of laag (L\%) - er weinig toe doet, omdat de planning van een beurt eerder moet beginnen. Er is enige evidentie dat het ontbreken van een hoge of lage grenstoon (in plaats daarvan eindigt de uiting in een vlakke middelhoge toon, \%) werkt als beurthoud-cue. Meermalen is aangetoond dat er zoiets bestaat als vraagintonatie, en dat een finale stijging (H\%) een declaratieve uiting kan markeren als vraag. Dit zou betekenen dat er mogelijk toch een rol is voor H\% als onafhankelijk signaal om de beurt over te dragen, en dat de gerapporteerde zeer korte pauzes tussen sprekers het gevolg zijn van een te oppervlakkige analyse van de beurten in de gebruikte datasets. In het NWO-project {\textquoteleft}Who{\textquoteright}s next?{\textquoteright} wordt onderzocht wat de rol van de drie finale grenstonen (H\% stijgend, L\% laag, \% middelhoog) in het beurtwisselingssysteem van het Nederlands is, te beginnen met een gedetailleerde annotatie van een corpus gesproken dialoog (wat betreft intonatie, beurttype, lexicosyntactische en pragmatische structuur), gevolgd door experimenten met gemanipuleerde stukken dialoog en eye-tracking. }, author = {Johanneke Caspers} } @article {526, title = {The uncanny valley effect for prosody}, year = {2023}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {The incorporation of human-like traits into intelligent verbal agents (IVAs) can strengthen their appeal as users are inclined to anthropomorphize technology. Nevertheless, non-human objects with close-to-human characteristics can evoke the uncanny valley effect (UVE), a feeling of eeriness. This study investigated whether very human-like prosody used by IVAs can evoke a UVE, looking at perceived eeriness, robomorphism, anthropomorphism and trust in/of IVAs. Two experiments were conducted in which participants (N = 88) listened to a virtual museum guide. The guide{\textquoteright}s voice was a human voice, the pitch of which was manipulated to sound more robotic, by reducing the variation around the declination over the utterance (first experiment) or around the average (second experiment). The reduction was 0\% (human), 33\%, 66\% or 100\% (most robotic); participants listened to each level once. There was a linear relationship between degree of prosody manipulation and participants{\textquoteright} perceptions on the variables mentioned above, in the expected directions (experiment 1: 0.31 < |b| < 0.57, p < 0.001; experiment 2: 0.27 < |b| < 0.74, p < 0.001), but no evidence of a UVE. However, a few individuals did show a clear and consistent UVE, the significance of which cannot be estimated as each level was presented only once. A follow-up study using a finer-grained difference and more measurements per participants is underway; results will be discussed. This study{\textquoteright}s insights can contribute to better design and implementation of IVAs by tackling potentially unfavorable emotional and behavioral reactions to human-like voices. }, keywords = {Anthropomorphism, Human-Robot Interaction, Intelligent Virtual Assistants, Prosody, Uncanny Valley Effect}, author = {Alipour, Ahdiyeh and Tom Lentz} } @article {513, title = {Both Contextual and Talker-Bound F0 Information Affect Voiceless Fricative Perception}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Speech perception is sensitive to context. An example of this is the contrastive effect of fundamental frequency (F0) on the perception of voiceless fricatives{\textquoteright} spectral center of gravity (CoG) (e.g., Niebuhr, 2017). However, whether knowledge about a talker{\textquoteright}s characteristic mean F0 can produce similar effects remains unknown. The present study therefore investigated the effects of contextual (Exp 1) and talker-bound (Exp 2) F0 information on the perception of the voiceless fricatives /s/ and /ʃ/. In Experiment 1, in a 2AFC task, native Dutch listeners (N=10) categorized target words as the Dutch words {\textquotedblleft}sok{\textquotedblright} /sɔk/ or {\textquotedblleft}sjok{\textquotedblright} /ʃɔk/ embedded in a carrier sentence ({\textquotedblleft}Nu komt het woord...{\textquotedblright}) in 3 intermixed F0 conditions. The fricatives were tokens from a synthetic 8-step fricative continuum from /s/ to /ʃ/. The carrier sentence was pitch shifted {\textpm}4 semitones to create High-F0 and Low-F0 context conditions, alongside a Mid-F0 (i.e., non-shifted) control condition. Ambiguous fricatives were perceived as more /s/-like in Low-F0 sentences compared to High-F0 sentences. In Experiment 2, new participants (N=32) first listened to 20 minutes of speech (exposure) from the same talker whose voice had been consistently pitch-shifted up (High-F0 group) or down (Low-F0 group) {\textpm}4 semitones. Afterwards, a 5-step subset of the original 8-step fricative continuum was used in a 2AFC task where participants categorized stimuli without carrier sentences as {\textquotedblleft}sok{\textquotedblright} or {\textquotedblleft}sjok{\textquotedblright}. The continuum was again perceived as more /s/-like for the Low-F0 group compared to the High-F0 group. Together, the findings suggest that listeners use not only the immediate context but also previously established knowledge about talkers{\textquoteright} typical F0 to interpret incoming speech sounds. References Niebuhr, O. (2017). On the perception of {\textquotedblleft}segmental intonation{\textquotedblright}: F0 context effects on sibilant identification in German. EURASIP Journal on Audio, Speech, and Music Processing, 2017(1), 19. https://doi.org/10.1186/s13636-017-0115-3 }, author = {Ulu{\c s}ahin, Orhun and Hans Rutger Bosker and James M. McQueen and Meyer, Antje} } @article {509, title = {Can Rapid Prosody Transcription be replicated?}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Prominence is studied using Rapid Prosody Transcription (RPT), in which na{\"\i}ve participants hear utterances and mark the words they consider prominent. One such study, Arvaniti et al. (2022; Speech Prosody), examined the prominence scores of 281 accents {\textendash} independently coded as H* or L+H* using phonetic criteria and as contrastive or non-contrastive using pragmatic criteria {\textendash} provided by Standard Southern British English (SSBE) speakers. Individual participant responses fell into three patterns: responses based on acoustic prominence (favouring L+H* accents), pragmatic meaning (favouring contrastive accents), or both (marking both L+H*s and contrastive accents as prominent). We tested whether RPT results and these response patterns are replicable and explainable by Empathy Quotient (EQ), which enhances attention to meaning leading to higher scores for contrastive accents, and Autism Quotient (AQ) or musicality (measured by mini-PROMS), which enhance attention to phonetic detail leading to higher scores for L+H*s. Sixty two SSBE speakers participated in RPT using the method and materials of Arvaniti et al. (2022). The aggregate results were replicated: contrastive L+H*s were significantly more likely and non-contrastive H*s significantly less likely to be considered prominent, while non-contrastive L+H*s and contrastive H*s had similarly low scores. Individual participant responses were not affected by AQ. However, participants with high EQ did prioritize pragmatic over phonetic cues (i.e. they favoured contrastive accents independently of shape). Finally, those scoring high in musicality were most sensitive to phonetic differences particularly when they combined with pragmatics (leading to very high scores for contrastive L+H*s and very low scores to non-contrastive H*s). }, author = {Orrico, Riccardo and Gryllia, Stella and Kim, Jiseung and Arvaniti, Amalia} } @article {508, title = {Exploring articulation rate entrainment: Interactions over Zoom between typical and atypical speakers}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Speakers are known to change their speech to become more similar to the speech of their interlocutor [e.g. 2]. This phenomenon is extensively investigated in typical speakers and is known as entrainment, or e.g., alignment, accommodation. Entrainment has been found to help speakers in multiple ways, e.g., better task success or higher likeability [3, 4]. However, this process has received less attention in atypical speakers, while entrainment may indeed help these speakers [1]. In this study, we explore whether typical speakers entrain more to atypical speakers than to typical speakers when they are in interaction with an interlocutor over Zoom. More specifically, we study articulation rate of typical speakers in conversation with other typical speakers and with speakers who stutter. We furthermore elaborate on the challenges of these analyses using speech recorded via Zoom. Forty participants (twenty pairs) participated in this study. Ten pairs of typical speakers and ten different pairs of typical-atypical speakers performed two tasks. First, they performed a picture description by themselves, and then interacted with another speaker to find the differences between pictures in three rounds of the Diapix task [5] over Zoom, lasting around 20 to 30 minutes on average. We will elaborate on the pre-processing steps and challenges of working with speech recorded over Zoom. Moreover, we will compare articulation rate within speaker between the picture description and the Diapix task, and between the speakers of a pair during the Diapix task. Statistical analyses are being conducted and results will be ready before the Day of the Phonetics. References [1] Borrie, S. A., \& Liss, J. M. (2014). Rhythm as a coordinating device: Entrainment with disordered speech. Journal of Speech, Language, and Hearing Research, 57(3), 815-824. [2] Pardo, J. S. (2006). On phonetic convergence during conversational interaction. The Journal of the Acoustical Society of America, 119(4), 2382-2393. [3] Reitter, D., \& Moore, J. D. (2014). Alignment and task success in spoken dialogue. Journal of Memory and Language, 76, 29-46. [4] Schweitzer, A., \& Lewandowski, N. (2013). Convergence of articulation rate in spontaneous speech. In INTERSPEECH, pp. 525-529. [5] Van Engen, K. J., Baese-Berk, M., Baker, R. E., Choi, A., Kim, M., \& Bradlow, A. R. (2010). The Wildcat Corpus of native-and foreign-accented English: Communicative efficiency across conversational dyads with varying language alignment profiles. Language and speech, 53(4), 510-54 }, author = {Lotte Eijk and Meekings, Sophie} } @article {505, title = {F0 dynamics associated with prominence realisation in children with hearing impairment}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Prominence in speech is typically realised by means of greater amplitude, duration and F0 of the vowel nucleus in the syllable that carries word/sentence stress. It is well-established that F0 is the more important physical dimension. The present study reports the analysis of F0 in word realisation of two groups of children differing in hearing status. One group consisted of children with hearing impairment, while the other group consisted of age-matched children with normal hearing. The hearing-impaired children had been fitted with either a cochlear implant or a conventional hearing aid. Children had participated in a (non-)word imitation task which consisted of the repetition of monosyllables containing one of the monophthongs of Belgian Standard Dutch. Measurement and analysis of F0 in the vowel nuclei revealed interesting differences between the groups. The children with hearing impairment had the highest overall F0. In terms of the dynamics of F0 associated with prominence, all children correctly realised an underlying prominence-lending rise-fall pattern which at the phonetic level manifested itself as a falling pitch movement. In addition, the F0 contour in children with a conventional hearing aid was steepest, while it was shallowest in children with a cochlear implant. The contour in children with normal hearing was situated between the two previous groups. The observed group differences are attributed to the acoustic information provided by the type of device the hearing-impaired children are equipped with.}, author = {Genette, J{\'e}r{\'e}my and Jo Verhoeven} } @article {502, title = {Ghost segments in the Flemish Tussentaal}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {The Flemish informal standard (or Tussentaal) exhibits a feature present in most Low Franconian variants of Flanders: the elision of final coronal plosives in words such as wat, niet and met, whereby they are realised without their final stop: [βɑ], [ni] and [mɛ]. Notably, these words participate in a sandhi process that triggers the devoicing of any fricatives that follow, similar to how those fricatives would devoice if the elided coronal were still present. Thus, phrases such as and , in which the second word normally starts with a voiced fricative, are realised as [βɑ fle:s] and [mɛ sɑnt]. The elision of this final coronal happens in some words (met, gaat, wat) and not in others (wet, tot, uit). While previous literature has acknowledged the existence of this ghost segment (such as Camerman, 2007; De Schutter, 1999; Rys, 2020), there had been little to no synchronic or diachronic account for its distribution prior to this study. The present study therefore set off to do the following: (1) document the presence of the feature in the Tussentaal, and (2) attempt to account for its distribution. Using a Python web-scraping script and the corpus search engine OpenSonar (Oostdijk et al., 2018), up to (where possible) ten audio tokens each of the fifty most common Dutch words according to A Frequency Dictionary of Dutch (Tiberius \& Schoonheim, 2014) that contain final -t or -d were collected from the Corpus Gesproken Nederlands (Eerten, 2007), a spoken corpus of Dutch. The scraped data pool was filtered to include only speakers of Belgian Dutch. The joint results of an algorithmic approach using Praat and a manual annotation approach reveal that final coronals are phonetically elided post-vocalically in the present tense inflectional morpheme /-t/ and most function words. All exceptions found were words that have undergone a historical process of word-final schwa deletion, suggesting that final coronal plosive deletion may be older. And indeed, evidence of final coronal plosive deletion was found in texts written in the 13th century, before word-final schwa deletion had taken place. References Camerman, Filip. (2007). Antwerps schrijven: Spelling en grammatica van het 21e-eeuwse Antwerps (pp. 44-46). de Vries-Brouwers. De Schutter, G. (1999). Het Antwerps. Een schets van zijn evolutie tussen 1898 en 1998. In J. Kruijsen \& N. Van der Sijs (Eds.), Honderd jaar stadstaal (pp. 301{\textendash}315). Contact. Eerten, L. van. (2007). Corpus Gesproken Nederlands. Nederlandse taalkunde, 12(3), 193-215. Oostdijk, Nelleke and Reynaert, Martin and Hoste, V{\'e}ronique and Schuurman, Ineke (2018). OpenSoNaR [Online service]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-c7. Rys, K. (2020). 1.5.2.6 Deletie van t. Algemene Nederlandse Spraakkunst. https://e-ans.ivdnt.org/topics/pid/topic-16007638353447182 (accessed 13 augustus 2022). Tiberius, C., \& Schoonheim, T. (2014). A frequency dictionary of Dutch: Core vocabulary for learners. Routledge, Taylor \& Francis Group. }, author = {Bozhinoski, Mishko} } @article {511, title = {Het Asta-project: automatische spraakherkenners voor Nederlandse dialecten}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Het Meertens instituut heeft in de tweede helft van de 20ste eeuw in heel Nederland opnames gemaakt van verschillende dialecten en ongeveer driehonderd uur is handmatig getranscribeerd. Dit materiaal lijkt de ideale basis voor het ontwikkelen van dialect-specifieke spraakherkenners, maar er zijn ook aanzienlijke uitdagingen bij het verwerken van deze data. De handmatige transcripties zijn gekoppeld aan de spraakopnames via een metadata-bestand. Helaas zijn de transcripties niet opgelijnd met de audio waardoor het onduidelijk is wanneer er wat gezegd wordt. Verder zijn de transcripties uitgeschreven in semi-conventionele spelling die is aangepast om de uitspraak in het dialect weer te geven. Hierdoor zijn de handmatige transcripties helaas niet altijd consistent en zijn ze moeilijker te koppelen aan automatische transcripties voor oplijning tussen audio en transcriptie. Om een eerste oplijningsbenadering te maken hebben we gebruik gemaakt van automatische spraakherkenning door een Nederlands Wav2vec2 model in combinatie met het Needleman-Wunch algoritme. Dit algoritme benadert een optimale oplijning tussen twee sequenties in dit geval tussen de handmatige en automatische transcripties. Deze oplijning wordt gecontroleerd met een hiervoor ontwikkeld webgebaseerde annotatietool. Met de resultaten van deze annotatie kan de spraakherkenner verbeterd worden voor specifieke dialecten. Tot nu toe kan geconcludeerd worden dat het oplijnen van de oorspronkelijke handmatige dialecttranscripties met behulp van een standaard Nederlands Wav2vec2 model en het Needleman-Wunsch algoritme goed werkt, maar dat er handmatige filtering van de data nodig is om het materiaal geschikt te maken voor het trainen van dialect-specifieke spraakherkenners. ASTA is een subproject van Werkpakket 3 ({\textquotedblleft}Linguistics{\textquotedblright}) van het CLARIAH-PLUS Grootschalige Wetenschappelijke Infrastructuurproject, en wordt gefinancierd door NWO (projectnummer 184.034.023).}, author = {Bentum, Martijn and Sanders, Eric and van den Bosch, Antal and Henk van den Heuvel} } @article {517, title = {Keynote: Fonetiek in de klas}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {De fonetiek is een vak vol interessante inzichten, spectaculaire resultaten en interessante manieren om ook als jongere z{\'e}lf aan de slag te gaan. Waarom wordt daar dan zo weinig gebruik van gemaakt? Er zijn allerlei redenen om de wetenschap bij jongeren te brengen {\textendash} omdat je wil dat de continu{\"\i}teit gegarandeerd wordt doordat ook nieuwe generaties enthousiast raken, omdat je denkt dat het belangrijk is dat mensen op een verantwoordelijke manier met nieuwe technologie kunnen omgaan, of omdat je simpelweg de schoonheid van het vak wil delen. In deze presentatie pleit ik niet alleen voor meer fonetiek in het onderwijs, maar doe ook tips aan de hand hoe we dat zouden kunnen bereiken.}, author = {Marc van Oostendorp} } @article {510, title = {Phoneme Categorization after Speaking with a Bite Block}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {The processes of speech production and speech perception are closely intertwined. Existing research on how articulator displacement affects speech perception usually has the setup where participants perform a perception task while the configurations of their articulators are changed (e.g., external force applied on the jaw in Nasir \& Ostry 2009) i.e., the articulator manipulation happened during the perception task. We investigate whether and how the experience of having spoken with an altered articulatory configuration has any consequences for phoneme categorization after the manipulation has been removed. Furthermore, we ask whether having heard one{\textquoteright}s own production during the manipulated production affects this potential shift. Participants were randomly assigned to a bite-block or a no-bite-block group. The bite block inhibited tongue height movement. All participants first read non-words without the bite block, after which they were tested on their categorization of the phonemes /ɪ/ and /ɛ/ embedded in monosyllabic Dutch words (perception pre-test). Then, dependent on their group assignment, participants would either speak with or without the bite block. An additional group assignment determined whether participants (in both bite-block and no-bite-block groups) would either hear their own speech productions or not, i.e., speaking either with ordinary auditory feedback or with speech-shaped noise to mask their auditory feedback. A post-test identical to the perception pre-test followed for all groups. By comparing categorization responses between pre-test and post-test for all bite block and auditory feedback combinations, we will be able to answer our research questions. Results will be discussed.}, author = {Zhang, Xinyu and Esther Janse} } @article {501, title = {Poster: The influence of musical abilities on the processing of contrastive focus prosody in an L2: An eye-tracking study}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {In Dutch and English, contrastive focus is marked by a pitch accent, and native listeners use this cue in perception to anticipate upcoming information (Mulders \& Szendr{\H o}i, 2016; Perdomo \& Kaan, 2021). However, eye-tracking evidence suggests Dutch adults have difficulty with using prosodic cues for anticipation in English (Ge et al., 2021), possibly due to small differences between Dutch and English focus cues and a higher demand on processing resources in L2 perception. Prosody perception abilities have been associated with individual differences in musical abilities (see Jansen et al., 2022). We investigated whether musical abilities influenced the processing of contrastive focus prosody by 45 Dutch adult L2 English users, using a visual-world eye-tracking paradigm. Participants listened to sentences with the particle only, which associates with the direct or indirect object that receives a focus accent, e.g. I only gave a SPOON to the girl. I didn{\textquoteright}t give a FORK to the girl. Meanwhile, they viewed pictures showing objects and characters mentioned. We investigated to what extent participants anticipated the focus alternative (fork) in the second clause, indicating they had correctly interpreted the accented word (spoon) as the contrasted element. We analysed anticipatory fixations and tested the influence of musical abilities based on the Short-PROMS (Zentner \& Strauss, 2017). We hypothesised that L2 listeners with higher scores would show more anticipatory fixations on the focus alternative and fewer on the competitor image. Initial analyses using linear regression models support our hypotheses, indicating that individuals with stronger musical abilities show a faster interpretation of focus-marking pitch accents during L2 speech processing. These findings suggest that having stronger perceptual resources underlying both music and speech processing (e.g., Patel, 2011) can even influence prosody-to-meaning mapping in an L2. References Ge, H., Mulders, I., Kang, X., Chen, A., \& Yip, V. (2021). Processing focus in native and non-native speakers of English: An eye-tracking study in the visual world paradigm.~Applied Psycholinguistics,~42(4), 1057-1088. Jansen, N., Harding, E., Loerts, H., Ba{\c s}kent, D., \& Lowie, W. (2022). The relation between musical ability and sentence-level intonation perception: A meta-analysis comparing L1 and non-native listening. In~Proc. Speech Prosody 2022~(pp. 713-717). Mulders, I., \& Szendr{\H o}i, K. (2016). Early association of prosodic focus with alleen {\textquoteleft}only{\textquoteright}: Evidence from eye movements in the visual-world paradigm.~Frontiers in Psychology,~7, 150. Patel, A. D. (2011). Why would musical training benefit the neural encoding of speech? The OPERA hypothesis.~Frontiers in Psychology,~2, 142. Perdomo, M., \& Kaan, E. (2021). Prosodic cues in second-language speech processing: A visual world eye-tracking study. Second Language Research, 37(2), 349{\textendash}375.}, author = {Jansen, Nelleke and Loerts, Hanneke and Harding, Eleanor and Deniz Baskent and Wander Lowie} } @article {514, title = {Poster: The perception of French nasal vowels by Belgian Dutch listeners}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Several models have been proposed to study the production and/or perception of non-native phonemes by L2 learners (cf. L2LP, Escudero, 2005; PAM-L2, Best \& Tyler, 2007; SLM-r, Flege \& Bohn, 2021). These models generally assume that the identification of L2 phonemes depends on their phonetic similarity with phonemes of the L1. In this light, the perception of nasal vowels by L2 learners is a particularly interesting subject, because unlike nasalized vowels, nasal vowel phonemes are quite rare in the world{\textquoteright}s languages. In fact, the phonemic contrast between oral and nasal vowels exists in only 22,6 \% of them (Maddieson \& Precoda, 1990). To our knowledge, little research has focused on the perception of nasal vowels by L2 learners (but see e.g., Detey \& Racine, 2015; Inceoglu, 2016). This paper aims to contribute to our knowledge of the acquisition of nasal vowels by investigating how Belgian Dutch listeners perceive French nasal vowels.~While Dutch has no nasal vowels in its inventory, present-day Hexagonal (Parisian) French has three, being /ɛ̃/, /ɑ̃/ and /ɔ̃/. To this purpose, twenty-one native speakers of Belgian Dutch who were intermediate learners of French performed two categorization tasks, namely a cross-linguistic task and a French task. In the cross-linguistic task, participants matched French nasal vowels to their closest Dutch equivalents and rated these vowels on a category goodness scale. In the second (French) task, they classified French nasal vowels. The target stimuli were French CV and CVC sequences containing either /ɛ̃/, /ɑ̃/ or /ɔ̃/ as their syllable nucleus. Stimuli were produced by two native speakers of Hexagonal French. The results of the French categorization task indicated that the French nasal vowel /ɔ̃/ was identified significantly more often than /ɛ̃/ and /ɑ̃/. This can be linked to a chain shift affecting nasal vowels of present-day French. Moreover, participants rarely categorized French nasal vowels as oral vowels, but displayed asymmetric patterns of confusion between French nasal vowels. Finally, the outcomes of the cross-linguistic categorization task revealed perceptual assimilation patterns that clarify the asymmetric patterns of confusion.~These perceptual assimilation patterns are discussed in the light of two theoretical models, namely the Perception Assimilation Model for L2 listeners (PAM-L2; Best \& Tyler, 2007) and the Second Language Linguistic Perception model (L2LP; Escudero, 2005). References Best, C.T., \& Tyler, M.D. (2007). Nonnative and second-language speech perception: Commonalities and complementarities. In: O.-S. Bohn \& Munro M.J. (Eds.), Language experience in second language speech learning: in honor of James Emil Flege (pp. 13-34). John Benjamins.~ Detey, S., \& Racine, I. (2015). Does perception precede production in the initial stage of French nasal vowel quality acquisition by Japanese learners? A corpus-based discrimination experiment. In: Proceedings of ICPHS 2015, Glasgow, 10-14 August. Escudero, P. (2005). Linguistic perception and second language acquisition: explaining the attainment of optimal phonological categorization. PhD dissertation. University of Utrecht. Flege, J., \& Bohn O. (2021). The revised speech learning model (SLM-r). In: R. Wayland (Ed.), Second language speech learning: theoretical and empirical progress (pp. 3-83). Cambridge University Press. Inceoglu, S. (2016). Effects of perceptual training on second language vowel perception and production. Applied Psycholinguistics, 37(5), 1175-1199. Maddieson, I. \& Precoda K. (1990). Updating UPSID. UCLA Working Papers in Phonetics, 74, 104-111.~ }, author = {De Haes, Hanna and Simon, Ellen and Lauwers, Peter} } @article {503, title = {Poster: The speaker in speech {\textendash} linguistic context in forensic speaker comparisons}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {In forensic speaker comparisons, one or more disputed speech samples of an unknown speaker are typically compared to one or more speech samples of a suspect. One concern in such analyses is the effect of phonetic-linguistic context on the speech sounds sampled for comparison; many phonetic studies show that contexts affect the acoustic realization of speech sounds. For example, stressed syllables evoke more canonical pronunciations, utterance-initial speech sounds are typically produced with more effort, and talking over the telephone changes speech behaviour. To better understand the relevance of these acoustic effects for forensic speaker comparisons, we have been studying how segmental features that characterize speakers{\textquoteright} voices depend on what speakers are saying (NWO VIDI project 276-75-010). More specifically, how does the speaker-specificity of speech sounds depend on its direct context (Heeren, 2020, Smorenburg \& Heeren, 2020, 2021), on the speech channel (Smorenburg \& Heeren, 2022), and on the language spoken (De Boer \& Heeren, 2020; De Boer, Quen{\'e} \& Heeren, 2022). In this overview presentation we would like to share some of our main project results obtained on existing research databases (CGN, Oostdijk, 2000; D-LUCEA, Orr \& Quen{\'e}, 2017; WYRED, Gold et al., 2018), and show how our findings are relevant for and translate to forensically-realistic speech data taken from the NFI-FRIDA corpus (Van de Vloed et al., 2020). References Boer M.M. de, Quen{\'e} H. \& Heeren W.F.L. (2022), Long-term within-speaker consistency of filled pauses in native and non-native speech, JASA Express Letters 2(3): 035201. Boer M.M. de \& Heeren W.F.L. (2020), Cross-linguistic filled pause realization: the acoustics of uh and um in native Dutch and non-native English, Journal of the Acoustical Society of America 148(6): 3612-3622. Gold, E., Ross, S., \& Earnshaw, K. (2018). The {\textquotedblleft}West Yorkshire Regional English Database{\textquotedblright}: Investigations into the generalizability of reference populations for forensic speaker comparison casework. In Proceedings of INTERSPEECH (Vol. 2018{\textendash}Sept., pp. 2748{\textendash}2752) Heeren W.F.L. (2020), The Effect of Word Class on Speaker-dependent Information in the Standard Dutch Vowel /a:/, Journal of the Acoustical Society of America 148(4): 2028-2039. Oostdijk, N. (2000). {\textquotedblleft}Het corpus Gesproken Nederlands,{\textquotedblright} (The Spoken Dutch Corpus), Nederlandse Taalkunde 5, 280{\textendash}284. Orr, R., and Quen{\'e}, H. (2017). {\textquotedblleft} D-LUCEA: Curation of the UCU Accent Project data,{\textquotedblright} in CLARIN in the Low Countries, edited by J. Odijk and A. van Hessen ( Ubiquity Press, Berkeley), pp. 177{\textendash}190. Smorenburg B.J.L. \& Heeren W.F.L. (2020), The distribution of speaker information in Dutch fricatives /s/ and /x/ from telephone dialogues, Journal of the Acoustical Society of America 147(2): 949-960. Smorenburg B.J.L. \& Heeren W.F.L. (2021), Acoustic and speaker variation in Dutch /n/ and /m/ as a function of phonetic context and syllabic position, Journal of the Acoustical Society of America 150(2). Smorenburg L. \& Heeren W.F.L. (2022), The effect of linguistic contexts on the acoustics and strength-of-evidence of /s/. Proceedings 30th annual conference of the International Association for Forensic Phonetics and Acoustics, p. 21-22. Van der Vloed, D., Bouten, J., Kelly, F., \& Alexander, A. (2018). NFI-FRIDA{\textendash}Forensically realistic interdevice audio database and intial experiments. In 27th Annual Conference of the International Association for Forensic Phonetics and Acoustics (IAFPA) (pp. 25-27). }, author = {Willemijn Heeren and Meike de Boer and Laura Smorenburg} } @article {506, title = {Poster: Translating a Korean Poem into English. A Case Study on Exploring the Connection between Phonetics and Emotions}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {David Crystal showed in his book {\textquotedblleft}Sounds Appealing{\textquotedblright} that there is at least some kind of symbolic meaning to vowels and consonants. He does not further elaborate on it, instead asking: {\textquotedblleft}It doesn{\textquoteright}t make sense to ask {\textquoteleft}What is the meaning of /i:/ or /u:/?{\textquoteright}.{\textquotedblright} This is, however, the intention of this research. To explore the connection between emotions and phonetics. To see whether there is any connection at all, and if a potential connection could be universally applicable or if it is specific to each language and culture. To find an answer to this, there were three steps needed. First, the phonetic inventory of both languages, Standard South Korean and General American, was analysed and compared to have basis on which to work on. In a second step, pre-existing research was used to investigate how emotions are represented in speech in order to see which phonemes seem to correlate with which emotions. In a third step, this was used in a practical application of translating a poem to see whether this actually holds true. The medium of poetry was chosen as it is a literary medium that was originally meant to be performed and therefore, relies more heavily on phonetics and phonology to communicate its message. The poem was translated twice. First, the traditional way and in a second translation, the research was used to match the emotional valence of source and target word as best as possible to translate the poem. Both translations were then compared with each other. The pre-existing research clearly shows that there is a connection between emotions and phonetics and because some emotions are more similar to each other, the distinction between categories is not fully clear cut. On the basis of this pre-existing research, seven emotions were split into three bigger groups: Group 1 consisting of anger, surprise, joy, and happiness; Group 2 consisting of sadness, fear, and disgust; and a third group Neutral, comprising of a neutral state of being as well as other emotions for which there was not enough data available to clearly put them into either group. Comparing both translations, they do have equally good results concerning trying to match the emotional valence of the source. This begs the question why the first translation was already this close to the source. Is it in my specific case because of my knowledge of English or was the gut instinct right because there is an inherent emotional quality to phonemes that the brain latches onto subconsciously, this in turn then influencing the decision-making process? Right now, it is too time consuming to match the emotional valence of every word from the source and every potential word of the target language. However, if a software could be programmed that could in split seconds do the work for you, then it could certainly majorly help with preselecting useful words {\textendash} making the whole translation process quicker and the quality better. }, author = {Soehnlein, Mika Aya} } @article {512, title = {Recalibration of lexical stress perception can be driven by visual beat gestures}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Auditory speech is highly variable. Listeners may therefore use the visual modality to disambiguate ambiguous speech sounds. For instance, when repeatedly presented with an ambiguous sound /a?a/ midway between /aba/ and /ada/, paired with a video of a talker producing either /aba/ or /ada/, listeners recalibrate their perception of a later presented auditory /aba - ada/ continuum (Bertelson et al., 2003). Here we tested whether recalibration can also occur for lexical stress perception. In Experiment 1 participants were exposed to an ambiguously stressed token of /ka.nɔn/, perceptually midway between Dutch CAnon [strong-weak (SW); {\textquotedblleft}canon{\textquotedblright}] and kaNON [weak-strong (WS); {\textquotedblleft}cannon{\textquotedblright}], disambiguated either by a beat gesture aligned to the first or second syllable (visual). In a later test phase participant categorized an auditory CAnon {\textendash} kaNON lexical stress continuum. The results revealed that participants{\textquoteright} responses in the test phase shifted in the direction of the disambiguating beat gestures they saw in the exposure phase. In Experiment 2 participants were exposed to a different ambiguous word (/vo:r.na:m/) but tested on the same CAnon {\textendash} kaNON continuum, to test if the effect would also generalize to different words. However, results show that participants were not able to generalize. Ongoing work is investigating whether this generalization is modulated by acoustic distance. Nonetheless, the effect was clearly present across multiple auditory steps in Experiment 1. Therefore, we suggest that beat gestures can recalibrate lexical stress perception and thus have a long-lasting effect on auditory perception.}, author = {Bujok, Ronny and Peeters, David and Meyer, Antje and Hans Rutger Bosker} } @article {516, title = {What are the mental representations of speech segments during speech preparation, as revealed by self-monitoring for speech errors?}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Segmental speech errors can be detected by self-monitoring both before and after speech is initiated. This allows us to answer four questions about speech preparation: (1) What is the delay between self-monitoring internal and external speech? (2) What are the representations of speech sounds on which self-monitoring focuses during {\textquotedblleft}early{\textquotedblright} and {\textquotedblleft}late{\textquotedblright} error detection? (3) Why are some speech errors detected by self-monitoring before and others after speech initiation, and others again not at all?(4) What is the role of cognitive control in self-monitoring for speech errors? For answering those questions we use responses from 6 of our earlier SLIP experiments. We find that (1) the delay between {\textquotedblleft}early{\textquotedblright} and {\textquotedblleft}late{\textquotedblright} error detection is roughly 4 segments or nearly 500 ms. (2) Speech sounds are represented very differently before and after speech initiation. This is not predicted from articulatory phonology but supports the proposal that in internal speech sounds are represented as targets in auditory perceptual space. (3) Phonetic contrast between segments is a major factor determining whether speech errors are detected internally, externally or not at all. (4) Degree of conflict between competing items during speech preparation controls frequency of speech errors, but not necessarily of error detection. }, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {504, title = {An acoustic analysis of West Frisian monophthongs}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Previous literature on Modern West Frisian reports a fairly large vowel inventory, including 18 monophthongs consisting of nine vowel pairs distinguished by length. Yet, this extensive vowel system has hardly been subject to phonetic investigation. Here, I report some preliminary findings of an ongoing investigation into some acoustic properties (F1, F2 and duration) of the 9 short and 9 long monophthongs of this minority language. Based on corpus data from 2017-2019 of native speakers from the former municipality Boarnsterhim, realisations of 6 older males are compared with 6 younger female speakers. Vowels were measured preceding [t] or [s] in closed, stressed syllables of content words in spontaneous speech. Besides providing a preliminary acoustic description of Frisian monophthongs in spontaneous speech, some sound changes are looked at in more detail. The first analyses reveal at least one obvious change in progress: younger speakers show the tendency to diphthongise the long high vowels [i: y: u:] to [iˑə yˑə uˑə]. This change could impact the Frisian vowel inventory, as these diphthongs hold phonemic value (see the minimal pair wiid [ʋi:t] {\textquoteleft}wide{\textquoteright} vs. wiet [ʋiˑət] {\textquoteleft}wet{\textquoteright}). Tracking the origin and spread of this merger could provide new insights into how Frisian is changing, possibly under the influence of Dutch. }, author = {Kingma, Martijn} } @article {507, title = {An operationalization of causal factors in vowel shifts}, year = {2022}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Ample phonetic literature has tried to determine causality behind sound change, oftentimes in vowel shifts. Proposed causes may be divided into internal factors (e.g. push chains maintaining margins of security, drag chains maintaining symmetry; [1]) and external ones (gender, social network, etc.; [2]). The usual approach to establishing such effects (e.g. [3]) is to demonstrate that such factors significantly correlate with change progression over time. However, such a correlation is insufficient to establish causation. Thus, do internal and external factors really cause change, or are they simply along for the ride? We present a method to answering this question based on natural selection in biology. We operationalize causality as a deterministic pressure driving language change ({\textquoteleft}directional selection{\textquoteright}), which contrasts with the cumulative effect of random variation ({\textquoteleft}stochastic drift{\textquoteright}). [4] demonstrated that this distinction makes it possible to disambiguate caused changes from historical accidents, based on results from English do-support (Fig. 1). We present ongoing work adapting this model from discrete syntactic features to continuous measures in F1/F2 space. We use this to infer selection pressure within the vowels in the Philadelphia Neighborhood Corpus, a corpus full of vowel changes spanning a course of ~100 years ([5]). Preliminary results demonstrate that some of the known ongoing changes in Philadelphia, such as pre-fortis [aɪ]>[ʌɪ], are the result of selection pressure, while others are historical accidents. We furthermore present in-progress quantitative analyses of internal and external factors that drive those changes that were subject to selection pressure. We discuss these findings in light of current theories of sound change. References [1] Labov, W. (1994). Principles of linguistic change. Vol. I: internal factors. Blackwell. [2] Labov, W. (2001). Principles of linguistic change. Vol. II: social factors. Blackwell. [3] Kroch, A. S. (1989). Reflexes of grammar in patterns of language change. Language Variation and Change, 1(3), 199-244. [4] Newberry, M. G., Ahern, C. A., Clark, R., \& Plotkin, J. B. (2017). Detecting evolutionary forces in language change. Nature, 551(7679), 223-226. [5] Labov, W., Rosenfelder, I., \& Fruehwald, J. (2013). One hundred years of sound change in Philadelphia: Linear incrementation, reversal, and reanalysis. Language, 89(1), 30-65. }, author = {Voeten, Cesko and Tamminga, Meredith and Plotkin, Joshua B.} } @article {491, title = {Analyzing time-dynamic vowels: normalization in the current decade}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {With the exception of van der Harst (2011), previous work comparing vowel-normalization methods for sociophonetic research has largely focused on steady-state vowels (e.g. Adank et al 2004). With modern sociophonetics nowadays resorting more to time-dynamic analyses rather than steady-state approaches, the present study revisits the issue of vowel normalization with an explicit consideration of temporal trajectories. We compared sixteen normalization methods implemented in Visible Vowels (Heeringa \& Van de Velde 2018) and an unnormalized baseline, using van der Harst (2011){\textquoteright}s hand-corrected data of the Flemish-Dutch Teacher Corpus, which includes fifteen vowels (of which six may be phonologically diphthongal, but in practice all of these are temporally variable to some extent; van der Harst 2011). Using generalized additive models to model temporal trajectories, we compared the normalization methods{\textquoteright} abilities to normalize anatomical variation, retain vowel distinctions and explain variation in the normalized F0-F3; similar criteria were also used by Adank et al (2004) and van der Harst (2011). We additionally investigated the extent to which by-speaker random effects could supplement or perhaps even replace the use of normalization. Our results partly reproduce the good results for Lobanov, Gerstman, and Nearey I found earlier. However, we observe that other methods, particularly Heeringa \& Van de Velde II, come close to their performance but at much higher effect sizes. We also observe that random effects are not only useful for the unnormalized baseline, but provide a similar benefit also for the normalized data, showing that they are complementary to normalization. We interpret our findings in light of the way the different methods handle temporal dynamics. References Adank, P., Smits, R., \& Van Hout, R. (2004). A comparison of vowel normalization procedures for language variation research. The Journal of the Acoustical Society of America, 116(5), 3099-3107. van der Harst, S. (2011). The vowel space paradox. A Sociophonetic Study on Dutch. LOT. Heeringa W., \& Van de Velde, H. (2018). Visible Vowels: a Tool for the Visualization of Vowel Variation. In: Inguna Skadina \& Maria Eskevich (Eds.). Proceedings CLARIN Annual Conference 2018, 8-10 October, Pisa, Italy (pp. 120-123). CLARIN ERIC. }, author = {Voeten, Cesko and Wilbert Heeringa and Hans Van de Velde} } @article {492, title = {Effects of obstruent voicing on vowel fundamental frequency in Dutch}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {It has been known for a long time and for a wide variety of languages that vowel fundamental frequency (F0) can be affected by the intrinsic properties of the preceding consonants. In particular, F0 following voiceless obstruents tends to be significantly higher than F0 following voiced obstruents (e.g., House and Fairbanks, 1953; Hombert et al., 1979). There has been a long-standing debate about the cause of this phenomenon. Some evidence in previous work is more compatible with a physiological/aerodynamic account of this effect (e.g., Halle and Stevens, 1967; Kirby \& Ladd, 2016), while other supports an auditory enhancement account (e.g., Kingston and Diehl 1994). This paper investigates these consonant-related F0 perturbations in Dutch after initial fricatives (/v f/) and stops (/b p/), as compared to after sonorant /m/, in recordings by Pinget (2015). Dutch is particularly interesting for the investigation of F0 perturbations for two reasons: 1) Dutch {\textendash} unlike English {\textendash} is a true voicing language and 2) Dutch initial fricatives are currently undergoing a process of devoicing (e.g., Kissine et al., 2003; Pinget, 2015). The F0 contours in isolated words were analyzed using GAMM (e.g., Wieling 2018) with /m/ as baseline condition. Results show that after unvoiced /p, f/, the F0 at vowel onset is significantly higher than this baseline. Moreover, voicing measures (degree of voicing, duration, and VOT) interact with the main effects of onset consonant on F0. Especially after /v/, F0 at vowel onset increased as the voicing measures of preceding /v/ decreased. Thus, we found no trace of an active gesture to explicitly lower F0 after highly devoiced fricatives, as would be predicted by an auditory enhancement account. In conclusion, these results regarding F0 contours, the time course of the effects and the covariation patterns are taken as evidence to support a physiological/aerodynamic cause of F0 perturbations. References Halle, M., \& Stevens, K. (1967). Mechanism of glottal vibration for vowels and consonants. The Journal of the Acoustical Society of America, 41(6), 1613-1613. Hombert, J.-M., Ohala, J. J., \& Ewan, W. G. (1979). Phonetic explanations for the development of tones. Language 55, 37{\textendash}58. House, A. S., \& Fairbanks, G. (1953). The influence of consonant environment upon the secondary acoustical characteristics of vowels. Journal of the Acoustical Society of America, 25, 105{\textendash}113. Kingston, J., \& Diehl, R. L. (1994). Phonetic knowledge. Language, 70, 419{\textendash}454. Kirby, J. P., \& Ladd, D. R. (2016). Effects of obstruent voicing on vowel F 0: Evidence from {\textquotedblleft}true voicing{\textquotedblright} languages. The Journal of the Acoustical Society of America, 140(4), 2400-2411. Kissine, M., Van de Velde, H., \& van Hout, R. (2003). An acoustic study of standard Dutch /v/, /f/, /z/ and /s/. Linguistics in the Netherlands, 20(1), 93{\textendash}104. Pinget, A. (2015). The actuation of sound change. PhD Dissertation, Utrecht University, The Netherlands. Wieling, M. (2018). Analyzing dynamic phonetic data using generalized additive mixed modeling: A tutorial focusing on articulatory differences between L1 and L2 speakers of English. Journal of Phonetics, 70, 86-116. }, author = {Anne-France Pinget and Hugo Quen{\'e}} } @article {496, title = {Effects of simultaneous bilingualism and speech style on allophonic variation: A study of the Finland-Swedish front rounded vowels [{\o}:] and [{\oe}:]}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {This study examines sociophonetic variation and change in Finland-Swedish, a variety of Swedish spoken by 290,000 native speakers in Finland. In the last century, urbanisation of historically Swedish speaking regions in Finland has resulted in increasing dominance of Finnish in society and, consequently, growing bilingualism within the Finland-Swedish community. The study, which is one of the first to investigate variation in Finland-Swedish using acoustic analysis, explores crosslinguistic transfer in the phonetic variants of /{\o}:/ in speech produced by simultaneous bilingual Finland-Swedish individuals. In Swedish, the phoneme /{\o}:/ can be realised as the allophones [{\o}:] and [{\oe}:], while in Finnish, only [{\o}:] is used. We investigate whether influence from Finnish may lead to decreased distinction between the allophones for simultaneous Finnish and Finland- Swedish bilinguals, examining transfer through the Speech Learning Model framework (Flege, 1995; 2007) by observing possible interactions between bilinguals{\textquoteright} two languages in their phonetic space. Acoustic analysis is used to compare height and fronting of allophones [{\o}:] and [{\oe}:] produced by 115 participants in three speech styles on a continuum of formality (Labov, 2006). The statistical analysis indicates increased overlap of [{\o}:] and [{\oe}:] in the vowel spaces of bilingual speakers, who produced [{\o}:] with higher F1 and lower F2 values and [{\oe}:] with lower F1 and higher F2 values compared to monolingual participants, particularly in spontaneous, informal speech. The results suggest a potential effect of Finnish phonetic transfer in the production of Finland-Swedish allophones by simultaneous bilinguals in the form of partial category assimilation of Finnish and Finland-Swedish /{\o}:/. Additionally, the findings highlight the importance of considering intra-speaker variation in bilingual transfer research. References Flege, J.E. (1995). Second language speech learning: Theory, findings, and problems. Speech perception and linguistic experience: Issues in cross-language research, 92, 233{\textendash}277. Flege, J.E. (2007). Language contact in bilingualism: Phonetic system interactions. In J. Cole and J. Hualde (Eds.), Laboratory phonology 9 (pp. 353{\textendash}382). Mouton de Gruyter. Labov, W. (2006). The social stratification of English in New York City. Cambridge University Press. }, author = {Strandberg, Janine A.E. and Charlotte Gooskens and Anja Sch{\"u}ppert} } @article {493, title = {Focus and accent in English}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Contrastive focus in English is marked with a rising accent (autosegmentally L+H*) and broad (all new) focus with a high accent (H*). However, inconclusive production and perception evidence supports the idea that L+H* is simply an emphatic version of H*, not phonologically distinct from it. We used Rapid Prosody Transcription to test these two views. Forty-seven speakers of Standard Southern British English (SSBE) listened to 86 SSBE utterances and marked the words they considered prominent or emphatic. Accents (N = 281) were independently coded as H* or L+H* using phonetic criteria, and as contrastive or non-contrastive using pragmatic criteria. If L+H* is an emphatic H*, L+H*s should be rated more prominent than H*s; if the accents encode a pragmatic distinction, contrastive accents should be rated more prominent than non-contrastive ones. The results showed effects of both accent and pragmatics (L+H* > H*; contrastive > non-contrastive) and no interaction. Contrastive L+H*s were rated most prominent, non-contrastive H*s least prominent, while non-contrastive L+H*s and contrastive H*s had average and almost identical ratings. Participants used different strategies: some focused on accent type, others on pragmatics, and still others made neither distinction. These results suggest that a reason for the continuing debate about H* and L+H* may be that the accents form a weak contrast which some speakers acquire and attend to while others do not. Similarly, researchers who focus on contrastive L+H* and non-contrastive H* see distinct categories, while those who focus on non-contrastive L+H*s and contrastive H*s tend to see a continuum.}, author = {Arvaniti, Amalia and Gryllia, Stella and Zhang, Cong and Katherine Marcoux} } @article {487, title = {Jouw {\textquotedblleft}voornaam{\textquotedblright} is niet mijn {\textquotedblleft}voornaam{\textquotedblright}: An acoustic analysis of individual talker differences in producing lexical stress in Dutch}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Different people talk differently, even speakers from the same region. This individual variability results in large acoustic variability in speech, both at the segmental level (productions of vowels and consonants) and the suprasegmental, or prosodic, level (e.g., lexical stress). While individual differences in segment production are well established in the literature, relatively little is known about how individual talkers differ in their prosody. The present study examined individual-talker differences in productions of lexical stress. We recorded 744 tokens of Dutch segmentally overlapping words (e.g., VOORnaam vs. voorNAAM; {\textquoteleft}first name{\textquoteright} vs. {\textquoteleft}respectable{\textquoteright}) in variable sentence contexts from 40 native speakers of Dutch (balanced gender; relatively homogeneous Nijmegen-centered sample), and measured acoustic cues to lexical stress (mean F0, F0 variation, duration, spectral tilt, intensity, and vowel quality). Linear Discriminant Analyses (LDA) on data from each individual participant yielded sets of cue-weights for each participant, informing us on their phonetic cue-weighting strategies. Results showed {\textendash} on top of a general trend to primarily use mean F0, intensity, and duration {\textendash} that each participant also employed a unique combination of cues to signal lexical stress, illustrating large prosodic variability between talkers. Moreover, classes of cue-weighting strategies emerged, with a large group of primarily F0-weighting talkers and another group of primarily intensity-weighting talkers. Furthermore, based on LDA accuracy scores, we confirmed that spectral tilt was a more reliable cue to lexical stress than intensity for /a:/. However, when 9 other vowels were included in the analysis, this advantage disappeared, suggesting that for a larger sample of Dutch vowels both cues are equally important. Together, these outcomes contribute to a more comprehensive acoustic description of lexical stress in Dutch, allowing group-level and individual-talker inferences.}, author = {Severijnen, Giulio G.A. and Hans Rutger Bosker and James M. McQueen} } @article {494, title = {Linguistic asymmetries in cross-cultural emotion recognition}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {The aim of this study is to explore cross-linguistic/cross-cultural recognition of emotion in a relatively understudied language (Korean). Previous studies on cross-linguistic emotion recognition found that intercultural emotion recognition is the combination of universal, cultural and, to a lesser extent, linguistic factors (Mesquita \& Fridja, 1992; Scherer, 1997a, 1997b). However, these studies have mostly adopted unbalanced experimental designs that either used a {\textquotedblleft}one-to-many{\textquotedblright} approach (presenting the same stimuli to different listener groups), or a {\textquotedblleft}many-to-one{\textquotedblright} approach (presenting different stimuli to the same listeners). Moreover, these studies are often limited to basic emotions (Ekman, 1992). Consequently, current work on cross-linguistic emotion recognition may fail to take linguistic asymmetries into account. Thus, in the present study, we developed a full cross-language design ({\textquotedblleft}two-to-two{\textquotedblright}), with speakers and listeners from two typologically different languages and different cultures, Dutch and Korean. Participants heard carrier phrases that are linguistically appropriate in both languages ([nuto hɔm sɛpika{\ng}]) expressed with eight different emotions (balanced in terms of valence and arousal), and were then asked to choose one of the eight emotions that they thought the speaker was expressing. Consistent with previous studies, our data revealed that both groups can successfully decode the emotions above chance level, supporting the universal hypothesis (Scherer et al., 2001). Also consistent with previous work (Elfenbein \& Ambady, 2002), our data highlighted an in-group advantage for recognizing vocal emotions produced in listeners{\textquoteright} native language. The similarities and differences in confusion patterns across languages will be discussed in terms of the influence of linguistic asymmetries. References Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion, 6, 169{\textendash} 200. Elfenbein, H. A., \& Ambady, H. (2002). On the universality and cultural specificity of emotion recognition: a meta-analysis. Psychological bulletin, 128, 203-235. Mesquita, B., \& Frijda, N. H. (1992). Cultural variations in emotions: A review. Psychological Bulletin, 112, 179 {\textendash}204. Scherer, K. R. (1997a). Profiles of emotion-antecedent appraisal: Testing theoretical predictions across cultures. Cognition and Emotion, 11, 113-150. Scherer, K. R. (1997b). The role of culture in emotion-antecedent appraisal. Journal of Personality and Social Psychology, 73, 902-922. Scherer, K. R., Banse, R., \& Wallbott, H. G. (2001). Emotion inferences from vocal expression correlate across languages and cultures. Journal of Cross Culture Psychology, 32, 76-92. }, author = {Liang, Yachan and Mirjam Broersma and Martijn Goudbeek and Konopka, Agnieszka and Choi, Jiyoun} } @article {489, title = {One speaker, two languages: Within-speaker variation of [s] across L1 Dutch and L2 English}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {The voiceless alveolar fricative [s] is phonetically similar but not identical in the Dutch and English language. This makes it one of the most difficult English segments to pronounce correctly for native (L1) speakers of Dutch (Flege, 1995). If second language (L2) speakers fail to realize that the Dutch and English [s] have phonetic differences, they may place them into one phonetic category and use their Dutch [s] also when speaking English. Such L1 transfer would be useful for forensic speech science, as it would allow for the inclusion of these segments in cross-linguistic comparisons. According to Quen{\'e} et al. (2017), who looked into read speech [s] by L1 Dutch speakers with a relatively high proficiency of L2 English, different [s] realizations are found in L1 Dutch than in L2 English. This implies that [s] is not useful as a feature to perform cross-linguistic speaker comparisons. However, these same speakers have also been recorded producing spontaneous speech, which may be considered more representative for forensic casework data and may evoke less formal language use. Hence, this study investigates the language-dependency of [s] in spontaneous speech. The language-dependency of [s] was evaluated by comparing the Centre of Gravity (CoG), its standard deviation (SD), and spectral tilt of [s] productions in the same speakers{\textquoteright} L1 Dutch and L2 English (N = 45). Analyses are underway and will be presented at the conference. References Flege, J. E. (1995). Second language speech learning: Theory, findings, and problems. Speech perception and linguistic experience: Issues in cross-language research, 92, 233-277. Quen{\'e}, H., Orr, R., \& van Leeuwen, D. (2017). Phonetic similarity of/s/in native and second language: Individual differences in learning curves. Journal of the Acoustical Society of America, 142(6), EL519-EL524. }, author = {Meike de Boer and Willemijn Heeren and Pierce-Melly, Sophie} } @article {485, title = {Over de herkenning van (licht) gereduceerde woorden {\textendash} het suffix -en in het Vlaams en het Nederlands}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Tijdens natuurlijke conversaties worden woorden vaak korter uitgesproken dan hun canonieke vorm doet vermoeden. Zo wordt bijvoorbeeld het Nederlandse suffix -en [-ən], wat kenmerkend is voor de infinitief, vaak als [-ə] uitgesproken [1]. Gewoonlijk herkennen luisteraars frequente woorden sneller dan minder frequente woorden, maar recent onderzoek toont aan dat hoewel gereduceerde woorden het meest frequent zijn, luisteraars de canonieke vorm minstens even snel herkennen [2]. Het Nederlands biedt een interessant testgeval om de invloed van frequentie en canoniciteit in woordherkenningsproces te evalueren. In de spontane spraak is de gereduceerde vorm [-ə] van -en frequenter in Nederland dan in Vlaanderen [3]. De voorspelling is dan dat zowel Nederlanders als ook Vlamingen goed in het herkennen van de canonieke vorm zijn maar Vlamingen wat sneller de canonieke vorm zullen herkennen omdat voor hen canoniciteit en frequentie aligneren. Dit werd getest door een auditieve lexicale decisietaak met 45 deelnemers uit Nederland en 40 deelnemers uit Vlaanderen. Aan hen werd gevraagd om naar 348 bestaande en nietbestaande woorden in de korte frase {\textquotedblleft}X bestaat{\textquotedblright} te luisteren waaronder 188 woorden met -en. Daarbij werd de helft van de woorden met het suffix -en ingekort gepresenteerd. Het resultaat toont aan dat beide groepen sneller op de canonieke vorm dan op de gereduceerde vorm reageerden. Het voordeel van de canonieke vorm was even groot zowel voor Nederlandse alsook Vlaamse luisteraars ook al komt de gereduceerde vorm vaker in de spreektaal in Nederland voor. Dit laat zien dat het voordeel van de canonieke vorm voor het Nederlands geldt, onafhankelijk van de fonologische variatie van spreektaal. Referenties [1] Van de Velde, H. \& van Hout, R. (2000). N-deletion in reading style. Linguistics in the Netherlands, 17(1), 209-219. [2] Sumner, M., Kim, S. K., King, E., \& McGowan, K. B. (2014). The socially weighted encoding of spoken words: a dual-route approach to speech perception. Frontiers in Psychology, 4, 1015. [3] Van de Velde, H. \& van Hout, R. (2003). De deletie van de slot-n. Nederlandse Taalkunde 8(2), 93-114. }, author = {Weihs, Nina and Eva Reinisch and Holger Mitterer} } @article {488, title = {Phonetic alignment of /x/ in interaction}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Alignment is the process of adapting speech to another interlocutor{\textquoteright}s speech. We investigated phonetic alignment to two variants of the Dutch /x/, also known as the {\textquotedblleft}hard g{\textquotedblright} or {\textquotedblleft}soft g{\textquotedblright}. We set out to explore whether phonetic alignment is caused only by short-term priming, long-term priming or by speakers remembering features of the speech of their interlocutor. Phonetic alignment effects are usually found in rather controlled environments (e.g., shadowing tasks; Pardo et al., 2013) or using an AXB assessment (Pardo, 2006). We studied this phenomenon in less constricted environments and using automatised measurements. Participants interacted with two different confederates, one producing a {\textquotedblleft}hard g{\textquotedblright} and one a {\textquotedblleft}soft g{\textquotedblright} in a sentence completion task. Participants completed a total of 268 sentences. In a pre-test, participants first completed sentences by themselves. Then, they interacted with Confederate 1 in Round 1, with Confederate 2 in Round 2, and again with Confederate 1 in a so-called inter-test and in Round 3, and lastly by themselves again in the post-test. We investigated the duration (van der Harst, van de Velde \& Schouten, 2007) and Centre of Gravity of the 15085 fricatives of 36 participants. We investigated three different predictors: the last produced /x/ of the confederate, the average of the ten last produced /x/s of the confederate and the average of all heard /x/s. None of the predictors showed significant effects. Descriptive analyses showed tremendous variation among speakers, likely unrelated to alignment. We conclude that alignment at the sound level is not as clear as previously demonstrated in less ecologically valid studies. References Pardo, J. S. (2006). On phonetic convergence during conversational interaction. The Journal of the Acoustical Society of America, 119(4), 2382-2393. Pardo, J. S., Jordan, K., Mallari, R., Scanlon, C., \& Lewandowski, E. (2013). Phonetic convergence in shadowed speech: The relation between acoustic and perceptual measures. Journal of Memory and Language, 69(3), 183-195. Van der Harst, S., Van de Velde, H., \& Schouten, B. (2007). Acoustic characteristics of Standard Dutch. age, 22(40), 45-60. }, author = {Lotte Eijk and Schriefers, Herbert and Mirjam Ernestus} } @article {495, title = {Phonetic contrast between error and correct target is a major factor in determining whether segmental errors are detected "early", "late", or not at all}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {In self-monitoring for speech errors, some segmental speech errors are detected "early", i.e. before articulation is initiated, and others "late", i.e. after articulation has started, and others again are detected not at all. What causes these differences in detecting speech errors? We hypothesize that detection of errors that are similar to the correct target takes longer than detection of errors that are dissimilar. We also hypothesize that the time available for error detection in internal speech is limited. If this time is exceeded before an error is detected, self-monitoring gets a second chance during or after articulation. If also the time available for this second stage of error detection is exceeded, then the error remains undetected. From these hypotheses we predict that relatively more "dissimilar" than "similar" segmental errors are detected before articulation, and also that relatively more "similar" than "dissimilar" errors remain undetected. To test these hypotheses, we have assessed, in data obtained in two earlier published SLIP experiments, the relative frequencies of repaired and unrepaired segmental speech errors that differ systematically in strength of phonetic contrast with the correct target. Results show that indeed a major factor affecting the distribution of errors over "early", "late" and "undetected" is the strength of phonetic contrast between two competing response candidates.}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {490, title = {Prosodic expression of sarcasm in L2 English after explicit training}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Sarcasm occurs frequently in everyday interactions and is typically expressed via prosody. However, speakers usually experience difficulty with expressing sarcasm prosodically in a second language. Recent research by Smorenburg and co-authors has shown that short prosodic training can already improve perceived sarcasm in Dutch learners of English (L2E learners). It remains to be investigated what exactly have changed in the prosodic production after training. In this study, we analysed the production of sarcastic prosody by L2E learners (N =12) before and after the training in Smorenburg et al.{\textquoteright}s study. The production data were elicited via a simulated telephone conversation task in which the participants were prompted to give a sarcastic response to a friend{\textquoteright}s remark. Mean pitch, maximum, minimum pitch, duration were extracted from the key word of each response (e.g. {\textquoteleft}healthy{\textquoteright} in {\textquoteleft}She is a healthy lady) using ProsodyPro and were subsequently analysed using linear mixed-effect modelling. We have found that prosodic improvement depended on utterance type and gender. The training helped L2E learners to lengthen duration in declaratives and tag-questions but not in wh-exclamatives and lower mean pitch and minimum pitch across utterance types to sound more sarcastic, similar to native speakers of English. Male L2E learners lengthened duration to a larger extent than female L2E learners, similar to female native speakers of English; female L2 learners did not lower mean pitch more than male L2 learners, different from female native speakers of English. We will discuss the nature of the prosodic improvement: L1 transfer and/or L2 learning. }, author = {Zandee, Femke and Jansen, Nelleke and Laura Smorenburg and Aoju Chen} } @article {484, title = {An exploratory study into interspeaker variation in creaky voice in Dutch}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Creaky voice occurs regularly in speech, although we are usually unaware of it. In a language such as Dutch, creaky voice is not phonemic but nevertheless often occurs as a result of changes in subglottal air pressure throughout an utterance. It has been reported that there appears to be a large amount of interspeaker variation in creaky voice (Bőhm \& Shattuck-Hufnagel, 2009; Kuang, 2017; Dallaston \& Docherty, 2020), but this has typically been observed incidentally and there have only been a few studies dedicated to characterising this variation. In the current study, we have examined the conversational speech of 30 men recorded in the Corpus of Spoken Dutch (Oostdijk, 2000). Data were manually annotated for occurrences of creaky voice and each creaky interval was categorised as one of several subtypes of creaky voice based on the degree of periodicity (cf. Keating et al., 2015). Each annotated interval was also analysed acoustically with measures of f0, cepstral peak prominence, and measures of spectral balance. Our results show that interspeaker variation in creaky voice is indeed considerable. The frequency with which creaky voice occurs ranges from very low in some speakers to notably high in others. Speakers also use the subtypes of creaky voice in different proportions. Furthermore, there are interspeaker differences in the acoustic parameters, which allows for above-chance speaker classification by means of linear discriminant analysis. These results suggest that measures of voice quality may be useful in speaker discrimination applications, such as forensic voice comparisons. References Bőhm, T., \& Shattuck-Hufnagel, S. (2009). Do Listeners Store in Memory a Speaker{\textquoteright}s Habitual Utterance-Final Phonation Type? Phonetica, 66, 150{\textendash}168. Dallaston K., \& Docherty G. (2020). The quantitative prevalence of creaky voice (vocal fry) in varieties of English: A systematic review of the literature. PLoS ONE, 15(3): e0229960. Keating, P., Garellek, M., \& Kreiman, J. (2015). Acoustic properties of different kinds of creaky voice. In Proceedings of the 18th International Congress of Phonetic Sciences, August 10-14, Glasgow, Scotland, 2015. Kuang, J. (2017). Covariation between voice quality and pitch: Revisiting the case of Mandarin creaky voice. The Journal of the Acoustical Society of America, 142, 1693{\textendash}1706. Oostdijk, N. (2000). Het Corpus Gesproken Nederlands. Nederlandse Taalkunde, 5, 280{\textendash}284. }, author = {van Hugte, Thom and Willemijn Heeren} } @article {486, title = {The influence of task type and personality on EFL learners{\textquoteright} oral fluency}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Main Research Questions: 1) What are the contrasts in utterance and perceived fluency of low proficiency L2 English students between a dialogic and a monologic task type? 2) To what extent is there a contrast in fluency between speakers as a consequence of performance features including anxiety, dominance and involvement? Fluency is a term often used in relation to second language (L2) speaking proficiency. In general terms, most people have a notion of what the concept of fluency entails, but the literature shows that there is no consensus on what precisely the concept might be (Pinget, Bosker \& de Jong, 2014). In the last decade, a growing number of studies have aimed at dissecting fluency by studying the difference between utterance and perceived fluency (e.g. Pr{\'e}fontaine, 2010; Bosker, Pinget, Quene, Sanders, \& de Jong. 2012), developing PRAAT scripts to measure fluency (de Jong et al. 2021) and distinguishing monologic from dialogic speech fluency (Tavakoli, 2016). This study aims to further advance our understanding of factors affecting L2 fluency. Specifically, we focus on the effect of task type and aspects of speaker personality. The study largely consists of two phases. Firstly, both the monologic and dialogic speech fluency of 33 third level L2 English students who did not pass or barely passed (10/20) an English speaking proficiency examination was analysed to instrumentally measure their utterance/objective fluency. Secondly, the ratings of 41 assessors who listened to 20 short audio tracks each were analysed and compared to the objective fluency results. The group assessing the tracks consisted of three groups of listeners: native English speakers, EFL higher education students, and bilingual speakers of Dutch and English who did not study languages at university or in college. Results showed that in terms of objective fluency there was no positive effect on utterance fluency nor on perceived/subjective fluency for dialogic speech compared to monologic speech, contradicting previous research. Furthermore, perceived fluency results only partly correlated with utterance fluency results and listener groups seemed to differ in what manner they rated L2 speakers. Results also showed correlation between aspects of personality such as Foreign Language Anxiety and involvement, and speaking fluency. Further research using different tasks may further contribute to our understanding of fluency and its different components. Additionally, including open questions in the questionnaire would enable us to examine listeners{\textquoteright} ratings in a qualitative manner. Sources Bosker, H; Pinget, A; Quen{\'e}, H; Sanders, T; de Jong, N. (2012). What makes speech sound fluent? The contributions of pauses, speed and repairs. Language Testing, 30(2), 159 {\textendash} 175. De Jong N. Pacilly J. Heeren W. (2021). PRAAT scripts to measure speed fluency and breakdown fluency in speech automatically. Assessment in Education: Principles, Policy \& Practice. Pinget, A. Bosker, H. Quen{\'e}, H. de Jong, N. (2014). Native speakers{\textquoteright} perceptions of fluency and accent in L2 speech. Language Testing, 31(3), 349-365. Pr{\'e}fontaine, Y. (2010). Differences in Perceived Fluency and Utterance Fluency across Speech Elicitation Tasks: A Pilot Study. Lancaster University Postgraduate Conference in Linguistics \& Language Teaching 2010, 134-150. Tavakoli, P. (2016). Fluency in monologic and dialogic task performance: Challenges in defining and measuring Fluency. International Review of Applied Linguistics in Language Teaching, 54(2), 133-150. }, author = {Van Mossevelde, Tom and Simon, Ellen and Chan, David} } @article {498, title = {A speech recognizer for subtitling Frisian/Dutch council meetings}, year = {2021}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Late 2020, the Fryske Akademy was granted a project to develop a subtitling service for council meetings of Frisian municipalities. The project was financed by the Province of Frysl{\^a}n, the {\textquotedblleft}Wetterskip{\textquotedblright} and a number of Frisian municipalities. An existing speech recognizer for Frisian named FAME!, was repurposed for a new application domain: council meetings (FAME! was trained and tested on radio broadcasts only). The council meeting domain is difficult for speech recognition because of the acoustic background noise, speaker overlap and the jargon language typically used in council meetings. To train the new recognizer, we used the radio broadcast materials utilized for the FAME! recognizer and in addition, newly created manually transcribed audio recordings of council meetings from several Frisian municipalities. The council meeting audio recordings consist of approximately 49 hours of speech, with 26 hours of Frisian speech and 23 hours of Dutch speech. Further, we obtained texts in the domain of council meetings, namely council meeting minutes and council policy documents containing approximately 11 million words; 1.1 million Frisian words and 9.9 million Dutch words. We describe the methods used to train the new recognizer, report the observed word error rates, and perform an error analysis on remaining errors. }, author = {Henk van den Heuvel and Bentum, Martijn and Louis ten Bosch and Wills, Simone} } @article {481, title = {About good and bad prosody}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Not all speakers are equally good. For instance, at a scientific conference where one can witness many different speakers, there typically tend to be presenters who are engaging, whereas others are boring. The difference in speaking style between good and bad speakers may be partly related to differences in the way they supplement their utterances with appropriate prosodic structures. In this talk, I will discuss research we did on the extent to which the goodness of a speaking style depends on both functional and formal properties of prosody. The first part of my talk will zoom in on the extent to which quality differences relate to differences in pitch accent distribution. The second part discusses joint work with Constantijn Kaland on the perceived quality of variation in speech rhythm.}, author = {Marc Swerts} } @article {477, title = {And now for something completely different{\textellipsis}}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {I will discuss a recent court case in the Netherlands, in which forensic phonetic expertise was called upon to help settle a dispute over trade name infringement. In 2014, Dutch brewer Grolsch launched a beer called Kornuit /kɔr'n{\oe}yt/. Recently, supermarket chain Lidle released a beer under the name Kordaat /kɔr'da:t/. I was asked by Grolsch to shed light on the phonetic similarity between the brand names. Using the Levenshtein distance metric (Levenshtein 1966, Heeringa 2004), the phonetic difference between the names is 29 percent. To show that the similarity between the brand names was very likely to be intentional rather than accidental (as Lidle would have it), I established the statistical distribution of the similarity of Dutch word pairs. I selected the 3000 most frequent mono-morphemic content words from Baayen et al. (1995) and computed the Levenshtein distance for all 4,498,500 non-identical word pairs (using Gabmap software, Leinonen et al. 2016). Distances <= 29\% occur in .5 percent of the word pairs, which arguably shows that the name Kordaat was not accidentally chosen by Lidl. In my talk I will explain the Levenshtein metric and motivate the decisions made to obtain the distribution of distances between Dutch word pairs. References Baayen, R. H., Piepenbrock, R. \& Gulikers, L. (1995). CELEX2 LDC96L14. Web Download. Philadelphia: Linguistic Data Consortium. Heeringa, W. J. (2004). Measuring dialect pronunciation differences using Levenshtein distance. Doctoral dissertation, University of Groningen. Leinonen, T., {\c C}{\"o}ltekin, {\c C}. \& Nerbonne, J. (2016). Using Gabmap. Lingua, 178, 71-83. Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady 10(8), 707-710. }, author = {Vincent van Heuven} } @article {475, title = {Automatic Analysis of Speech Prosody in Dutch}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {In this talk we present the first publicly available tool for automatic analysis of speech prosody (AASP) in Dutch. Incorporating the state-of-the-art analytical frameworks, AASP enables users to analyze prosody from two different theoretical perspectives. Structurally, AASP analyzes prosody in terms of prosodic events within the auto-segmental metrical framework, hypothesizing prosodic labels in accordance with Transcription of Dutch Intonation (ToDI). Holistically, by means of the Functional Principal Component Analysis (FPCA) AASP generates mathematical functions that capture changes in the shape of a pitch contour. Regarding ToDI, AASP performs four tasks including pitch accent detection, pitch accent classification, prosodic boundary detection, and prosodic boundary tone classification. Using SVM, AASP performs with accuracy comparable to similar tools for other languages for pitch accent detection, prosodic boundary detection, and prosodic boundary tone classification. Notably, we have found that by combining functional features extracted from FPCA with conventional acoustic features, AASP can attain a higher accuracy for pitch accent classification (76.87\%) than AuToBI for English using conventional acoustic features (71.6\%). Regarding FPCA, AASP outputs the weights of principal components that capture core variations in the shape of pitch contours in a .csv file, which can be directly used for further statistical analysis. Published as a Docker container, AASP can be set up on various operating systems in only two steps. Moreover, the tool is accessed through a graphic user interface, making it accessible to users with limited programming skills. It has also the potential to be adapted for prosodic analysis in other languages. }, author = {Hu, Na and Janssen, Berit and Hanssen, Judith and Carlos Gussenhoven and Aoju Chen} } @article {472, title = {Automatic assessment of transcript accuracy for speech intelligibility studies}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {In the field of speech perception, many studies assess the intelligibility of spoken stimuli by means of verbal repetition ({\textquoteleft}repeat back what you hear{\textquoteright}) or transcription tasks ({\textquoteleft}type out what you hear{\textquoteright}). The intelligibility of a given stimulus is then often expressed in terms of percentage of words correctly reported from the target stimulus. Yet scoring the participants{\textquoteright} raw transcripts for words correctly identified from the target stimulus is a time-consuming task, and hence resource-intensive. Moreover, there is no consensus on what protocol to use for the human scoring, limiting the reliability of human scores. The present paper evaluates various forms of {\textquoteleft}fuzzy string matching{\textquoteright} between participants{\textquoteright} responses and target sentences as automated metrics of listener transcript accuracy. Fuzzy string matching is identified as a consistent, efficient, and accurate method for automated assessment of listener transcripts, as evidenced by high correlations with human-generated scores (highest r = 0.94) and a strong relationship to acoustic markers of speech intelligibility. Thus, fuzzy string matching provides a practical tool for speech scientists, allowing fast and reliable assessment of listener transcript accuracy in large-scale speech intelligibility studies.}, author = {Hans Rutger Bosker} } @article {474, title = {Binnensprekervariatie in de uitspraak van /m/ in verschillende talen}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {In forensisch zaakonderzoek komt steeds vaker spraakmateriaal in verschillende talen voor. Dit roept de vraag op of er taalonafhankelijke sprekerspecifieke kenmerken zijn. De bilabiale nasaal /m/ is een van de meest sprekerspecifieke segmenten, wat wordt toegeschreven aan de rigiditeit van de neusholte [1]. Tegelijkertijd is de mondholte ook betrokken bij de productie en heeft de tong daarbij geen vaste positie [2]. Hierdoor is er ruimte voor binnensprekervariatie, die mogelijk taalafhankelijk is. Wij onderzochten in hoeverre de realisatie van /m/ verschilt tussen de eerste (L1) en tweede taal (L2) van meertalige sprekers. Er zijn monologen gebruikt van 53 vrouwelijke sprekers uit D-LUCEA [3], in hun L1 Nederlands en L2 Engels. De sprekers waren eerstejaarsstudenten van University College Utrecht en hadden een bovengemiddelde beheersing van het Engels. De nasalen werden gesegmenteerd in Praat en geanalyseerd op verschillende akoestische kenmerken. De resultaten laten zien dat de verschillen tussen de realisaties in de L1 en L2 minimaal zijn. Alleen de tweede nasale formant (N2) liet een taalverschil zien: hoger in de L2 dan in de L1. Sprekers verschilden in de mate waarin ze deze verschuiving vertoonden en voor sommigen ging het resultaat in tegengestelde richting. Hoewel de gevonden L1-L2 verschillen in de uitspraak van de /m/ klein zijn, lijkt de bilabiale nasaal enigszins taalafhankelijk. De N2 wordt gerelateerd aan de mond- en neusholte [4], wat duidt op een aanpassing in de productie. Rekening houdend met deze aanpassing zou de /m/ bruikbaar kunnen zijn in meertalige forensische sprekervergelijkingen. Vervolgstappen zijn om dit te onderzoeken met sprekerclassificatie. Referenties [1] Rose, P. (2002). Forensic speaker identification. In: J. Robertson (Ed.), Taylor \& Francis Forensic Science Series. London: Taylor \& Francis (pp. 125-173). [2] Su, L., Li, K. -P., \& Fu, K. S. (1974). Identification of speakers by use of nasal coarticulation. The Journal of the Acoustical Society of America, 56(6), 1876{\textendash}1883. [3] Orr, R., \& Quen{\'e}, H. (2017). D-LUCEA: Curation of the UCU Accent Project data. In: J. Odijk \& A. van Hessen (Eds.), CLARIN in the Low Countries. Berkeley: Ubiquity Press (pp. 177-190). [4] Fant, G. (1970). Acoustic theory of speech production (2nd ed.). The Hague: Mouton. }, author = {Meike de Boer and Willemijn Heeren} } @article {478, title = {Contour clustering: a tool for exploring prototypical f0 patterns}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetiek}, address = {online}, abstract = {This work presents an automatic data-driven analysis for describing prototypical f0 patterns. This is particularly suitable as an exploratory tool in initial stages of prosodic research and language description. The approach has several advantages over traditional ways to investigate prosody and intonation, which are sometimes based on auditory impressions or limited empirical research to support phonological claims. Contour clustering is applicable to spontaneous and scripted speech of any language. There is no restriction as to which prosodic domain (intonation unit, (intermediate) phrase, word, syllable) can be investigated and there is limited need for annotation prior to analysis. The core of this approach is a cluster analysis on timeseries of f0 measurements and consists of two scripts (Praat and R). Graphical user interfaces can be used to perform the analyses and speaker variability can be accounted for. As determining the number of clusters is a key part of the analysis, graphical feedback (plots) is provided for each clustering round (example in Figure 1). After cluster analysis, Praat textgrids can be generated with the cluster number annotated for each individual contour in the data. Although further confirmatory analysis is still required, the outcomes provide useful and unbiased directions for any investigation of prototypical f0 contours based on their acoustic form. These features make the approach particularly useful for language documentation, where the description of prosody is often lacking.}, author = {Constantijn Kaland} } @article {479, title = {Forced Alignment: een krachtig hulpmiddel voor spraakonderzoek}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetiek}, address = {online}, abstract = {In veel onderzoek aan spraak wordt gebruik gemaakt van Forced Alignment. Bij een Forced Alignment wordt de orthografische transcriptie van een bepaald audiofragment "opgelijnd" met dat fragment. Deze oplijning houdt in dat het akoestische begin en einde van elk woord zo precies mogelijk worden gezocht als ankerpunten in de audio. En dit oplijnen geldt niet alleen de woorden maar ook de eventuele stiltes voor, tussen en na de woorden. Als resultaat van de Forced Aligner weet je precies hoe lang woorden en stiltes duren. Deze kennis is van groot belang bij bijvoorbeeld onderzoek naar sprekervariatie, naar uitspraakvariatie, spreektempo, en voor het mogelijk maken van het semi-automatisch doorzoeken van audiobestanden via geschreven queries. Bij het CLST in Nijmegen is in samenwerking met de Stichting Open Spraaktechnologie een aligner gebouwd waarin niet alleen woorden maar ook de spraakklanken in elk woord worden opgelijnd met een audiofile. De resultaten op woord- en foonniveau komen tegelijkertijd beschikbaar als twee tiers in een Praat textgrid file. Daarnaast is het mogelijk de aligner een eigen woordenboek mee te geven waarin bijvoorbeeld specifieke woorden kunnen worden voorzien van afwijkende uitspraakrealisaties. Dat maakt onderzoek aan uitspraakvarianten mogelijk. In de presentatie gaan we in op de functionaliteit van de aligner in een aantal realistische toepassingen, en op de design filosofie van de forced alignment webservice. }, author = {Arjan van Hessen and Louis ten Bosch} } @article {480, title = {Listeners learn and predict talker-specific prosodic cues in speech perception}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {One of the challenges in speech perception is that listeners must deal with considerable segmental and suprasegmental variability in the acoustic signal due to differences between talkers. Most previous studies have focused on how listeners deal with segmental variability. In this EEG experiment, we investigated how listeners track talker-specific usage of suprasegmental cues to lexical stress to correctly recognize spoken words. In a 3-day training phase, Dutch participants learned to map non-word minimal stress pairs onto different object referents (e.g., USklot means {\textquotedblleft}lamp{\textquotedblright}; usKLOT means {\textquotedblleft}train{\textquotedblright}). These non-words were produced by two male talkers. Critically, each talker only used one suprasegmental cue to signal lexical stress (e.g., Talker A only used F0, Talker B only amplitude). We expected participants to learn which talker used which cue to signal stress. In the test phase, participants indicated whether spoken sentences including these non-words were correct ({\textquotedblleft}The word for {\textquoteleft}lamp{\textquoteright} is...{\textquotedblright}). We recorded participants{\textquoteright} response times and EEG patterns, targeting an ERP related to phonological prediction: the N200. We found that participants were slower to indicate that a stimulus was correct if the non-word was produced with the unexpected cue (e.g., Talker A using amplitude). That is, if in training Talker A used F0 to signal stress, participants experienced a mismatch between predicted and perceived phonological word-forms if, at test, Talker A unexpectedly used amplitude as cue to stress. This illustrates talker-specific prediction of suprasegmental cues, picked up through perceptual learning in training. In contrast the N200 amplitude, was not modulated by the mismatch. Theoretical implications for these results are discussed.}, author = {Severijnen, Giulio G.A. and Hans Rutger Bosker and Piai, Vitoria and James M. McQueen} } @article {476, title = {The Perception-Production Link in Learning Words with Lexical Tone}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {Although it is commonly agreed that speech acquisition in both perception and production are closely intertwined, performance in one modality may not always mirror performance in another. In this study, we present new evidence for the perception-production link by looking at L2 acquisition of lexical tone. We trained a group of English (n=21) and Mandarin Chinese (n=20) speakers to learn a set of 16 words in a tonal pseudolanguage made up of four segments (/jar/, /jur/, /nɔn/ and /lɔn/) and four lexical tones (rising, falling, mid-level, and low-level). After a two-day training session, subjects were tested on their word identification and word production accuracy to assess word learning in both modalities. Normalised f0 data were obtained to determine tone production accuracy. We also accounted for participants{\textquoteright} extralinguistic characteristics, such as musical background and working memory. We found that accuracy, improvement in their performance, and types of errors in the two modalities were highly correlated. Both in listening and speaking, most word recall errors were purely tonal in nature (i.e. often the words{\textquoteright} segmental but not their tonal properties were retained), but Mandarin Chinese participants were much more likely than English participants to confuse level tone contrasts, which do not exist in the Mandarin tone inventory. Crucially, these error patters occurred both in word identification and production, with remarkable similarities between both domains. This study adds to a currently limited body of work on the perception-production link in second language tone-learning, which has mainly focused on perception and production at the pre-lexical level. We show that the perception-production correlation is largely maintained at the lexical level. }, author = {Lam{\'e}ris, Tim and Brechtje Post} } @article {473, title = {Prosodic phrasing of short left-dislocated adverbial adjuncts in Brazilian Portuguese}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {online}, abstract = {We explore the prosodic configuration of short left-dislocated adverbial adjuncts in Brazilian Portuguese (BP), as {\textquotedblleft}Amanh{\~a}{\textquotedblright} in {\textquotedblleft}Amanh{\~a}, nosso juiz decidir{\'a} o caso{\textquotedblright} {\textendash} for the English {\textquotedblleft}Tomorrow our judge will adjudicate the case{\textquotedblright}. Specifically, we discuss how the prosodic configuration of these constituents changes depending on whether they represent neutral or topicalized adverbial adjuncts. Our hypothesis is that the short left-dislocated adverbial adjuncts induces an intonational phrase (IP) boundary when it is topicalized, but not when it occurs after a neutral adjunct. We analyzed speech recordings from thirteen BP speakers (all female, native speakers of S{\~a}o Paulo State variety of BP), and measured a set of phonetic cues that have previously been associated with IP boundaries: pause, duration and F0 variation. Our speakers were asked to read (three times) a set of utterances with left-dislocated adverbial adjuncts. Adverbial adjuncts utterances were included in broader contexts that were semantically manipulated to favor both neutral and topicalized readings. The contexts were randomized and mixed with distractors. The results confirm that the prosodic phrasings of the short adverbial adjuncts depended on the context. Topicalized dislocated adverbs appear to differ from neutral ones in that: (i) they are more frequently marked by the occurrence of final boundary tones (H\% and L\%); (ii) the pauses post adjunct are more frequent in topicalized contexts, and also appear to be longer on average than in neutral contexts (topicalized: 95 ms; neutral ones: 39ms) and (iii) preboundary lengthening occurs more consistently in topicalized adverbial adjuncts. 1 S{\~a}o}, author = {Carvalho, Tainan and Tenani, Luciani and Marc Swerts} } @article {458, title = {Does short-term phonetic accommodation lead to long-term sound change? Not directly}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {The change-by-accommodation model ({\textquoteleft}CAM{\textquoteright}; [1,2]) suggests that sound change is caused by phonetic accommodation ([3,4]). This is tested empirically via longitudinal experiments using three on-going sound changes in Dutch: the diphthongization of /e:,{\o}:,o:/ ([5,6]), the blocking of diphthongs before coda /l/ ([6,7]), and the gliding of coda /r/ to [ɹ] ([8]). These have effectively completed in the Netherlands, but have not affected Flanders. This makes it possible to perform empirical studies of the CAM via sociolinguistic migrants ({\textquoteleft}SMs{\textquoteright}): Flemish speakers of Dutch who migrated to the Netherlands to start their university studies. Over the course of nine months, ten SMs and ten controls participated in three sessions of experiments focused on their production and perception of the three sound changes. The low number of participants is compensated by a high number of experimental items combined with the repeated-measures design, resulting in sufficient power. Results show robust differences between the groups, that do not convincingly diminish over time. This is problematic for the CAM, especially because a follow-up cross-sectional experiment over multiple years{\textquoteright} time did find changes. Since phonetic accommodation is known to be extremely rapid ([3,4]), the result that nine months were not enough, but decades are, casts doubt on the change-by-accommodation model. References [1] Auer, Peter, \& Hinskens, Frans. 2005. The role of interpersonal accommodation in a theory of language change. Dialect change: Convergence and divergence in European languages, 335. [2] Sonderegger, Morgan. 2012. Phonetic and phonological dynamics on reality television. Doctoral dissertation, Chicago. [3] Pardo, Jennifer S. 2006. On phonetic convergence during conversational interaction. The Journal of the Acoustical Society of America, 1194, 2382{\textendash}2393. doi:10.1121/1.2178720 [4] Maye, Jessica, Aslin, Richard N, \& Tanenhaus, Michael K. 2008. The weckud wetch of the wast: Lexical adaptation to a novel accent. Cognitive Science, 323, 543{\textendash}562. doi:10.1080/03640210802035357 [5] Van de Velde, Hans. 1996. Variatie en verandering in het gesproken Standaard-Nederlands. Doctoral dissertation, Nijmegen. doi:2066/146159 [6] Voeten, Cesko Cis. 2015. The interaction between the segmental and the prosodic phonology in the midst of an on-going sound change. resolving a contradiction in the synchronic phonology of Dutch. Master{\textquoteright}s thesis, Nijmegen. Retrieved from https://theses.ubn.ru.nl/handle/123456789/628 [7] Berns, Janine, \& Jacobs, Haike M G M. 2012. A first glance at the role of length in production and perception of diphthongs before Dutch coda l. Linguistics in the Netherlands, 291, 15{\textendash}26. doi:10.1075/avt.29.02ber [8] Sebregts, Koen. 2015. The sociophonetics and phonology of Dutch /r/. Doctoral dissertation, Utrecht. doi:1874/306415 }, author = {Voeten, Cesko} } @article {463, title = {Keynote: Phonetic input under experimental control in {\textquotedblleft}real{\textquotedblright} conversations: The ventriloquist paradigm}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {During conversations, interlocutors adapt to each other in pronunciation and perception. A major challenge for the study of this phonetic accommodation and perceptual adaptation is the intrinsic impossibility to control the phonetic input that participants are exposed to in dialogue. The number of times participants hear certain speech sounds, the phonetic contexts in which these sounds occur, and their specific realizations, which affect the extent to which participants accommodate their pronunciation and adapt their perception to their interlocutor, thus vary across participants. The Ventriloquist paradigm (Felker, Troncoso-Ruiz, Ernestus, \& Broersma, 2018) has been developed to tackle this problem. It enables the study of sound learning in dialogue, while allowing full control over the phonetic detail of the input that participants are exposed to. The Ventriloquist paradigm has been developed to investigate phonetic accommodation and perceptual learning in an ecologically valid yet maximally controlled way. Participants take part in a dialogue which they believe to be genuine; in fact, however, their real-life interlocutor is a confederate whose speech is not just {\textquoteleft}scripted{\textquoteright} (as in the confederate scripting task for the study of syntactic accommodation), but fully prerecorded. This guarantees control over all characteristics of the speech input, including the number of times the participant hears certain speech sounds, their phonetic contexts, and their phonetic realization. The set-up is fully tuned to upholding the illusion that the confederate is actually speaking with the participant. The confederate sits opposite the participant, face briefly hidden when (s)he {\textquotedblleft}speaks{\textquotedblright}. Participants hear the prerecorded speech over closed headphones. In addition to the standard input, to facilitate a smooth flow of the conversation, the confederate can play prerecorded non-verbal interaction markers and stop-gap replies to any unanticipated remarks or questions from the participant. The new paradigm thus reconciles ecological validity with experimental control for the study of phonetic accommodation in dialogue. References Felker, E., Troncoso-Ruiz, A., Ernestus, M., \& Broersma, M. (2018) The ventriloquist paradigm: Studying speech processing in conversation with experimental control over phonetic input. The Journal of the Acoustical Society of America, 144, EL304-EL309. Doi: 10.1121/1.5063809.}, author = {Mirjam Broersma} } @article {461, title = {Left-right asymmetry in tongue-palate contact during speech}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Electropalatography (EPG) is an instrumental technique for depicting tongue-palate contact during speech. Published palatograms frequently show left-right asymmetry in the amount of tongue-palate contact. This could arise due to several factors, including the speaker{\textquoteright}s anatomy, handedness, and language lateralisation, as well as asymmetries in the electropalate manufacture. This study investigated the direction of asymmetry in two groups of speakers categorised according to handedness. Ten native speakers of English (5 left-handed, 5 right-handed) carried out various speech tasks, including sentence-reading and delivering a monologue. The sentence stimuli consisted of a phonetically balanced set of 460 semantically meaningful sentences (example: An official deadline cannot be postponed) taken from an online speech corpus (Wrench, 2019). The speech data were recorded while the speakers wore a custom-made electropalate with 62 electrodes. Left-right asymmetry in the EPG data was measured by calculating an index of asymmetry for each utterance. The index provided information about both the direction and size of the asymmetry. The main finding was that the direction of asymmetry was such that there was more extensive tongue-palate contact on the left-hand side in four out of five speakers in both handedness groups. This observation is not consistent with the hypothesis that handedness may be a causative factor. The finding of greater contact on the left-hand side is entirely consistent with research on lip opening during speech: Graves et al. (1982) carried out a series of observational experiments which indicated that 150 out of 196 participants (76\%) showed more lip contact on the left-hand side and greater lip separation on the right. It seems likely that the asymmetries in both of these articulatory mechanisms are caused by the same underlying principle {\textendash} for example, language lateralisation, which holds that in most speakers, the left hemisphere of the brain is language-dominant (Knecht et al. 2000). The presentation will discuss several possible mechanisms that could cause greater tongue-palate contact on the left-hand side. References Graves, R., Goodglass, H. \& Landis, T. (1982). Mouth asymmetry during spontaneous speech. Neuropsychologia 20, 371-381. Knecht, S., Dr{\"a}ger, B., Deppe, M. et al. (2000). Handedness and hemispheric language dominance in healthy humans. Brain 123, 2512-2518. Wrench, A. (2019). Mocha-Timit Multichannel Articulatory Database: English. http://www.cstr.ed.ac.uk/research/projects/artic/mocha.html. }, author = {Naomi Miller and Jo Verhoeven and Luc Daems and Carlos Reyes-Aldasoro} } @article {456, title = {Morphological effects on the acoustics of word-final /s/}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Previous research on English has shown that final /s/s in monomorphemic words are acoustically longer than /s/ suffixes, suggesting that morphology influences the articulation of segments (Plag, Homann, \& Kunter, 2017). The present study extends this line of research to Dutch by investigating the duration and spectral centre of gravity (CoG) of non-suffixal /s/ (e.g., kies) and plural /s/ (e.g., ski{\textquoteright}s) across both scripted and spontaneous speech registers in Dutch speech corpora. Models of the residualised measures showed significant interactions between register and morphological status for both duration and CoG. In conversational speech, non-suffixal /s/ was longer and had a higher CoG than plural /s/. In news broadcasts, only a durational effect was found, whereas read-aloud stories showed no morpho-acoustic effects whatsoever. These results replicate previous durational findings for English. Moreover, the additional spectral difference in conversational speech seems to reflect a general phonetic reduction of /s/ in plurals. However, the differences do not hold across scripted speech registers, suggesting a role for speech planning. References Plag, I., Homann, J., \& Kunter, G. (2017). Homophony and morphology: The acoustics of word-final s in English. Journal of Linguistics, 53(1), 181{\textendash}216. }, author = {Zee, Tim and Louis ten Bosch and Plag, Ingo and Mirjam Ernestus} } @article {459, title = {Perception of American English pure vowels by monolingual and bilingual Iranians}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {We present preliminary results of a study on the perceptual representation of the vowel system of (American) English of monolingual learners with Persian and bilingual learners with Persian and Azeri (a Turkic language) as their mother tongue(s). Such perception studies may be used to predict and explain specific problems in the pronunciation of the target language. The first experiment explores the mapping of the 11 English vowels onto the 6 Persian) or 9 Azeri vowels of the learners within the perceptual assimilation framework (PAM). The second experiment maps out the mental conception of the English vowels in terms of vowel quality and duration (and the possible interaction between the two) of the two leaner groups. For this second experiment we developed a set of 43 reference vowel sounds synthesized in a /m_f/ context at perceptually equal distances of 1 Bark along the height (F1, 7 steps) and backness/roundness (F2, 9 steps) dimensions (excluding 20 impossible combinations) synthesized with 100 and 200-ms steady-state durations. The same 20 monolingual and 20 bilingual Iranian learners of English participated in both experiments. We test the hypotheses that (i) the bilinguals will have more narrowly defined English vowels while (ii) both groups will fail to exhibit the vowel quality-by-duration interaction that is characteristic of native English listeners. }, author = {Vincent van Heuven and Afshar, Naeimeh} } @article {460, title = {Perception-production relationships in weighting phonetic cues of vowel contrasts}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {The present study set out to investigate phonetic cue weighting for phonological contrasts in production and perception. Specifically, we investigated the effect of normalization for individual perceptual acuity on the correlations between perceptual cue weighting and produced contrast. Our hypothesis was that production and perception are balanced based on just noticeable difference (JND) units. Participants were 47 young adult speakers of Dutch (age 19-29). The stimuli consisted of the Dutch /ɑ/-/a/ vowel contrast (which differs both in spectral properties and duration). Measurements comprised JND{\textquoteright}s for spectral and durational differences, perceptual cue-weighting, and produced differences in formants and duration. Cue-weighting and produced contrast were converted into a non-normalized- (value_formants/value_formants+value_duration) and a JND-normalized ratio ((value_formants/JND_formants)/(value_formants/JND_formants)+(value_duration/JND_duration)). The results showed a significant effect of normalization and a pattern of negative correlations (if a cue is more important in perception, it is expressed less in production) turned into a pattern of positive correlations after JND-normalization. These findings suggest that production and perception are balanced based on relative perceptual acuity. The driving mechanism thus could be summarized as egocentrism or subjective balance. If speakers are perceptually more sensitive to changes on a dimension, they express objectively smaller differences on that dimension. }, author = {Hayo Terband and Tom Lentz} } @article {467, title = {Poster: Auditory and Visual Cues in the Production and Perception of Mandarin Tones}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Which acoustic and visual cues can be used to classify Mandarin tones? Furthermore, are these cues the same for producers (i.e., the ground truth) and (tone-na{\"\i}ve) perceivers? To address these questions we video-taped four Mandarin speakers while they produced ten syllables with four Mandarin tones, i.e. forty words in two styles (natural and teaching), totaling 160 stimuli. The audiovisual stimuli were subsequently presented to 43 tone-na{\"\i}ve participants in a tone identification task. Basic acoustic and visual features were extracted. We used decision trees and machine learning to identify the most important acoustic and visual features for classifying the tones. These features were identified separately for the tones as produced by the four speakers and for the tones as identified by the 43 perceivers. Based on previous work, we expected that acoustic features would be more relevant than visual features, but that non-native perceivers might still benefit from the visual signal. The results showed that acoustic features were ranked higher than the visual features for tone classification, both for the classification of the intended and the perceived tone. However, tone perceivers did revert to the use of visual information in certain cases. So, while visual information does not seem to play a significant role in native speakers{\textquoteright} tone production, tone-na{\"\i}ve perceivers do sometimes consider visual information in their tone identification.}, author = {Yueqiao Han and Castro Ferreira, Thiago and Martijn Goudbeek and Maria Mos and Marc Swerts} } @article {465, title = {Poster: How consistently do speakers apply the Lombard speech clarification effect over time?}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {We investigated the acoustic-phonetic differences between speakers{\textquoteright} habitual speaking style and their speaking style in a condition where they were presented with loud noise and were also instructed to speak clearly (Lombard/clear style). Our research question was whether acoustic differences in articulation rate, pitch median, pitch range, and spectral tilt between habitual and Lombard speaking style would change over the course of a sentence list. Seventy-eight participants read out 48 sentences (order randomised) in both their habitual style, and in Lombard style. Results from linear mixed-effects models indicate that trial main effects were present in three of the four acoustic measures (i.e., articulation rate, pitch median, and spectral tilt). Across all four acoustic measures, sentence trial interacted with speaking style. More specifically, acoustic differences between habitual and Lombard speech increased over trials, which was sometimes due to speakers becoming {\textquoteleft}sloppy{\textquoteright} in their habitual style over trials, e.g., faster articulation rate and smaller pitch range. However, speakers also enhanced some of their Lombard style modifications over Lombard trials, e.g., higher pitch median and flatter spectral tilt. Thus, despite the higher vocal effort, speakers in our study were able to not only maintain but even enhance their Lombard speech modifications over trials. }, author = {Chen Shen and Esther Janse} } @article {464, title = {Poster: Regional variation in plosive realization in Danish}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {It is well-known among native speakers of Danish that there is regional variation in the realization of /t/ (which has long voicing lag and is highly affricated in the standard variety). In particular, speakers of the Northern Jutlandic variety has a /t/-variant that is well-known for having relatively short voice onset time (VOT) and {\textendash} as opposed to Standard Danish {\textendash} no affrication. Using a large corpus of traditional dialect speakers from 213 parishes spread across the Jutland peninsula and more than 17,000 segmented plosives, it is shown that such variation in stop realization is not limited to /t/, is not limited to Northern Jutland, and is not categorical. In fact, there is continuous variation across the peninsula in VOT of aspirated stops, as well as affrication. Furthermore, affrication cannot be predicted from VOT. Generalized additive mixed models are used to statistically model the geographical variation found in the data directly without resorting to e.g. normalization by region. These models show that patterns of variation found in the data do not cluster with traditionally defined dialect regions. The variation that can be attributed to linear predictors (phonetic or otherwise) is generally in line with existing literature on the topic.}, author = {Puggaard, Rasmus} } @article {468, title = {Poster: Self-interruptions and repetitions in spontaneous dialogues and their speaker-specificity}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Disfluencies, such as self-interruptions and repetitions, provide a window on the speech production and self-repair process. Most knowledge on these disfluency types comes from experimental tasks and monologues [e.g. 1,2]. However, most of everyday speech consists of spontaneous dialogues, a speech style which can be argued to differ markedly from experimentally elicited speech, because it requires more planning and aspects of dialogue management [e.g. 3,4]. In addition, little is known about inter-speaker variation in the production of disfluencies. As a result, theories on speech production and self-repair generally do not include variation. There is thus a gap in knowledge, leading to the following questions: (a) What is the distribution of self-interruptions and repetitions and their characteristics in spontaneous face-to-face dialogues and (b) how speaker-specific are they? These questions were investigated by annotating interruptions and self-repetitions and several of their characteristics in spontaneous Dutch face-to-face dialogues and analyzing their distributions, which were compared to those obtained in earlier work on other speech styles. Specific distributions for spontaneous speech were found, suggesting that disfluency behavior depends on speech style and allowing for an evaluation of several self-repair models and theories. Moreover, self-interruptions and repetitions showed inter-speaker variation and contained some speaker-specific information. References [1] Levelt, W. (1983). Monitoring and self-repair in speech. Cognition, 14(1), 41-104. [2] Levelt, W. (1984). Spontaneous self-repairs in speech: Processes and representations. In 10th International Congress of Phonetic Sciences (pp. 105-117). Foris. [3] Sacks, H., Schegloff, I., \& Jefferson, G. (1974). A simplest systematics for the organization of turn-taking in conversation. Language, 50, 696-735. [4] Schegloff, E. A. (2000). Overlapping talk and the organization of turn-taking for conversation. Language in society, 29(1), 1-63. }, author = {Sanne Ditewig} } @article {466, title = {Poster: The role of position in native and non-native filled pause acoustics}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {In this presentation, we expand our analysis as presented last year on native and non-native filled pauses, now considering the role of position in the utterance. Last year, based on claims by [1, 2] that non-native (L2) speakers would transfer their filled pauses directly from their native language (L1), we compared filled pauses in L1 Dutch and L2 English of female speakers, using linear mixed-effects models. We found that L2 speakers do not simply transfer their filled pauses from their L1 but change their formant realizations and the relative occurrences of um and uh. Prior studies showed that filled pauses in different positions of the utterance might have different characteristics [e.g. 3, 4]. To test whether the language effects we found could actually be (partly) explained by position effects, we included Position in the fixed parts of our models. We will show that while Position indeed affects filled pause realization, our cross-linguistic findings remain. Overall, results show that when analyzing filled pauses, contextual factors should be considered, including their language, form (uh or um), and position. References [1] Clark, H. H., \& Fox Tree, J. E. (2002). Using uh and um in spontaneous speaking. Cognition, 84(1), 73-111. [2] De Leeuw, E. (2007). Hesitation markers in English, German, and Dutch. Journal of Germanic Linguistics, 19(2), 85-114. [3] Hughes, V., Wood, S., \& Foulkes, P. (2016). Strength of forensic voice comparison evidence from the acoustics of filled pauses. Journal of Speech, Language and the Law, 23(1), 99-132. [4] Shriberg, E. E., \& Lickley, R. J. (1993). Intonation of clause-internal filled pauses. Phonetica, 50(3), 172-179.}, author = {Meike de Boer and Willemijn Heeren} } @article {469, title = {Poster: Trill Type and Articulatory Setting: an EPG study}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {A long-standing practice in Flemish drama schools has been to promote a tongue-tip trill realisation of the phoneme /r/. Thus, actors with a natural uvular trill have been required to learn to pronounce an alveolar trill. The rationale behind this, reportedly, is the assumption that the use of an alveolar trill triggers a shift in the articulatory setting towards a more anterior position, hence improving the actor{\textquoteright}s intelligibility. It is not clear what scientific principle this expectation is based on, but it is commonly mentioned in pronunciation manuals; see, for example, Eldar (1906:159), Oostveen (1936:35), van Amelsvoort \& Franssen (1960:65), Linthorst et al. (1968:64), Timmermans (2008:179), and Lacroix (2009:178). Electropalatography data were collected from a professional speaker of Belgian Dutch who uses a naturally-acquired uvular-r in everyday speech and a learnt tongue-tip trill in her professional work. Sentences in which either the first or last word began with /r/ were firstly read with an alveolar-r, and then all sentences were re-read with a uvular-r. For each realisation, the palatograms associated with /r/ and its five neighbouring phonemes were excluded, to eliminate the effects of coarticulation. A front-back centre-of-gravity (CoG) measure was calculated from the remaining palatograms. When /r/ occurred in sentence-final position, there was a significant (p<0.01, Mann-Whitney U-test) effect of trill type (median CoG 0.422 and 0.413 for alveolar and uvular, respectively). This suggests that the articulatory setting is slightly more anterior in utterances with alveolar trills. It is unlikely, however, that this small difference has a significant effect on speaker intelligibility. There was no difference in CoG when /r/ occurred in sentence-initial position. References F. van Amelsvoort \& A. Franssen (1960). Stem en spraak. s.l., Parcival, 3th pr. A.M. Eldar (1906). Spreken en zingen. Tiel, D. Mijs, 10th ed. C. Lacroix (2009). Goed gestemd. Tielt, Lannoo. P. Linthorst, G. Leerkamp \& M. Galle (1968). Het spreekonderwijs op de kweekschool. Groningen/Leuven, Wolters-Noordhoff/J.B. Wolters, 10th pr. J. Oostveen (1936). Theorie en praktijk van het spreken. The Hague, G. Naeff. B. Timmermans (2008). Klink klaar. Uitspraak- en intonatiegids voor het Nederlands. Leuven, Davidsfonds, rev. ed. }, author = {Jo Verhoeven and Naomi Miller and Luc Daems and Hanne Kloots and Carlos Reyes-Aldasoro} } @article {455, title = {Prosody differs between objective and subjective causal relations in English}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Causality can be established either objectively or subjectively. The causality expressed in example (1) is objective, because both the consequence and the cause are real events; while the causality in example (2) is subjective, because {\textquotedblleft}Heidi is talented{\textquotedblright} is one{\textquoteright}s opinion. In languages like Dutch, these two types of causality are expressed by specialized connectives (omdat/want). However, in English, they are both expressed by because. Hence, the types of causality are left unspecified on the lexical level (if other lexical cues are not present). This leads to the question of whether these two types of causality are distinguished by non-lexical cues, e.g. prosody. We investigated this question in both forward and backward causals using a dialogue task. Taking the Bayesian approach, we examined a wide range of prosodic features, including not only static measures such as pitch and duration, but also dynamic measures on the shape of pitch contours extracted by Functional Principal Component Analysis. The results showed that in comparison with objective causals, subjective causals were produced with higher F0 maximum, lower F0 minimum, longer duration, and also with distinctive contour shapes. These results indicate a trade-off between lexical and prosodic cues. (1a) Heidi is thrilled because she won the first prize at the art festival. [backward] (1b) Heidi won the first prize at the art festival so she is thrilled. [forward] (2a) Heidi is talented because she won the first prize at the art festival. [backward] (2b) Heidi won the first prize at the art festival so she is talented. [forward] }, author = {Hu, Na and Aoju Chen and Hugo Quen{\'e} and Ted Sanders} } @article {457, title = {Testing a conflict-based theory of self-monitoring for speech errors}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {This paper reports an experimental test of a theory of self-monitoring proposed by Nozari, Dell and Schwartz (2011). The theory presupposes that multiple items generated by the speech production system may be active simultaneously, correct and incorrect items competing for the same slot. In case of error, conflict information is passed on to an executive control center, leading to detection. When the overall conflict in the system increases, distinguishing between correct and error trial becomes more difficult, which in turn may result in (1) more errors being made, and (2) fewer errors being detected. We test this theory with data obtained in two experiments eliciting segmental speech errors in Dutch CVC CVC word pairs, as reported in Nooteboom \& Quen{\'e} (accepted for publication). The two experiments accidentally differed in overall conflict. All of the stimuli in the first experiment, with least overall conflict, were also used in the second experiment. There overall conflict was much higher because of the inclusion of a condition eliciting errors against the relatively weak voiced-voiceless feature in initial stop consonants, leading to more errors against this feature, and to fewer errors being detected. The crucial comparison is between the conditions with identical stimuli. There we find significantly fewer errors being detected in the second than in the first experiment. This supports a conflict-based theory of speech error detection. References Nooteboom S.G. \& Quen{\'e}. H. (accepted for publication). Repairing segmental speech errors. Competition as a source of repairs. Journal of Memory and Language. Nozari, N., Dell, G., \& Schwartz, M. (2011). Is comprehension necessary for error detection? A conflict-based account of monitoring in speech production. Cognitive Psychology 63, 1{\textendash}33. }, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {462, title = {Towards pseudonymized speech}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Sharing speech recordings and speech data is important for progress in speech science and technology. However, sharing speech, whether for demonstration or for research, raises privacy concerns. There are many situations where we would like to be able to hide the identity of the speaker while still have "natural" sounding speech that exhibits all the linguistic and para-linguistic features of speech, i.e., pseudonymous speech. Current research in this direction tries to chain a speech recognizer and a speech synthesizer, e.g., a phone recognizer and a phone synthesizer, which removes the (para-)linguistically interesting aspects of the original speech. Here we explore a different approach with a continuous spectral transformation of speech using standard Praat functions, e.g., Change Gender. This results in intelligible speech varying in quality from near natural to clearly distorted. Identification in forced choice experiments is around 70\% correct, both by (four) experts (range 62-75\%, chance is 50\%) and naive listeners (range 50-75\%), indicating a loss of around 88\% (range 81-99\%) of the information needed for speaker identification. A final tool-box should allow users to make a trade-off between the level of pseudonymization and the preservation of relevant (para-)linguistic features. An English version of the ABX listening experiment is available from: http://www.fon.hum.uva.nl/rob/PseudonymizedSpeechExp/ }, author = {Rob van Son} } @article {454, title = {Is de spontane spraak van kinderen met een cochleair implantaat even verstaanbaar als die van normaalhorende leeftijdsgenoten?}, year = {2019}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Deze bijdrage focust op de verstaanbaarheid van kinderen met een cochleair implantaat, d.i. de mate waarin "de hoorder in staat is om in de geluidsstroom woorden te herkennen, in een specifieke volgorde" (Rietveld \& van Heuven, 2001, p.7). Verstaanbaarheid wordt meestal onderzocht op basis van een Likertschaal of transcripties. Bij spontane spraak liggen transcripties echter moeilijk omdat ze niet vergeleken kunnen worden met een modeltranscriptie. Een Likertschaal is meestal weinig gedetailleerd, waardoor snel maximumscores behaald worden. In deze presentatie wordt daarom een alternatieve analysetechniek voor spontane spraak toegepast: entropie. Van zestien zevenjarige Vlaamse lagereschoolkinderen met een cochleair implantaat (CI) en zestien normaalhorende leeftijdsgenoten werden korte spontane uitingen voorgelegd aan 105 luisteraars die de uitingen orthografisch transcribeerden. De transcripties werden op woordniveau opgelijnd en geanalyseerd d.m.v. entropie. Hierbij wordt de mate van {\textquotedblleft}chaos{\textquotedblright} gemeten. Principe: hoe groter de overeenkomst tussen transcripties, hoe minder {\textquotedblleft}chaos{\textquotedblright} en hoe lager de entropiescore. We verwachtten dat de CI-kinderen wat minder goed verstaanbaar zouden zijn, maar ook dat hun verstaanbaarheid onderling zou vari{\"e}ren (Montag et al., 2014; Peng et al., 2004). De transcripties van de uitingen van normaalhorende kinderen kwamen onderling sterker overeen dan die van CI-kinderen. Zevenjarige normaalhorende kinderen zijn dus verstaanbaarder dan leeftijdsgenoten met een CI. De scores van de CI-groep varieerden, maar driekwart behaalde scores die vergelijkbaar zijn met die van normaalhorende kinderen. Referenties Montag, J. L., AuBuchon, A. M., Pisoni, D. B., \& Kronenberger, W. G. (2014). Speech intelligibility in deaf children after long-term cochlear implant use. Journal of Speech, Language, and Hearing Research, 57(6), 2332-2343. https://doi.org/10.1044/2014_JSLHR-H-14-0190 Peng, S.-C., Spencer, L. J., \& Tomblin, J. B. (2004). Speech intelligibility of pediatric cochlear implant recipients with 7 years of device experience. Journal of Speech, Language, and Hearing Research, 47(6), 1227-1236. https://doi.org/10.1044/1092-4388(2004/092) Rietveld, A. C. M., \& van Heuven, V. J. (2001). Algemene fonetiek. Bussum: Coutinho. }, author = {Nathalie Boonen and Hanne Kloots and Steven Gillis} } @article {448, title = {De realisatie van gevulde pauzes in L1-Nederlands en L2-Engels}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Binnen talen bevatten de pauzemarkeerders {\textquoteleft}uh{\textquoteright} en {\textquoteleft}um{\textquoteright} waardevolle informatie voor forensische sprekervergelijkingen (e.g. Braun \& Rosin, 2015; Hughes et al., 2016). Volgens Clark en Fox Tree (2002) nemen sprekers hun pauzemarkeerders vaak mee van de eerste (L1) naar de tweede taal (L2). Dit voorspelt dat pauzemarkeerders in L1 en L2 forensisch met elkaar vergeleken kunnen worden. Moedertaalsprekers van verschillende talen gebruiken pauzemarkeerders echter verschillend (De Leeuw, 2007; Wieling et al., 2016), wat suggereert dat geoefende L2-sprekers hun gebruik aanpassen. We onderzochten pauzemarkeerders in spontane spraak van twintig Nederlandse studentes in zowel L1-Nederlands als L2-Engels (minimaal B1-niveau ERK/CEFR; Quen{\'e} et al., 2017). De vraag was hoe deze sprekers {\textquoteleft}uh{\textquoteright} en {\textquoteleft}um{\textquoteright} produceren in beide talen, en hoe vergelijkbaar de realisaties zijn betreffende zowel de proportie uh:um als de fonetische vorm. Overeenkomstig Nederlandse versus Engelse moedertaalsprekers (De Leeuw, 2007; Wieling et al., 2016) gebruikten de onderzochte sprekers in het Nederlands twee keer zo vaak {\textquoteleft}uh{\textquoteright} als {\textquoteleft}um{\textquoteright}, terwijl ze in het Engels beide vormen ongeveer even vaak gebruikten. Daarnaast lieten formantmetingen zien dat de centrale klinker in L2-Engels meer open en naar achteren gerealiseerd werd dan in L1-Nederlands. In de presentatie bespreken we tenslotte mogelijke gevolgen voor forensische sprekervergelijkingen. Referenties Braun, A., \& Rosin, A. (2015). On the speaker-specificity of hesitation markers. In Proceedings of the 18th International Congress of Phonetic Sciences, Glasgow (pp. 10-14). Clark, H. H., \& Fox Tree, J. E. (2002). Using uh and um in spontaneous speaking. Cognition, 84(1), 73-111. Hughes, V., Wood, S., \& Foulkes, P. (2016). Strength of forensic voice comparison evidence from the acoustics of filled pauses. Journal of Speech, Language and the Law, 23(1), 99-132. De Leeuw, E. (2007). Hesitation markers in English, German, and Dutch. Journal of Germanic Linguistics, 19(2), 85-114. Wieling, M., Grieve, J., Bouma, G., Fruehwald, J., Coleman, J., \& Liberman, M. (2016). Variation and change in the use of hesitation markers in Germanic languages. Language Dynamics and Change, 6(2), 199-234. Quen{\'e}, H., Orr, R., \& Leeuwen, D. van (2017). Phonetic similarity of /s/ in native and second language: Individual differences and learning curves. Journal of the Acoustical Society of America, 142(6), 519-524. }, author = {Meike de Boer and Willemijn Heeren} } @article {443, title = {Effects of speaking style and context. On young listener{\textquoteright}s word recognition}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Previous research has found that listener-oriented speaking adaptations such as Clear Speech (directed at e.g. listeners with hearing issues, non-native speakers, or in noisy environments) improves intelligibility for adults (Smiljanic \& Bradlow, 2009); and that Infant Directed Speech (IDS) aids perception and development for children (Cooper \& Aslin, 1994). While both speaking styles share features such as slower speaking rate and enhanced pitch accents, it is not known whether listener-oriented speaking styles generally enhance intelligibility, or if only IDS (arguably due to enhanced positive affect) is beneficial to young children. This study investigates how clarity of the speech signal interacts with availability of contextual cues for younger listeners. In two word-recognition experiments, participants heard sentences in Conversational, IDS, and Clear speech, while viewing a target picture matching the last word of the auditory stimulus paired with a distractor. In Experiment 1, 4-year-olds heard sentences with high- versus low-predictability semantic context (He pointed at the cheese vs. Mice like to eat cheese). In Experiment 2, 3-year-olds heard only semantically-neutral phrases (Look at the cheese). Four-year-olds benefited from contextual cues within each speaking style; and from both listener-oriented styles even in the absence of contextual cues. Three-year-olds showed only benefits from IDS but not Clear speech; they did not yet benefit from adult-directed listener-oriented acoustic enhancements. The findings (LMERs) suggest that compared to adults in previous studies, children rely on bottom-up processing more heavily for word recognition, especially in low-context sentences. }, author = {van der Feest, Suzanne} } @article {447, title = {Exploring alignment in articulation rate}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Alignment is the phenomenon that interlocutors adapt their way of speaking to each other. It is still an open question why people align. We also do not know how long alignment lasts and whether speakers align faster to someone they have spoken to before. We conducted an experiment to obtain more insight in these questions by investigating articulation rate, which has previously been shown to show alignment, e.g. [1, 2]. The experiment consisted of a sentence completion task. Twenty-six native Dutch speakers interacted with a computer with the pre-recorded speech of two confederates. Participants started the experiment by completing a pre-test by themselves, after which they did three rounds: Round 1 (with Confederate 1), Round 2 (with Confederate 2) and Round 3 (with Confederate 1). This was then followed by a post-test in which they completed sentences by themselves again. Articulation rates were measured over each round. Preliminary results indicate that participants spoke faster when speaking to a confederate than when they were speaking by themselves. This may be alignment because both confederates spoke more quickly than the participants in the pre-test. Interestingly, the higher Confederate 2{\textquoteright}s articulation rate, the slower participants spoke. This could be due to social factors. Lastly, the data suggest that articulation rate alignment lasts in the post-test: participants do not immediately return to their habitual articulation rate. This suggests alignment does not only consist of immediate priming of the preceding utterance. References [1] Levitan, R., \& Hirschberg, J. (2011). Measuring acoustic-prosodic entrainment with respect to multiple levels and dimensions. In Twelfth Annual Conference of the International Speech Communication Association. [2] Schweitzer, A., \& Lewandowski, N. (2013, August). Convergence of articulation rate in spontaneous speech. In INTERSPEECH(pp. 525-529). }, author = {Lotte Eijk and Mirjam Ernestus and Herbert Schriefers} } @article {440, title = {How Dutch high-school pupils cope with German reduced speech}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Natural speech features {\textquoteleft}reductions{\textquoteright}, i.e., deletions and assimilations of speech sounds within and across words. For instance, German native speakers may say {\textquotedblleft}denhama{\textquotedblright} for {\textquotedblleft}den haben wir{\textquotedblright} ({\textquoteleft}We have that one{\textquoteright}). Such reduction patterns are often language-specific and are therefore likely to be problematic for non-native listeners (e.g., for Dutch listeners, who may perceive {\textquotedblleft}den Hammer{\textquotedblright} [{\textquoteleft}the hammer{\textquoteright}]). We examined how, after almost four years of training in German as a second language, Dutch high-school pupils perceive and understand German reduced speech. For this, 39 Dutch (and 38 German) adolescents listened to either reduced or unreduced short phrases in a dictation task (48 trials). Accuracies were dramatically lower for pupils presented with reduced phrases than for those presented with unreduced phrases, thus demonstrating that Dutch pupils struggle with non-native German reduced speech even after almost four years of high-school training. An exploration of error types showed that pupils listening to reduced speech deleted and substituted targets more frequently, and more often segmented the phrases incorrectly. The errors also suggested that most pupils apply multiple {\textquoteleft}listening strategies{\textquoteright}. For instance, many of them substituted targets by non-words (indicative of a {\textquoteleft}bottom-up{\textquoteright} strategy) and by other words not intended by the speaker (indicative of a {\textquoteleft}top-down{\textquoteright} strategy). Overall, non-word substitutions outnumbered word substitutions. Outcomes will be discussed in the context of practices in Dutch classrooms, as observed in questionnaires among teachers. }, author = {Wanrooij, Karin} } @article {449, title = {Mandarin tone identification by musicians and non-musicians: effects of modality and speaking style}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {A considerable number of studies have shown that musical ability has a positive effect on second language learning. Extending the existing body of work, this study investigates the combined effects of musical ability, modality and speaking style on Mandarin tone identification in tone-na{\"\i}ve listeners. To examine the effects of visual information and hyperarticulated speech, Mandarin tones elicited in two speaking styles (natural and teaching style) were presented in audio-only or audiovisual modality to listeners with or without musical experience. The Goldsmith Musicality Index was used to measure the musical aptitude of the participants. Musicians generally outperformed non-musicians in a tone identification task, and modality and speaking style both affected the tone identification: participants performed better in the audiovisual and teaching style conditions. In addition, the tones differed in recognition: the identification of tone 3 (a low-falling-rising) proved the easiest and all participants had more difficulty identifying tone 4 (a high-falling). Musical training was the most important predictor for Mandarin tone perception. These findings suggest that learning to perceive Mandarin tones benefits from musical expertise, visual information and hyperarticulated speaking style.}, keywords = {Mandarin tone identification; audiovisual modality; speaking style; musicians and non-musicians}, author = {Yueqiao Han and Martijn Goudbeek and Maria Mos and Marc Swerts} } @article {438, title = {Phonetic vowel training for Dutch children learning English: the effect of input variability}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {High variability phonetic training (HVPT) with multiple speaker input (compared to low variability (LV) input with one speaker) has been used successfully to teach adults L2 speech contrasts. However, whether HV is beneficial over LV for children is not as clear, as variability is known to increase processing costs. The little research with children directly comparing HV and LV training input shows no clear evidence for a variability benefit. To investigate whether children show the expected HV benefit, we ran a two-week phonetic training study in which two groups of Dutch learners of English, aged 7/8 and 11/12, were trained on Standard Southern British English phoneme contrasts that are notoriously difficult for Dutch learners: /u:/-/ʊ/, /e/-/{\ae}/, /ʌ/-/ɒ/, with /i:/-/ɔ:/ used as a control contrast. Children received either HV or LV input in training: HV training was spoken by 4 talkers, while LV training was spoken by just one. Effects of variability were investigated using a pre/post-test design in which children{\textquoteright}s phoneme identification and discrimination abilities as well as their generalisation abilities to novel talkers and items were tested. Results show only older children improved at post-test, and they did not show any evidence of generalisation to novel untrained items only shown at test. No evidence of a HV benefit was found, and in some tasks an LV benefit was even seen. These results suggest there may be a trade-off between task complexity and a potential variability benefit. }, author = {Brekelmans, Gwen and Evans, Bronwen and Wonnacott, Elizabeth} } @article {446, title = {Pitch in native and non-native Lombard speech}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Lombard speech, speech produced in noise, is acoustically different from speech produced in quiet (e.g. higher Fundamental Frequency (F0), increase in amplitude, and decrease in spectral tilt) and has extensively been studied in natives (e.g. Summers et al. 1988). To investigate whether non-native Lombard speech is different from native Lombard speech we recorded 30 Dutch natives reading 144 sentences in Dutch and English and 9 American-English natives in English, in quiet and noise (hearing 83 dB SPL Speech-Shaped Noise). We additionally manipulated the location of focus in the sentence, having early and late focus sentences. Our analysis using linear mixed effect models indicates that the Dutch show an increase in F0 in both Dutch and English Lombard speech as compared to their speech produced in quiet. These results show that non-natives also produce Lombard speech. The American-English data are more complex, only showing a difference in F0 between speech produced in quiet and Lombard speech in sentences with late-focus, due to post-focal compression. These results suggest that pitch-changes in Lombard speech are more language specific than originally thought. Moreover, they suggest that acquiring a new language involves learning how pitch changes in that language{\textquoteright}s Lombard speech.}, author = {Katherine Marcoux and Mirjam Ernestus} } @article {445, title = {Repairing segmental speech errors: The role of competing lexical items}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {We propose that in repairing segmental speech errors {\textquotedblleft}repairs{\textquotedblright} stem from word forms that during speech preparation and self-monitoring compete with the word form selected for being spoken. Activation of these potential repairs decreases during the time lag (500 ms) between detection in internal and in overt speech. Recently, it was demonstrated that repaired speech errors can be classified as detected in internal or in overt speech. A re-analysis of data obtained in two experiments eliciting speech errors and their repairs, shows that: (1) Error-to-interruption times are shorter after single elicited errors than after non-elicited and multiple (together "other") errors. (2) Single elicited errors are relatively more often detected in internal speech than "other" errors. (3) The correct word form is the most frequent form used as repair, but less frequently after detection in overt speech than after detection in internal speech. (4) Interruption-to-repair times are shorter for single elicited than for other errors, but less so after detection in overt speech. These findings support the new theory of repairing. }, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {439, title = {Speaker comparisons in the forensic context. Scientific evidence or subjective opinion?}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {In forensic speaker comparisons, speech samples from an unknown speaker (relating to a crime) must be compared to speech samples from a suspect, in order to investigate whether or not these samples were produced by the same speaker. Forensic casework of this kind is typically performed by phoneticians. In this presentation we will take a close look at the present methodology in forensic speaker comparisons and recent developments in this field. This keynote will address the question whether this type of evidence meets the criteria. Ideally, forensic evidence should be based on objective and verifiable facts rather than subjective opinion. We will see to what extent this ideal is the status quo, the near future, or a utopian dream.}, author = {Tina Cambier-Langeveld} } @article {435, title = {Spraakkwaliteit van kinderen met een gehoorverlies in de oren van niet-moedertaalsprekers}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {In het bestaande perceptieonderzoek naar spraakontwikkeling hebben de luisteraars die de kwaliteit van de spraak beoordelen doorgaans dezelfde moedertaal als de onderzochte kinderen. Ons experiment verkent een alternatief. In een paarsgewijze vergelijkingstaak werd de spraakkwaliteit van Vlaamse normaalhorende kinderen en kinderen met een gehoorverlies beoordeeld door moedertaalsprekers en niet-moedertaalsprekers. Toegevoegde waarde: luisteraars zonder enige kennis van de bestudeerde taal(structuur) baseren hun beoordelingen noodzakelijkerwijs op spraakgerelateerde elementen en worden niet afgeleid door bv. een normatieve visie op de standaarduitspraak of via uitspraakonderwijs verworven idee{\"e}n m.b.t. een regionale of dialectische klankkleur. Van zeven normaalhorende kinderen en veertien kinderen met een gehoorverlies werden 126 korte Nederlandse nonsenszinnen verzameld. Deze zinnen werden in paren voorgelegd aan 81 moedertaalsprekers van het Frans, Duits, Italiaans en het Nederlands met behulp van een tool voor paarsgewijze vergelijking (D-PAC) die vertrekt vanuit een holistische visie op beoordeling. Per paar werd aan de luisteraars gevraagd welke stimulus het beste klonk. Het eindresultaat: een rangorde van de stimuli volgens spraakkwaliteit. Als we de rangorde analyseren, zien we aan de ene kant vooral normaalhorende kinderen terwijl kinderen met een gehoorverlies zich geclusterd aan het andere uiteinde bevinden. Deze verdeling van de stimuli was zeer gelijklopend voor alle luisteraarsgroepen. Ze hoorden dus allemaal een kwalitatief verschil tussen de spraak van normaalhorende kinderen en kinderen met een gehoorverlies. Spraak van normaalhorende kinderen werd unaniem als beter ervaren dan die van kinderen met een gehoorverlies. De talige achtergrond van de luisteraar blijkt dus nauwelijks of geen invloed te hebben op de beoordelingen. }, author = {Nathalie Boonen and Hanne Kloots and Steven Gillis} } @article {436, title = {Spraaksynthese met kinderstemmen}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Kinderen die zelf niet spreken gebruiken daarvoor een communicatiehulpmiddel met spraaksynthese. Maar vaak moeten ze zich behelpen met een computerstem die is ingesproken door een volwassen spreker. In samenwerking met rdgKompagne is Fluency daarom begonnen met de productie van een reeks kinderstemmen, ingesproken door jongens en meisjes van 8-12 jaar uit verschillende regio{\textquoteright}s. Een probleem dat eerst opgelost moest worden is dat het tekstcorpus dat we laten inspreken voor een volwassen stem voor deze nog jonge sprekers veel te ingewikkeld is, zowel wat betreft de woordenschat als wat betreft de zinscomplexiteit. Daarom hebben we een nieuw corpus samengesteld, dat bestaat uit 300 vrij eenvoudige zinnen van gemiddeld 8,3 woorden. De woordenschat is zoveel mogelijk afgestemd op gebruik in een communicatiehulpmiddel. Het inspreken van de 300 zinnetjes kost ongeveer 3 uur en levert een kwartier spraak op. Dit is erg weinig voor de unit-selectie synthese waar we mee werken: nieuwe zinnen worden gemaakt door geschikte fragmenten uit de opgenomen spraak aan elkaar te knopen, en dit gaat beter naarmate er meer spraak is om uit te kiezen. Niettemin is het toch steeds gelukt om een bruikbare computerstem te maken. We zullen dit illustreren met voorbeelden van de zes kinderstemmen die we tot dusverre hebben opgenomen.}, author = {Arthur Dirksen} } @article {437, title = {Studying asymmetries in tongue-palate contact in speech}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {In speech-production studies, it is often implicitly assumed that articulation is symmetrical in the transverse plane of the vocal tract, i.e., that the amount of tongue contact with the palate is equal on the left- and right-hand sides. However, published palatograms visualising tongue-palate contact patterns generally show left-right asymmetry, although this finding is rarely mentioned. Characterisation of articulation asymmetry in native speakers would improve understanding of the process of speech production and its relationship with both neural organisation and the anatomy of the organs of speech. The overall goal of this research is to conduct an empirical electropalatography study with 20 subjects in which the direction and amount of asymmetry in tongue-palate contact are studied as a function of (a) the type of speech sound, (b) anatomical asymmetries in speakers{\textquoteright} palates, and (c) speaker handedness. The current study describes preliminary work in which an automated method for calculating a variety of asymmetry metrics from a time-series of palatograms was developed. The algorithm was applied to publicly available palatograms (Mocha-Timit) from two speakers performing a sentence production task. Asymmetry metrics were examined as a function of the place and manner of articulation. Most speech sound realisations were found to be asymmetrical with some clear differences between the speakers. }, author = {Naomi Miller and Carlos Reyes-Aldasoro and Luc Daems and Jo Verhoeven} } @article {444, title = {Testing hypotheses about the underlying deficit of Apraxia of Speech (AOS) through computational neural modelling with the DIVA model}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Background: Apraxia of speech (AOS) is a neurogenic motor speech disorder resulting from brain lesions to the left cerebral hemisphere whose precise nature in terms of functional impairment is still poorly understood. A recent study featuring a noise masking paradigm [Maas, Mailend \& Guenther 2015, JSLHR 58: 185-200] found that vowel spacing (acoustic contrast) was more reduced under masking noise conditions in speakers with AOS than in control speakers. Additionally, vowel dispersion (token-to-token variability) was larger in the AOS group compared to the controls in the no-masking condition, while similar in the masking noise condition. Purpose: The pattern of these behavioural results suggests that AOS reflects a disruption of feedforward control, whereas feedback control is spared and plays a more prominent role in achieving and maintaining segmental contrasts. The present study set out to validate this interpretation of AOS as a feedforward impairment using computational neural modelling with the DIVA model. Method: In a series of computational simulations with the DIVA model featuring a noise-masking paradigm mimicking the behavioural experiment, we investigated the effect of a feedforward, feedback, feedforward+feedback, and a dysarthria impairment on average vowel spacing and dispersion in the production of six /bVt/ speech targets. Results: The simulation results indicate that the output of the model with the simulated feedforward deficit resembled the group findings for the human speakers with AOS best. Conclusions: These results provide support to the interpretation of the human observations, corroborating the notion that AOS can be conceptualized as a deficit in feedforward control. }, author = {Hayo Terband and Joe Rodd and Edwin Maas} } @article {441, title = {Using random effects to investigate phonetic variation: a puzzling discrepancy between production and perception}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {This study reports on perception (rhyme decision with morphed stimuli; see (1)) and production (word-list reading; see (2)) differences in the vowel systems of three groups of subjects: 45 Netherlandic-Dutch subjects, 45 Flemish-Dutch subjects, and an unclear group of 18 Dutch-speaking Belgians who have been in the Netherlands for a long time (years<--->decades). I term this group {\textquoteleft}unclear{\textquoteright} because it is conceivable that some of these subjects, but not others, may have adapted their Flemish phonetics to the Netherlandic norms, which can be considered a long-term form of phonetic accommodation (sensu Pardo et al 2012). This is the present study{\textquoteright}s object of investigation, with a focus on the Dutch tense mid vowels (contextually-restricted diphthongs in Netherlandic Dutch, monophthongs in Flemish Dutch; Adank et al 2007). What factors discriminate {\textquoteleft}successful{\textquoteright} adapters from {\textquoteleft}unsuccessful{\textquoteright} adapters? Because the critical third group of subjects is not (a priori) homogeneous, the present study partitions the 108 subjects into groups that are defined empirically. For the production part, this is done by finding clusters in the predicted random slopes of a na{\"\i}ve mixed-effects model, which turns out to work very well. Puzzlingly, the same approach performs poorly for the perception data, though a group-level effect does arise when explicitly entered into the model. The precise reason for this discrepancy is not known, but it suggests that for perception but not production, even the reference groups are not homogeneous. (1) Example stimuli for the rhyme decision task, which was designed to be a covert phoneme-decision task. The percentages refer to the degree to which the vowel [e:] was morphed to [ɛi]. All words were pseudowords to enable precise experimental control of the vowels without running into the Ganong effect (Ganong 1980). Auditory word: [de:tə] - Participant 1: 20\% - Participant 2: 40\% - Participant 3: 60\% - Participant 4: 80\% {\textrightarrow} does this rhyme with ? Auditory word: [ble:tə] - Participant 1: 40\% - Participant 2: 60\% - Participant 3: 80\% - Participant 4: 20\% {\textrightarrow} does this rhyme with ? (2) Example stimuli for the word production task: - nobelere - pijn - verschuil - beul }, author = {Voeten, Cesko} } @article {442, title = {Vowel space as a tool to evaluate articulation problems}, year = {2018}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {Treatment for oral tumors can lead to long term changes in the anatomy and physiology of the vocal tract and result in problems with articulation. There are currently no readily available automatic methods to evaluate changes in articulation. We developed a Praat script which plots and measures vowel space coverage. The script reproduces speaker specific vowel space use and speaking-style dependent vowel reduction in normal speech from the Dutch IFA corpus (5h speech, 5M\&5F speakers). In recordings of 30 patients treated for oral tumors, deviant (distorted) articulation before and after treatment is evaluated in a listening experiment and from a maximal articulation speed task. Average Articulation Rate reduces after treatment. Vowel space use in these patients was visibly affected by treatment. Vowel space use before and after treatment is still significantly correlated. There is a shift observed from the /u/{\textrightarrow}/a/-corner in the vowel triangle. Deviant articulation correlates with Vowel-Space-Area and the shape of the /u/ and /i/ corners of the vowel triangle. In conclusion, measurements of vowel space use from running speech can be useful in evaluating articulation disorders.}, author = {Rob van Son} } @article {21, title = {De spreker in spraak}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Het spraaksignaal geeft informatie over de boodschap, de spreker én de omstandigheden waaronder gesproken wordt. In een nieuw onderzoeksproject richten we ons op de vraag hoe deze factoren elkaar beïnvloeden in spraak, om uiteindelijk meer te weten te komen over hoe de informatie over de spreker verdeeld is over het spraaksignaal.

Systematische studies naar sprekerkenmerken in het gesproken Nederlands zijn inmiddels zo{\textquoteright}n 20 jaar oud (Van den Heuvel, 1996; Kraayeveld, 1997). Het akoestische onderzoek naar de sprekerafhankelijkheid van spraakklanken werd daarin uitgevoerd op voorgelezen (non-)woorden, en liet zien dat verschillende spraakklanken in verschillende mate sprekerinformatie bevatten. Variatie in spreekstijl heeft echter implicaties voor de akoestische eigenschappen van het spraaksignaal (zie Wagner et al., 2015), en daarmee naar verwachting ook voor de sprekerspecifieke informatie. Dat betekent dat bevindingen gedaan op basis van voorgelezen studiospraak mogelijk beperkt bruikbaar zijn in een belangrijk toepassingsgebied van dit soort kennis, forensisch sprekervergelijkend onderzoek.

Daarom is het doel van The Speaker in Speech (NWO VIDI project, 2017-2022) om sprekerafhankelijke informatie te onderzoeken in spontane (telefoon)conversatie, als functie van wat er wordt gezegd. Aan de hand van een paar pilotstudies, gedaan met behulp van het CGN (Oostdijk, 2000), wil ik in deze bijdrage het onderzoeksproject voorstellen.

Bibliografie

  • Kraayeveld, H. (1997). Idiosyncrasy in prosody. Speaker and speaker group identification in Dutch using melodic and temporal information. PhD dissertation, Katholieke Universiteit Nijmegen.

  • Oostdijk, N. (2000). Het Corpus Gesproken Nederlands. Nederlandse Taalkunde 5, 280-284.

  • Van den Heuvel, H. (1996). Speaker variability in acoustic properties of Dutch phoneme realisations. PhD dissertation, Katholieke

    Universiteit Nijmegen.

  • Wagner, P., Trouvain, J., and Zimmerer, F. (2015). In defense of stylistic diversity in speech research. Journal of Phonetics 48, 1-12.

}, author = {Willemijn Heeren} } @article {21, title = {Dutch lateral approximant clusters: An acoustic study}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

This study tackles lateral approximant clusters in Dutch and their realization in terms of duration, F2, and intensity. Dutch has two allophones for the approximant /l/, realized as alveolar in onset position, and as velarized in coda position (Booij 1995). This implies that the alveolar realization will have a higher F2 than the velarized one (Hayward 2013). The aim of this study is to determine how clusters such as wel lieve (VL$\#$LV) are realized, regarding duration, F2, and intensity. According to Booij (1995), in this context degemination might occur.

The experiment employed a reading task containing the target tokens in the context VL$\#$LV and the baseline contexts onset and coda. The histogram of residuals shows two different realizations of the VL$\#$LV cluster, both as a succession of the velarized and the alveolar approximant, and one very similar to the alveolar singleton.

Results show that clusters do not resemble the baseline contexts in terms of duration and F2. Moreover, clusters have a higher intensity than the coda context. Despite being dissimilar under many aspects to the baseline contexts, clusters still have characteristics of both. In fact, the degeminated cluster often visually resembles the onset, but the lower F2 suggests that the segment might be influenced by a residual of coda.

References

  • Booij, G. (1995). The Phonology of Dutch. New York: Oxford University Press.

  • Hayward, K. (2013). Experimental Phonetics. New York: Routledge.

}, author = {Paul Boersma and Veronica Miatto} } @article {21, title = {Fluency in second language speech}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Disfluencies, such as pauses, filled pauses, and lengthenings, are common in everyday communication of native (L1) speakers.

Research tracking the causes of such L1 disfluencies has mainly focused on intra-individual differences and found that complexity in message, formulation, and articulation will lead to disfluencies. Research tracking the causes of disfluencies in second language (L2) speech, on the other hand, has predominantly focused on inter-individual causes, seeking to answer the question to what extent disfluencies are telling of overall L2 proficiency.

In this presentation, I will propose that in order to fully understand when, how, and why L2 speakers may be disfluent, research should track both inter- and intra-individual differences in L2 speech. I will present research findings from both approaches. Finally, implications for language teaching and testing will be discussed.

}, author = {Nivja de Jong} } @article {21, title = {Foreign languages sound fast: evidence for the {\textquoteleft}Gabbling Foreigner Illusion{\textquoteright}}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Anecdotal evidence suggests that unfamiliar languages sound faster than one{\textquoteright}s native language. Empirical evidence for this impression has come from explicit tempo judgments. However, it is unknown whether such perceived rate differences between native and foreign languages (FLs) have effects on implicit speech processing.

Our measure of implicit perception was {\textquoteleft}rate normalization{\textquoteright}: Dutch and German listeners interpret vowels midway between /ɑ/ and /a:/ more often as /a:/ if the target vowel follows a fast (vs. slow) sentence. We asked whether such a {\textquoteleft}rate normalization{\textquoteright} effect may be observed when the context is not actually faster but simply spoken in a foreign language.

Dutch and German participants listened to Dutch and German (rate-matched) fast and slow sentences, followed by non-words that contained vowels from an /a-a:/ duration continuum. Participants indicated which vowel they heard (fap vs. faap). Across three experiments, we consistently found that German listeners reported more /a:/ responses after foreign sentences (vs. native), suggesting that foreign sentences were indeed perceived as faster. However, mixed results were found for the Dutch groups. We conclude that the subjective impression that FLs sound fast may have an effect on implicit speech processing, influencing how language learners perceive spoken segments in a FL.

}, author = {Hans Rutger Bosker} } @article {21, title = {Individual Differences in Speech Motor Control: What? How?}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Speech production involves the complex integration between linguistic processes, executive functions (EFs), and speech motor control (SMC). Despite the potential roles EFs and SMC play in facilitating human speech production, SMC performance has largely been used to categorically separate pathological populations from non-pathological control groups. The potential variability of SMC in a healthy young adult population has not been studied as much. Additionally, there has been an ongoing debate on which tasks and speech materials best reflect speakers{\textquoteright} speech motor agility and stability.

To better capture the range and variability of SMC performance, we selected three speech-motoric tasks (diadochokinesis, tongue twister, and speaking latency). Likewise, three cognitive tasks (Flanker, Letter Number, and Operation Span tasks) were used to quantify participants{\textquoteright} EFs (of selective attention control, shifting ability, and updating of working memory).

Data collection with healthy young Dutch adults is currently ongoing. Analyses of two SMC tasks (diadochokinesis and tongue twister) and two EF tasks (Flanker and Letter Number) of 25 participants will be carried out and presented. Correlational results will also be discussed to describe the relationships among as well as between measures of SMC and EFs.

}, author = {Chen Shen and Esther Janse} } @article {21, title = {Klinken normaalhorende kinderen beter dan kinderen met een gehoorverlies?}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Onderzoek naar de spraakontwikkeling van kinderen met een gehoorverlies focust vaak op spraakproductie. Klinkers en medeklinkers worden minder duidelijk uitgesproken en ook het tempo blijkt langzamer te zijn [1, 2, 3]. Hoe luisteraars deze types spraak waarnemen (= spraakperceptie), is echter nog nauwelijks onderzocht. Op die leemte speelt ons onderzoek in. We onderzoeken of luisteraars normaalhorende kinderen en kinderen met een gehoorverlies van elkaar kunnen onderscheiden.

60 luisteraars beluisterden nonsenszinnetjes van het type {\textquotedblleft}Ik heb lala gezegd{\textquotedblright}, afkomstig van 7 normaalhorende kinderen, 7 kinderen met een cochleair implantaat en 7 kinderen met een akoestisch hoortoestel. De beoordeling gebeurde via paarsgewijze vergelijkingen met de tool D-PAC [4]. Telkens werden er twee uitingen vergeleken (65 vergelijkingen per luisteraar). Uiteindelijk resulteerde de vraag {\textquotedblleft}Welk kind klinkt het beste?{\textquotedblright} in een rangschikking van de best tot de slechtst klinkende uiting. Normaalhorende kinderen klonken volgens de luisteraars {\textquotedblleft}beter{\textquotedblright} dan kinderen met een gehoorverlies. Kinderen met een cochleair implantaat klonken beter dan kinderen met een akoestisch hoortoestel. Hun spraak werd ook sterker geapprecieerd naarmate ze het implantaat langer droegen.

Referenties

[1] Baudonck, N., Dhooge, I., D{\textquoteright}haeseleer, E. en Van Lierde, K. (2010), {\textquoteleft}A comparison of the consonant production between Dutch children using cochlear implants and children using hearing aids{\textquoteright}. Int. J. Pediatr. Otorhinolaryngol, 74-4, 416-421.
[2] Vanormelingen, L., De Maeyer, S. en Gillis, S. (2016), {\textquoteleft}A comparison of maternal and child language in normally-hearing and hearing- impaired children with cochlear implants{\textquoteright}. Language, Interaction and Acquisition, 7-2, 145-179.
[3] Verhoeven, J., Hide, {\O}., De Maeyer, S., Gillis, S. en Gillis, S. (2016), {\textquoteleft}Hearing impairment and vowel production.{\textquoteright}. J. Comm. Disord., 59,. 24-39.
[4] De Maeyer, S., Bouwer, R., Van Gasse, R., Goossens, M. (2017), {\textquoteleft}Competenties kwaliteitsvol beoordelen met D-PAC{\textquoteright}. EXAMENS. Tijdschrift toetspraktijk, 14-1, 11-17.

}, author = {Nathalie Boonen and Hanne Kloots and Steven Gillis} } @article {21, title = {Plan, Scan, Speak, Detect, Stop, Repair}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In this paper we develop some predictions on interactional segmental speech errors and their repairs, based on a computational model of self-monitoring proposed by Hartsuiker and Kolk (2001) and modified by Nooteboom and Quené (2017). These predictions were tested in a four-word tongue twister experiment eliciting such errors and their repairs, in word initial and word medial position.

Findings are: (1) The statistical distributions of error-to-cutoff times, although truncated close to 0 ms, are nearly complete for both initial and medial consonant errors. This implies that against prediction interruption of the speaking process after internal error detection takes more time than speech initiation. (2) The distributions of cutoff-to-repair times are censored at 0 ms, but cutoff-to-repair times are longer for medial than initial consonants, showing that against prediction repairing takes more time for medial than for initial errors. (3) Detection rate is much lower for medial than for initial consonants and decreases with position of the misspoken word in the tongue twister sequence. This probably reflects predicted variation in selective attention.

}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {21, title = {Regional variation in the pronunciation of /s/ in the Dutch language area}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In this socio-phonetic study we investigated regional variation in the realization of /s/ in the Dutch language area, and tested the observation that /s/ is sometimes pronounced more like [ʃ] (so-called s-retraction), especially in the Randstad (Collins \& Mees, 2003, p. 190).

One hundred native speakers born and raised in one of five regions of the Dutch language area (West Flanders, Flemish Brabant, Netherlands Limburg, South Holland, Groningen) produced nineteen monosyllabic words containing /s/ in different syllabic contexts. Spectral centre of gravity (CoG) was measured to assess the degree of s-retraction: CoG of /s/ is higher than that of /ʃ/. CoG values were significantly lower (consistent with more retraction) in the Dutch regions than in the Flemish regions. Male speakers displayed a more retracted pronunciation than females. From our data it is unclear whether these differences are solely caused by anatomical differences or constitute evidence for a sociolinguistic gender effect in an incipient sound change.

In conclusion, /s/ shows regional variation in Standard Dutch. The pattern is not fully consistent with the observation forwarded by Collins \& Mees (2003): s-retraction is found in an area larger than the Randstad, possibly pointing towards a North-South variation pattern (Belgian vs. Netherlandic Dutch).

References:

{\textbullet} Collins, B. \& I. Mees (2003). The phonetics of English and Dutch, fifth revised edition. Leiden: Koninklijke Brill NV.

}, author = {Anne-France Pinget and Sanne Ditewig and Willemijn Heeren} } @article {21, title = {Relationship between segmental speech errors and intelligibility in speakers with acquired dysarthria}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

The standard approach to dysarthria assessment involves rating 38 perceptual dimensions of speech on a 7- point severity scale (Darley, 1969). The drawbacks of this method are that it (a) reduces the wide range of pronunciation errors to one perceptual dimension ({\textquotedblleft}articulatory imprecision{\textquotedblright}) and (b) presupposes that the most {\textquotedblleft}severe{\textquotedblright} speech errors are the greatest barrier to intelligibility.

This study aimed to identify prototypical pronunciation errors in Belgian Dutch speakers with dysarthria and to examine the relationship between segmental speech errors and intelligibility in spontaneous speech. Participants included speakers with acquired dysarthria due to stroke or cerebellar disease (n = 11) and age- matched controls (n = 10). A novel intelligibility test was devised consisting of 120 monosyllabic targets and perceptual errors were identified via an orthographic transcription task. Spontaneous speech was analysed using a listening paradigm that generates quantitative measures of intelligibility (Lagerberg et al., 2014). Common consonant errors included devoicing, fronting and cluster formation. The most common vowel distortions were increased height (kent {\textrightarrow} kind) and reduced duration (staart {\textrightarrow} start). Segmental speech errors are discussed with respect to articulatory complexity and functional load. There was only a weak correlation between single-word intelligibility and intelligibility in spontaneous speech.

References:

  • Darley, F.L., Aronson, A. and Brown, J., 1969. Differential diagnostic patterns of dysarthria. J. Speech. Lang. Hear. Res. 12, 246-269.

  • Lagerberg, T.B., Asberg, J., Hartelius, L. and Persson, C. 2014. Assessment of intelligibility using children{\textquoteright}s spontaneous speech: methodological aspects. Int. J. Lang. Commun. Disord. 49(2), 228-239.

}, author = {Naomi Miller and Peter Mariën and Jo Verhoeven} } @article {21, title = {Stemneutralisatie van Nederlandse woord-initiële en intervocalische fricatieven}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Het stemcontrast van Nederlandse fricatieven is aan het verdwijnen. Voorgaand onderzoek toont dat de tendens om woord-initiële fricatieven stemloos te realiseren sterker is in het noorden dan in het zuiden van Nederland, maar dat het stemcontrast in intervocalische positie behouden lijkt te worden (e.g. Pinget, 2015).

In de huidige studie werd het effect van regio op de realisatie van alveolaire en labiodentale fricatieven op woord-initiële of intervocalische positie door kinderen onderzocht en vergeleken met volwassenen. Zowel duur als pitch is gemeten. De fricatieven werden ontlokt door een benoemtaak waar in het noorden 16 volwassenen en 20 kinderen meededen, en in het zuiden 11 volwassenen en 23 kinderen. Uit de resultaten blijkt dat de noordelijke participanten de initiële stemhebbende fricatieven in gemiddeld 11\% van de instanties met detecteerbare pitch realiseren. Dit is significant minder vaak dan in het zuiden (30\%). Op intervocalische positie is hetzelfde patroon waarneembaar: 19\% stemgeving in het noorden tegenover 42\% in het zuiden. Het verschil in duur van de fricatieven tussen de twee regio{\textquoteright}s is niet significant.

Uit deze eerste resultaten kan worden geconcludeerd dat de stemneutralisatie van fricatieven ook in het zuiden van Nederland al ver gevorderd is en dat ook intervocalische fricatieven niet gespaard blijven.

}, author = {Saskia Mooijman and Mirjam de Jonge} } @article {21, title = {Visible Vowels: een instrument voor de visualisatie en normalisatie van klinkers}, year = {2017}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Visible Vowels is een webapp voor de normalisatie en visualisatie van klinkermetingen, met name f0, F1, F2, F3 en duur. Bij de ontwikkeling is gestreefd gebruikersvriendelijkheid te combineren met een maximum aan flexibiliteit en functionaliteit. De gebruiker heeft de keuze uit de meest gangbare methoden voor klinkernormalisatie. Ook kunnen Hz waarden omgezet worden naar schalen, zoals Bark, Mel en ST. Getransformeerde waarden kunnen als een databestand bewaard worden. Visible Vowels presenteert de gegevens in {\textquoteleft}live view{\textquoteright}: bij iedere wijziging in de instellingen wordt de grafiek meteen aangepast. De gegenereerde figuren kunnen in verschillende formaten uitgevoerd worden.

Als invoerbestand verwacht het programma een Excel spreadsheet met daarin de metingen. De data mag bestaan uit metingen voor een onbegrensd aantal tijdspunten binnen de klinkerintervallen. Het maximum aantal categorische variabelen (zoals regio, geslacht, enz.) is eveneens onbegrensd. Het programma voorziet in twaalf sprekernormalisatiemethoden.

De app is geïmplementeerd in R, met gebruikmaking van Shiny, een webapplicatieraamwerk voor R dat is ontwikkeld door Rstudio. Visible Vowels is beschikbaar via: https://fryske-akademy.nl/fa-apps/VisVow/. In deze lezing zullen de mogelijkheid van de app gedemonstreerd worden aan de hand van een dataset van Van der Harst (2011).

}, author = {Wilbert Heeringa and Hans Van de Velde} } @article {14, title = {Articulatory control parameters of phonological contrasts: the case of cue-weighting for Dutch /ɑ/ - /a/}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Speech-language acquisition involves learning the speech sounds of the language at hand as well as which acoustic cues are relevant to differentiate them. For example, the Dutch vowels /ɑ/ and /a/ in the words {\textquoteright}man{\textquoteright} (man) and {\textquoteright}maan{\textquoteright} (moon) differ both in their spectral properties (F1 and F2 are both higher for /a/) and in duration (longer for /a/). Perception experiments indicate that the way in which different perceptual cues are being combined and weighted is language specific, however, there are large individual differences in cue weighting within language groups (Escudero, Benders, \& Lipsky, 2009). Furthermore, the different perceptual cues are not entirely independent from a speech acoustics point of view, meaning that one of the cues could play a more prominent role underneath. The present study combines measurements of perceptual weighting of acoustic cues for the Dutch /ɑ/ - /a/ vowel contrast with measurements of perceptual acuity for spectral and durational differences and measurements of the production of the vowel contrast to unravel (1) what exactly influences how perceptual cues are being weighted, and (2) which cue is actively being manipulated by speakers. 45 young adult speakers of Dutch (age 19-29) participated in the study. Data analysis is currently underway; detailed results will be available at the symposium. References Escudero, P., Benders, T., \& Lipski, S. C. (2009). Native, non-native and L2 perceptual cue weighting for Dutch vowels: The case of Dutch, German, and Spanish listeners. Journal of Phonetics, 37(4), 452-465.

}, author = {Hayo Terband and Lydia Bax and Peter Hart and Manou van Montfort and Sapna Sehgal and Laura Smorenburg and Fleur Versteeg and Tom Lentz} } @article {9, title = {Infants Show a U-Shaped Pattern in Non-Native Vowel Discrimination}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Previous research has shown that speech sound discrimination changes from universal to language-specific during the first year of life; sensitivity to native speech sound contrasts increases whereas sensitivity to (some) non-native contrasts decreases. This process is often referred to as perceptual attunement (Maurer \& Werker, 2014). For vowels, attunement has been found to take place around 6 months of age (Kuhl et al., 1992). However, there are indications that attunement is less uniform than previously suggested (e.g. Mazuka et al., 2014). The aim of this study was to investigate whether perceptual attunement is attested in vowel perception of Dutch-learning infants (6-10 months old). Infants were tested on a native (/a:/-/e:/) and non-native (/{\ae}/-/ɛ/) contrast, using tokens of multiple speakers. The six-month-olds (n = 53), the 8-month-olds (n = 41) and the 10-month-olds (n = 35) discriminated the native contrast. However, the non-native contrast was discriminated by the 6-month-olds (n = 61) and the 10-month-olds (n = 41) but not by the 8-month-olds (n = 39). The recovery of the 10-month-olds is interpreted to be caused by an interaction between task demands (multiple speakers) and developmental level of the infants.

}, author = {Maartje de Klerk and Elise de Bree and Annemarie Kerkhoff and Frank Wijnen} } @article {10, title = {KEYNOTE: How acoustic reduction affects non-native speech processing}, year = {2016}, month = {10.30-11.15}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Words are often pronounced shorter in casual speech than in formal speech. Segments may be shorter, weakly articulated or completely absent. For instance, English probably may be pronounced as proly and reasonable as reasable. Native listeners generally experience no problems understanding reduced word pronunciation variants, benefitting from the many cues in the acoustic signal, and from frequency, syntactic and semantic information. In this talk I will address the question how reduced word pronunciation variants are processed by non-native listeners of a language. Our experiments show that even highly proficient learners of a language experience problems understanding reduced word pronunciation variants. They make many errors in dictation tasks. The errors suggest that non-native listeners try to produce transcriptions that match the speech signal but that they are unable to benefit from all acoustic cues. Moreover, non-native listeners seem unable to benefit from the semantic content and syntactic structure of the context. As a consequence, they provide transcriptions that have very different meanings from what the speaker said. We also tested non-native listeners{\textquoteright} use of different types of cues in more controlled experiments, in which they had to identify words or make lexical decisions. The results show that, also in these more controlled experiments, non-native listeners tend to only rely on those acoustic cues that are relevant in their native languages. Moreover, non-native listeners have difficulties quickly using semantic cues for understanding reduced speech even in very simple experiments. Finally, we found that learners are sensitive to the frequencies of reduced word pronunciation variants, but that the frequencies of occurrences they are sensitive to do not match the native listeners{\textquoteright} frequencies. Together these results show that acoustic reduction affects non- native speech processing in several ways.

}, author = {Mirjam Ernestus} } @article {19, title = {Kinderen met spraakontwikkelingsdyspraxie (sod) laten geen hyper-articulatie zien}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Bij spraakontwikkelingsdyspraxie (SOD) wordt in de literatuur zowel sterkere coarticulatie als het tegenovergestelde, hyperarticulatie, gerapporteerd. De huidige studie onderzoekt de hypothese dat deze tegenstrijdige bevindingen worden veroorzaakt door de manier waarop coarticulatie is gemeten, waarbij geen rekening wordt gehouden met de eigenschappen van de klanken die de coarticulatie bewerkstelliggen. De spraakdata betreft 3 herhalingen van eenvoudige bisyllabische betekenisloze uitingen van het type [dəCV] (C = /b,d/ en V = /i,u/) in context van de zin /he ... wɪ:r/ van 16 kinderen met SOD (5,5 - 7,5 jaar) en 8 normaalsprekende kinderen (5 - 7,3 jaar). De coarticulatie in de F2 van de [ə] is geanalyseerd met een nieuwe maat die rekening houdt met de grootte van geproduceerde klinkercontrast, voor beide consonantcontexten afzonderlijk. De resultaten tonen een sterkere coarticulatie voor de kinderen met SOD in vergelijking met de controlegroep in de /d/ context, maar niet in de /b/ context. Waar de controles een verschil in coarticulatie tussen de consonantcontexten laten zien, is de coarticulatie bij de kinderen met SOD in beide consonantcontexten gelijk. Uit deze uitkomsten blijkt dat de afwijkende coarticulatie in kinderen met SOD geen hyperarticulatie betreft. De resultaten wijzen er verder op dat de sterkere coarticulatie in kinderen met SOD is verbonden aan bepaalde articulatorische contexten. Klinische implicaties zullen worden besproken.

}, author = {Hayo Terband and Lydia Bax} } @article {8, title = {Melodie in de traditionele vertelkunst en zang van de Toendra Joekagieren}, year = {2016}, month = {16.25-16.45}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De traditionele vertelkunst in het Toendra Joekagier (TJ), een bedreigde taal die nog maar door ca. 60 mensen gesproken wordt op de toendra in het verre noordoosten van Siberië, kent drie manieren van stemgebruik: normale spreekstem, spreekstem afgewisseld met zang, en een specifiek stemgebruik tussen spreken en zingen in. De traditionele vertelkunst van het TJ is qua vorm en inhoud uitvoerig beschreven: gesproken teksten worden weergegeven in normale tekst en gezongen fragmenten en liederen in muzieknoten. Maar die tussenvorm weergeven is problematisch. Tot nu toe wordt deze in de literatuur {\textquotedblleft}recitatief{\textquotedblright} genoemd wat het niet is, en weergegeven in muzieknoten wat weinig geschikt lijkt voor deze vorm. De tussenvorm komt vooral voor in persoonlijke improvisaties (gebeurtenissen, herinneringen, lofzang), in dansen, liederen en in rituele zang van sjamanen. De voornaamste kenmerken zijn een vrij ritme en een beperkt aantal intervallen, meestal een kwart (5 semitonen) op steeds dezelfde grondtoon. In mijn presentatie geef ik audiovisuele voorbeelden van de verschillende vormen van vertelkunst en bespreek ik hoe de tussenvorm het beste kan worden genoemd en hoe deze met behulp van Praat kan worden geïllustreerd in toonhoogtebewegingen.

}, author = {Cecilia Od{\'e}} } @article {16, title = {Self-monitoring for speech errors: Two-stage detection and repair with and without auditory feedback}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {Two experiments are reported, eliciting segmental speech errors and self- repairs. Error frequencies, detection frequencies, error-to-cutoff times and cutoff-to-repair times were assessed with and without auditory feedback, for errors against four types of segmental oppositions. Main hypotheses are (a) prearticulatory and postarticulatory detection of errors is reflected in a bimodal distribution of error-to-cutoff times; (b) after postarticulatory error detection repairs need to be planned in a time-consuming way, but not after prearticulatory detection; (c) postarticulatory error detection depends on auditory feedback. Results confirm hypotheses (a) and (b) but not (c). Internal and external detection are temporally separated by some 500 ms on average, fast and slow repairs by some 700 ms. Error detection does not depend on audition. This seems self-evident for prearticulatory but not for postarticulatory error detection. Theoretical implications of these findings are discussed. }, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {17, title = {Speech production and speech production accuracy in children with cochlear implants and their normally hearing peers}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

The longitudinal phonological development of children with cochlear implants (CI) is compared to that of normally hearing (NH) peers. This presentation aims to conclude on one general question: {\textquotedblleft}are children with CI able to catch up on their NH peers?{\textquotedblright} The spontaneous speech productions of children with CI are investigated both at the word level for accuracy and variability and at the segmental level with respect to consonant clusters and fricatives. In comparison to NH peers, children with CI{\textquoteright}s word and segmental productions are less accurate and more variable. Moreover, the characteristics of the target word (syllable length, complexity and frequency in child-direct speech) affect children with CI{\textquoteright}s word productions to a different extent than those of NH children. Target words that have more syllables and are more complex are less accurate and more variable in both groups of children, but the effect is more pronounced in children with CI. In contrast, target words that are more frequent in child-directed speech are more accurate, but this effect is less pronounced in children with CI. But, for all these measures, a catch up is found: children with CI reach similar levels of phonological development as their NH age-mates by age five.

}, author = {Jolien Faes} } @article {15, title = {Transfer van preaspiratie in T2 Engels bij moedertaalsprekers van het Faeröers}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Fonetisch onderzoek naar de verwerving van medeklinkers in een tweede taal richt zich vaak op de voice onset time van stemloze en stemhebbende plosieven (bijv. Simon 2011). Zelfs bij leerders van een hoog taalbeheersingsniveau blijken VOT{\textquoteright}s nog af te wijken van die van moedertaalsprekers. Dergelijke laryngale systemen zijn dus vruchtbare grond voor onderzoek naar transfer van de eerste taal in tweedetaalverwerving. In deze presentatie doen wij verslag van ons onderzoek naar transfer van een minder bekend laryngaal systeem. Het Faeröers maakt, net als bijv. het IJslands, gebruik van preaspiratie bij een subset van postvokale stemloze medeklinkers, zoals in l{\ae}tt [lɑht:] {\textquoteleft}gemakkelijk (onz.){\textquoteright} (Thráinsson et al. 2004). Het is te verwachten dat dit moedertaalfenomeen wordt overgenomen bij tweedetaalverwerving van (in dit geval) het Engels. Aan de hand van opnames van drie Faeröerse sprekers van het Engels vergelijken wij de fonetische details van preaspiratie in hun eerste en tweede taal. Hoewel deze op enkele punten overeenkomt {\textemdash} m.n. het type frictie in het preaspiratie-element {\textemdash} zijn er ook duidelijke verschillen in de duur van de verschillende onderdelen van preaspiratie. Ook vertoont de preaspiratie in het Engels veel meer variatie dan in het Faeröers. Wij verklaren deze verschillen aan de hand van foneemcategorisering in tweedetaalverwerving. Literatuur Escudero, P., Benders, T., \& Lipski, S. C. (2009). Native, non-native and L2 perceptual cue weighting for Dutch vowels: The case of Dutch, German, and Spanish listeners. Journal of Phonetics, 37(4), 452-465. Thráinsson, H., Petersen, H.P., Jacobsen, J. í Lon, \& Hansen, Z.S. 2004. Faroese: An overview and reference grammar. Тórshavn: F{\o}roya Fró{\dh}skaparfelag.

}, author = {Annelot Vaatstra and Remco Knooihuizen and Wander Lowie} } @article {13, title = {Velocity Profiles of Speech Perception between Native English Speakers and Javanese and Sundanese- English Learners: A Hand Movement Study}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Learning second language (L2) sounds is influenced by the first language (L1) sound system. This current study seeks to examine how English language learners who have a smaller L1 vowel inventory perceive English sounds. To reveal L2 sound perception, we measured the mouse trajectories related to the hand movements performed by Javanese and Sundanese language learners as they selected their responses. This study aims to map the patterns of real-time processing through compatible hand movements, to reveal any uncertainties participants have when making selections. The participants completed a categorization task, classifying stimuli as long or short vowels. Results show clear regional differences in the OVE that corresponds to the regional differences in fricative devoicing. The devoicing process seems thus to trigger a reduction of the OVE, but not (yet) its full disappearance. We argue that these results are in line with the full merger hypothesis. The results showed that the Javanese listeners exhibited significantly lower velocity values than the English listeners for the similar vowels /I, ɛ, ʊ/ between 826-1200 ms post-stimulus interval. The Sundanese listeners showed lower velocity values than the English listeners for /I/ approximately between 676-1200 ms post-stimulus interval. For the perception of the new vowels /i:, {\ae}, ɜ:, ʌ, ɑ:, u:, ɔ:/, the Javanese listeners showed lower velocity in making a decision between 826-1200 ms post stimulus interval. The Sundanese listeners showed lower velocity only for the vowels /ɜ:, ɔ:, {\ae}/ between 676-1200 ms post stimulus interval. Lower velocity values of the hand movement suggest that during the processing of L2 vowels, the L2 learners experienced greater uncertainty in decision making. The results are consistent with the Second Language Linguistic Perception Model (Escudero, 2005), which predicts how L2 learners struggle to perceive new L2 sounds, when the L1 perception grammar has less perceptual categories than the L2.

}, author = {Arum Perwitasari} } @article {18, title = {Zijn kinderen met een gehoorverlies herkenbaar?}, year = {2016}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Een vergelijking van de spraak van normaalhorende kinderen, kinderen met een cochleair implantaat en kinderen met een hoortoestel. Ondanks een hoorhulpmiddel wijkt de spraak van een kind met gehoorverlies af van de spraak van normaalhorende kinderen (Lenden \& Flipsen, 2007; Verhoeven et al., 2016). De vraag is echter of luisteraars dit verschil ook kunnen waarnemen. Het doel van dit onderzoek is tweeërlei. Enerzijds wordt er nagegaan of luisteraars een verschil horen tussen de spraak van normaalhorende kinderen (NH) en kinderen met een gehoorverlies. Anderzijds wordt onderzocht of er gedifferentieerd wordt tussen twee verschillende hoorhulpmiddelen: een cochleair implantaat (CI) en een akoestisch hoortoestel (HA). In een categorisatietaak oordeelden 90 volwassen luisteraars over de hoorstatus (NH, HA, CI) van een honderdtal uitingen. Deze uitingen waren afkomstig van 7 CI-, 7 HA- en 7 NH-kinderen van ongeveer zeven jaar oud. Ons onderzoek laat zien dat luisteraars vlot de spraak van normaalhorende kinderen kunnen onderscheiden van de spraak van kinderen met een gehoorverlies. CI- en HA-kinderen zijn echter nauwelijks te onderscheiden. Wel blijken kinderen met een cochleair implantaat vaker als {\textquotedblleft}normaalhorend{\textquotedblright} gecategoriseerd te worden dan kinderen met een akoestisch hoortoestel. Laatstgenoemden kregen vaker het label {\textquotedblleft}kind met gehoorverlies{\textquotedblright}.

Literatuur

  • Lenden, J. M., \& Flipsen, P., Jr. (2007). Prosody and voice characteristics of children with cochlear implants. Journal of Communication Disorders, 40(1), 66- 81.
  • Verhoeven, J., Hide, O., De Maeyer, S., Gillis, S., \& Gillis, S. (2016). Hearing impairment and vowel production. A comparison between normally hearing, hearing-aided and cochlear implanted Dutch children. Journal of Communication Disorders, 59, 24-39.
}, author = {Nathalie Boonen} } @article {11, title = {The onset voicing effect: evidence from Dutch labiodental fricatives}, year = {2016}, month = {16.05-16.25}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

In a wide variety of languages, it has been reported that vowel F0 at the onset tends to be lower after voiced than after voiceless consonants (e.g., Hombert et al., 1979). This phenomenon has been called onset voicing effect (OVE) by Kirby \& Ladd (2015). Learning second language (L2) sounds is influenced by the first language (L1) sound system. This current study seeks to examine how English language learners who have a smaller L1 vowel inventory perceive English sounds. To reveal L2 sound perception, we measured the mouse trajectories related to the hand movements performed by Javanese and Sundanese language learners as they selected their responses. This paper investigates the presence of the OVE in Dutch initial labiodental fricatives. Previous studies have shown that Dutch initial fricatives are currently devoicing (e.g., Kissine et al., 2003; Pinget, 2015). We thus examine whether the OVE is maintained in the case of devoicing. The maintenance of the OVE in the case of devoicing would provide evidence for incipient tonogenesis, whereas the disappearance of the OVE would indicate that initial labiodental fricatives develop as a full merger. This study aims to map the patterns of real-time processing through compatible hand movements, to reveal any uncertainties participants have when making selections. The participants completed a categorization task, classifying stimuli as long or short vowels. Results show clear regional differences in the OVE that corresponds to the regional differences in fricative devoicing. The devoicing process seems thus to trigger a reduction of the OVE, but not (yet) its full disappearance. We argue that these results are in line with the full merger hypothesis.

}, author = {Anne-France Pinget} } @article {35, title = {Aantrekkelijkheid van mannelijke sprekers: Effecten van tempo en toonhoogte}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Vrouwen beoordelen mannen als meer aantrekkelijk naarmate die mannen een lagere toonhoogte hebben; dit wordt doorgaans toegeschreven aan vrouwelijke seksuele selectie. Mannen spreken echter niet alleen met een lagere toonhoogte maar ook met een gemiddeld hoger tempo dan vrouwen.

In deze studie wordt onderzocht of spreektempo eveneens invloed heeft op de subjectieve aantrekkelijkheid van mannelijke sprekers voor vrouwelijke luisteraars. Daartoe werden 24 mannelijke stemmen gemanipuleerd in gemiddeld tempo (factoren 0.85, 1.00, 1.15) en gemiddelde toonhoogte (+1.5, 0, -1.5 semitoon).

Beoordelingen door vrouwelijke luisteraars laten zien dat zowel tempo als toonhoogte van invloed is op de aantrekkelijkheid. De invloed van toonhoogte was daarbij groter dan die van tempo. Bovendien lijken de effecten van tempo en toonhoogte tussen luisteraars samen te hangen. Tempo en toonhoogte lijken dus beide relevant te zijn voor op spraak gebaseerde seksuele selectie van mannen door vrouwen.

}, author = {Hugo Quen{\'e} and Geke Boomsma and Rome{\'e} van Erning} } @article {35, title = {Another heresy: RAX entails bostrodac-fypaestmo}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In linguistics/phonetics {\textquoteleft}stress{\textquoteright} is generally treated as some sort of {\textquoteleft}prominence{\textquoteright} one can pick up and move about like cherries on a cake. Rhythm is rarely mentioned. It is terra incognita remaining unexplored.

Indeed, Fraisse{\textquoteright}s ground-breaking Psychologie du rythme (1974) is never even mentioned at all. Postulating a Rhythmic Alternation aXiom saying {\textquoteright}no more than two weaker between stronger beats, etc.{\textquoteright}, this logically entails (hierarchies of) no more than 9 ictus {\textpm} remiss(es) groupings: yamBOS, TROchee, DACtylus, (+)amPHIbrach(+), anaPAEST and MONE, or BTDFPM for short (and thereby a simple notational system inviting further research into forms and functions). This BTDFPM notation is easily converted into an {\textquoteleft}embodied{\textquoteright} oral version (and vice versa!), still further enhancing the analyst{\textquoteright}s rhythmic sophistication. Speech exhibits a three-tier hierarchy and therefore primary, secondary and tertiary ictuses and grouping dividers.

Taking lines 6 and 7 from vBuuren (2015) I shall illustrate some of this, inviting falsification as always.

}, author = {Lucas van Buuren} } @article {35, title = {Articulatory asymmetries in speech production}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

This paper presents the results from an investigation of asymmetries in speech articulation on the basis of 1,502 previously published palatograms of a wide variety of speech sounds in a range of languages. For each palatogram, the direction and degree of tongue-palate contact was quantified by means of an index capturing the degree of lateral asymmetry.

The results of this investigation show that lingual asymmetry in the articulation of speech sounds is substantial: 83 \% of the palatograms are asymmetrical. With respect to the direction of the asymmetry it is found that the asymmetry is more often towards the left side of the palate (45 \%) than to the right side (38 \%). Further analysis reveals that there are significant differences in both the direction and the degree of the asymmetry as a function of manner and place of articulation.

}, author = {Jo Verhoeven and Ilke De Clerck and Peter Mariën} } @article {35, title = {Correlaten van intonatie in medeklinkers: fricatieven in fluister- versus normale spraak}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Intonatie is enigszins hoorbaar in fluisterspraak, maar de belangrijkste perceptieve cue, de grondfrequentie van de spreker, ontbreekt: er is geen stembandtrilling. De vraag is hoe we perceptie van intonatie in fluisterspraak kunnen verklaren.

Eerder werden akoestische correlaten en perceptieve cues van intonatie in fluisterspraak voornamelijk gezocht in klinkers; formantfrequenties vertonen systematische verschuivingen met hoog dan wel laag bedoelde, gefluisterde klinkers. Recenter onderzoek laat zien dat in normale spraak ook de akoestiek van medeklinkers beïnvloed wordt door hun prosodische context, en dat die veranderingen informatief kunnen zijn voor luisteraars. Medeklinkers zouden daarom ook een bijdrage kunnen leveren aan intonatie in fluisterspraak. En omdat de middelen om intonatie uit te drukken voor de spreker beperkter zijn in fluisterspraak, zou het medeklinker-effect in die spraakmodus wel eens groter kunnen zijn.

Daarom heeft deze studie gekeken of stemloze fricatieven in gefluisterde en in normale spraak (1) akoestisch beïnvloed worden door de toonhoogte-context, (2) of dat sterker is in fluisterspraak dan in normale spraak, en (3) of luisteraars deze informatie gebruiken om toonhoogteverschillen te horen. Resultaten laten zien dat er systematische akoestische verschillen zijn tussen intonatiecondities, dat die vergelijkbaar zijn tussen normale en fluisterspraak, en dat ze voor luisteraars beperkt informatie bevatten.

}, author = {Willemijn Heeren} } @article {35, title = {FAME! - The Frisian Audio Mining Enterprise}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

We have recently presented a new speech database containing 18.5 hours of annotated radio broadcasts in the Frisian language. Frisian is mostly spoken in the province Fryslân and it is the second official language of the Netherlands. The native speakers of Frisian are mostly bilingual and often code-switch in daily conversations due to the extensive influence of the Dutch language.

Considering the longitudinal and code-switching nature of the data, an appropriate annotation protocol has been designed and the data is manually annotated with the orthographic transcription, speaker identities, dialect information, code-switching details and background noise/music information. This data has been collected in the scope of the FAME! (Frisian Audio Mining Enterprise) Project which aims to build a spoken document retrieval system for the disclosure of the archives of Omrop Fryslân (Frisian Broadcast) covering a large time span from 1950s to present and a wide variety of topics. Omrop Fryslân is the regional public broadcaster of the province Fryslân and the main data provider of this project with a radio broadcast archive containing more than 2600 hours of recordings.

In this presentation, we will address both the disclosure of this "big data", especially its phonetic aspects, and the rich potential of code switching research using this new database.

}, author = {Emre Y{\i}lmaz and Maaike Andringa and Sigrid Kingma and Frits van der Kuip and Hans Van de Velde and Frederik Kampstra and Jouke Algra and Henk van den Heuvel and David van Leeuwen} } @article {35, title = {How speech rate shapes perception}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Speech can be delivered at different rates and, as a consequence, listeners have to normalize the incoming speech signal for the rate at which it was produced. This perceptual process, known as rate normalization, is contrastive in nature: for instance, the perception of an ambiguous Dutch vowel in between short /ɑ/ and long /a:/ is biased towards hearing long /a:/ when preceded by a fast sentence context.

Rate normalization has (primarily) been explained in terms of durational contrast: the ambiguous vowel is perceived as longer because it has a relatively long duration compared to the preceding shorter vowels in the fast context. In this presentation, novel experimental data will be presented that challenge this account of durational contrast by (1) demonstrating that it is the contextual rate, not duration, that elicits rate normalization; and (2) suggesting that vowel categorization is sensitive to the phase of the contextual rhythm.

In order to explain these new findings, a neurobiologically plausible account of rate normalization is proposed involving neural entrainment of endogenous brain oscillations to the speech rate of the spoken signal.

}, author = {Hans Rutger Bosker} } @article {35, title = {Long term stability of tracheoesophageal voice quality}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

As part of the treatment for laryngeal tumors, the larynx is often removed. These laryngectomized patients lose their voice box and with it, their voice and speech. To restore speech, patients obtain an indwelling voice prosthesis. With this prosthesis, patients can use the upper part of their esophagus as a substitute glottis, the neo-glottis.

It is currently not clear how the neo-glottis responds to long term use in speech. Tissue characteristics might change over the years which might affect voice and speech quality. Therefore, the question arises whether the quality of the substitute voice of our patients changes over time. We collected pairs of speech samples, a reading of the "80 dappere fietsers" text, from 13 patients recorded with an interval of 7 years or more. Ten experienced speech and language pathologists rated these recordings on intelligibility and voice quality.

Our results show no definite change during this time. Some patients are evaluated as having better speech after this time, some worse. On average, there might be a small, statistically non-significant decrease in speech intelligibility and voice quality that might possibly be related to aging. We conclude that the long time quality of TE voices is remarkably stable.

}, author = {Rob van Son and Klaske van Sluis and Michiel van den Brekel} } @article {35, title = {MAS+: an adapted methodology in the context of Frisian-Dutch prosody}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

For many languages, prosody in contact linguistics is a relatively under-explored topic. Hardly any research has been published on the prosodic traits of the minority language Frisian. In this light, this study will briefly compare Frisian and Dutch sentence intonation patterns in declarative, polar interrogative and imperative constructions. It uses the Melodic Analysis of Speech (MAS) method to describe these patterns, and will then address a weakness in the existing method; the inability to investigate variation at utterance onset.

This study describes the subsequent implementation and validation of an adapted method, MAS+, which, in combination with the original method, allows for more fine-grained analysis. In MAS+, a balanced application of the original normalisation method does allow for analysis at onset by normalising across the entire utterance instead of only at onset. This new method is validated as application to the same dataset yields the same general results.

The main differences can still be found between speaker groups, i.e. Frisian-Dutch bilinguals on the one hand and local Dutch monolinguals on the other hand, instead of between the two languages. Additionally, some results still hint at divergence, instead of the often-expected convergence of a minority language towards a majority language.

}, author = {Amber Nota and Nanna Hilton and Matt Coler} } @article {35, title = {Nog een foneem erbij in het Nederlands}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Omdat ik graag fonemen tel, heb ik me jarenlang afgevraagd hoe het zit met de geschreven \<w\> in het Nederlands, en dan in het bijzonder wat er gebeurt als de "vocale" \<w\>, zoals in \<eeuw\>, botst met de "consonantale" zoals in \<wisseling\>, dus bijvoorbeeld in het woord \<eeuwwisseling\>. Mijn student Ilaria Colombo heeft het nu uitgezocht met een aantal proefpersonen, die ieder een stuk tekst van het KNMI over sneeuw twee keer voorlazen (en alleen de vlot uitgesproken tweede versie is getoetst).

Fonetisch gesproken blijken eind-\<w\>{\textquoteright}s inderdaad meer vocalisch te noemen en begin- \<w\>{\textquoteright}s meer consonantaal. Wat er in \<ww\> gebeurt is echter opvallend: het geheel heeft de duur van een typische eind-\<w\> *plus* de duur van een typische begin-\<w\>, en de eerste helft heeft de akoestische eigenschappen van een typische eind-\<w\>, terwijl de tweede helft de akoestische eigenschappen van een typische begin-\<w\> heeft.

Nu zeggen de fonetische eigenschappen van de \<w\> niet *alles* over de fonologie van de \<w\>, maar toch wel *wat*. Want als de \<w\> mee zou doen aan de door verschillende fonologen geclaimde algemene Nederlandse regel van degeminatie, dan zou je verwachten dat \<eeuwwisseling\> zou klinken als "ee+wisseling" of als "eeuw+isseling", of misschien als een soort ambisyllabische tussenvorm, maar niet als "eeuw+wisseling", en dat doet het dus wel.

De conclusie is dat er ofwel 1 foneem "w" is dat zich toevallig aan degeminatie onttrekt, ofwel dat de fonologie van het Nederlands netjes generaliseert over alle consonanten, en dat er dus 2 fonemen "w" zijn. Met deze laatste mogelijkheid correspondeert waarschijnlijk het gebrek aan alternanties. In mijn praatje laat ik zien hoe een computergesimuleerde leerder van het Nederlands vanzelf een voorkeur krijgt voor een analyse in 2 fonemen.

Over de spreker:

Prof. Paul Boersma is hoogleraar Fonetiek aan de Universiteit van Amsterdam. Zijn onderzoek richt zich vooral op het expliciet modelleren van fonetische en fonologische perceptie, productie, verwerving en verandering.

}, author = {Paul Boersma} } @article {35, title = {Prosodic prominence production in the babbles of Cochlear Implanted (CI) and normally hearing (NH) infants: A perceptual experiment}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

A recent acoustical study of prominence production has shown that infants with CI differentiate less between syllables in terms of fundamental frequency and intensity, even from babbling on [1]. The present study investigates if this acoustical difference beween infants with CI and NH infants is also perceivable by listeners.

The stimuli used in this study were disyllabic babbles produced by Dutch-acquiring infants with CI (n=9) and NH infants (n=9). The stimuli (n=527) were presented one by one to adult judges (n=30) in a perceptual rating task. The raters had to indicate the prosodic differentiation between the two syllbales by moving a slider on a visual analogue scale (VAS).

The first analysis on the entire dataset showed that the babbles of the CI infants were not perceived as having less differentiated prominence. A second analysis was conducted on the ratings at the extremes of the VAS. The results showed that NH babbles were more likely to be rated at the extremes and thus as having differentiated prominence. It is concluded that even in prelexical utterances there is a slight perceivable discrepancy between the prominence production of CI and NH infants, confirming previous acoustical findings [1].

  1. Pettinato, M., De Clerck, I., Verhoeven, J., \& Gillis, S. (2015). The production of word stress in babbles and early words: a comparison between normally hearing infants and infants with cochlear implants. Paper presented at the 18th international congress of phonetic sciences, Glasgow, Scotland.
}, author = {Ilke De Clerck} } @article {35, title = {The increasing effect of complexity in children with cochlear implants: Consonant cluster development}, year = {2015}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Research has shown that children with cochlear implants (CI) use the same phonological processes as normally hearing (NH) peers with respect to consonant cluster development. However, the incidence of those phonological processes has not been examined in the literature thus far. Furthermore, a quantified comparison between both groups of children is missing in the literature, as well as studies on the spontaneous speech of Dutch-speaking children with CI.

The present study has taken up from these observations and examines the frequency of each phonological process in consonant cluster production and compares it in both groups of children. Nine children with CI and 84 NH children were followed longitudinally: monthly from the onset of word production up to 24 months of age and yearly between three and seven years of age. Word onset two-element consonant clusters are analysed using multilevel models.

Results show that children with CI produce consonant clusters less frequently and less accurately than their NH peers. In addition, children with CI reduce consonant clusters for a longer period than their NH peers. However, the effect of sonority (sonority hypothesis, Ohala 1999) on these cluster reductions is similar in both groups of children. The differences between both groups of children disappear by age five. Thus, children with CI show a delay in consonant cluster production, but seem to catch up on their normally hearing peers by age five.

}, author = {Jolien Faes} } @article {47, title = {Cross-linguistic variation in Saterland Frisian vowels}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, author = {Heike Schoormann and Wilbert Heeringa and J{\"o}rg Peters} } @article {47, title = {Een exploratief onderzoek naar lange-termijn formanten in tweetalige sprekers}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Lange-termijn formanten (LTFs), d.w.z. gemiddelden van formantmetingen (F1, F2, F3) van vocalen in lange fragmenten, worden gezien als een bruikbaar feature in forensische sprekervergelijking (vb. Nolan and Grigoras, 2005; Gold e.a., 2013), omdat ze eigenschappen van de supralaryngale holten van een specifieke spreker reflecteren. LTFs zouden onafhankelijk zijn van individuele segmenten (Nolan and Grigoras, 2005) en talen (Jessen, 2010). Maar er is meer onderzoek nodig om deze laatste claim te valideren, o.a. omdat het aantal onderzochte taalcombinaties klein is, en verschillende spreekstijlen wel degelijk een invloed hebben op LTFs (Moos, 2010). In dit exploratieve onderzoek wordt hiertoe een eerste stap gezet. Aan de hand van forensisch getapt telefoonmateriaal (Van der Vloed et al., 2014) is bekeken in hoeverre LTFs vergelijkbaar zijn tussen talen en binnen sprekers in een groep van twaalf bilinguale sprekers van het Nederlands en het Turks. De resultaten duiden erop dat LTFs vergelijkbaar zijn tussen talen, en dat ze meer vergelijkbaar zijn binnen sprekers dan tussen sprekers. Dit ondersteunt de bruikbaarheid ervan voor forensische sprekervergelijking.

Referenties

  • Gold, E., French, P. and Harrison, P. (2013). Examining long-term formant distributions as a discriminant in forensic speaker comparisons under a likelihood ratio framework. Proceedings of Meetings on Acoustics, Vol. 19.
  • Jessen, M. (2010). Workshop Langzeitformantenanalyse. BKA, Wiesbaden, 28 April 2010.
  • Moos, A. (2010). Long-term formant distribution as a measure of speaker characteristics in\ read and spontaneous speech. The Phonetician 101, 7{\textendash}24.
  • Nolan, F. and Grigoras, C. (2005). A case for formant analysis in forensic speaker\ identification. Journal of Speech, Language and the Law 12, 143{\textendash}173.
  • Van der Vloed, D. L., Bouten, J. S. and Van Leeuwen, D.A. (2014). NFI-FRITS: A forensic speaker recognition database and some first experiments. Proceedings of Odyssey Speaker and Language Recognition Workshop 2014, Joensuu, Finland, June 16-19, 2014, pp. 6-13.
}, author = {Willemijn Heeren and David van der Vloed and Jos Vermeulen} } @article {47, title = {Falling silent, lost for words ... Tracing personal involvement in interviews with Dutch war veterans}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In sources used in oral history research (such as interviews with eye witnesses), passages where the degree of personal emotional involvement is found to be high can be of particular interest, as these may give insight into how historical events were experienced, and what moral dilemmas and psychological or religious struggles were encountered. The length of speech pauses are important paralinguistics cues reflecting the emotional state of a speaker (Tisljár-Szabo \& Pléh, 2014) and these can be realised by silent pauses, filled pauses and word lengthening (Van Donzel \& Koopmans-van Beinum, 1996).

In a pilot study involving a large corpus of interview recordings with Dutch war veterans, we have investigated if it is possible to develop a method for automatically identifying those passages where the degree of personal emotional involvement is high. The method is based on the automatic detection of exceptionally large silences and filled pause segments (using Automatic Speech Recognition), and cues taken from specific n-grams. The first results appear to be encouraging enough for further elaboration of the method.

}, author = {Henk van den Heuvel and Nelleke Oostdijk} } @article {47, title = {Hoe moedertaalsprekers en tweedetaalleerders woorden met gereduceerde sjwa herkennen}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Door sjwa-reductie klinkt een Engels woord zoals support vaak als sport. Wij onderzochten hoe dergelijke uitspraakvarianten geïnterpreteerd worden door drie groepen luisteraars met moedertalen die verschillen in de mate waarin klinkerreductie voorkomt. Engelse en Nederlandse luisteraars hebben veel ervaring met klinkerreductie in hun moedertaal, terwijl Spanjaarden daar nauwelijks ervaring mee hebben. In het Engels kan reductie van sjwa leiden tot heel korte en volledig afwezige sjwa{\textquoteright}s. In woorden waarin sjwa gevolgd wordt door een stemloze plosief, blijkt de aanwezigheid van die sjwa ook uit de aspiratie op die volgende plosief: de /p/ van support verschilt van die van sport.

In een decisietaak gaven proefpersonen voor Engelse pseudowoorden (bijvoorbeeld suppol) aan of ze één of twee lettergrepen hoorden. We manipuleerden (1) de duur van de sjwa (0 tot 48 ms) en (2) de aspiratieduur van de erop volgende /p/ (0 tot 65 ms). De resultaten laten zien dat de Engelse moedertaalsprekers beide details gebruiken bij hun interpretatie. Nederlanders en Spanjaarden waren minder gevoelig voor variatie in aspiratieduur, overeenkomstig het belang van aspiratieduur in hun moedertaal. Spanjaarden hadden een langere sjwa nodig hadden om twee lettergrepen te horen. We concluderen dat moedertaal een effect heeft op hoe luisteraars gereduceerde woorden verstaan.

}, author = {Ellen Aalders and Mirjam Ernestus} } @article {47, title = {Individual predictors of articulatory precision in sibilant production across the adult life span}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Whereas there has been a considerable amount of research on cognitive predictors for language comprehension ability, very little is known about individual differences in spoken language production. While links have been found between individuals{\textquoteright} production patterns and their perceptual category boundaries, it is unclear whether and how cognitive and linguistic abilities affect articulatory precision.

This study investigates articulatory precision in a large sample (n=100) of younger, middle-aged and older Dutch adults as indexed by center of gravity measures (spectral moments) for word-initial sibilants ([ʃ], [s]). The research question is whether individuals{\textquoteright} production precision is related to measures of a test battery (e.g., hearing acuity, memory, processing speed, vocabulary) and/or to speech perception performance quantified as performance in a preceding listening study. We also investigate effects of age, sex, education level and regional variation on articulatory precision and include speech rate effects in our statistical modelling. Participants were asked to read aloud a carrier sentence containing target words starting with either [ʃ] or [s] followed by one of five different vowels. Analyses are based on differences in center of gravity measures for the two sibilants as well as on centroid distance measures for the vowel contexts. Results will be discussed.

}, author = {Xaver Koch and Esther Janse} } @article {47, title = {Phonetic characteristics of Foreign Accent Syndrome}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Foreign Accent Syndrome is a relatively rare motor speech disorder in which the speech accent of a patient is perceived as a foreign accent (e.g. a native speaker of English who develops a French accent) or as a different regional accent (a native speaker of Southern British English who develops a Northern English accent). The emergence of this foreign accent is often associated with damage to the central nervous system (neurogenic FAS), but recently there has been increased recognition that psychogenic factors may play a significant role (psychogenic FAS).

This presentation will present the most important phonetic characteristics of Foreign Accent Syndrome on the basis of an exhaustive analysis of all professional publications on Foreign Accent Syndrome since 1907, i.e. the year in which the first Foreign Accent Syndrome patient was described by the French Neurologist Pierre Marie. All the phonetic errors reported in these publications were exhaustively inventorized and classified according to the different phonetic mechanisms involved. At the segmental level, errors were classified in terms of initiation, phonetics, articulation and co-ordination. At the suprasegmental level, all statements about intonation, tone, rhythm and segment duration were inventorized and analyzed.

From the analysis, it is clear that the speech of Foreign Accent Syndrome speakers shows errors at both the segmental and suprasegmental level, with deviations in intonation topping the list. Segmental errors are generally consistent with a picture in which the speech of Foreign Accent Syndrome patients shows tendencies towards a tenser articulatory setting and a simplification of of speech sound articulation to reduce articulatory complexity. Although errors at the suprasegmental level are reported very frequently, there is little indication that these truly reflect deviant prosody: they may well represent a communicative strategy of the FAS speaker to stay in control of the speaking turn.

Over de spreker:

Jo Verhoeven is Universitair Hoofddocent Taalkunde aan de Universiteit Antwerpen en Reader in Phonetics aan City University London. Hoewel hij een erg ruime interesse heeft in de fonetiek in het algemeen, is zijn onderzoek zich de laatste jaren steeds meer gaan richten op de spraakpathologie.

}, author = {Jo Verhoeven} } @article {47, title = {Reduction of word final /st/-clusters in monosyllabic and compound nouns in Dutch dialects}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

The main research question of this article was whether different reduced word forms are stored in the mental lexicon of the speaker. This was answered by means of a production experiment where participants coming from Roosendaal and Ede had to read phrases that were presented to them. These phrases contained two nouns, the first ending in the cluster /st/ and the second beginning with a consonant.

Reduced word forms were measured and results show that the effect of dialect were strongly significant with regard to the pronunciation of /s/ (F(1, 1022) = 78.399; p \< .001) and /t/ (F(1, 1022) = 736.293; p \< .001). Specifically, people speaking the dialect of Ede pronounced /t/ in such a way that it added up to a total of 5\% of the total word while this was 16\% for the people of Roosendaal.

The final experiment contained a lexical decision task and it showed that people from Ede were a lot less accurate when compared to speakers of Roosendaal (41.66\% less accurate, to be exact). This means that people from Ede often perceived reduced words as words. We propose a hybrid-model of word recognition.

}, author = {Wouter Broos} } @article {47, title = {Ritmische convergentie in T1 en T2 Engels}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Als T1- en T2-sprekers Engels als lingua franca gebruiken, dan verwachten we dat hun accenten convergeren, en dat ook de ritmische patronen zullen convergeren. Deze ritmische convergentie is onderzocht met behulp van een longitudinaal corpus (27 gevorderde T2-sprekers van het Engels, 8 T1-sprekers). Spraakritme is hier geoperationaliseerd als de piekfrequentie in het spectrum van het intensiteitsverloop, genormaliseerd voor spreeksnelheid.

Onze resultaten laten zien dat (1) de variantie tussen sprekers in ritme mettertijd afneemt, vooral tussen de eerste en tweede geluidsopname. (2) Ritme verschilt significant tussen mannen en vrouwen, maar alleen voor de T1-sprekers. (3) De ritme-maat wordt enigszins beïnvloed door spreektempo, omdat zwakke syllaben sterker worden gereduceerd bij een sneller tempo, maar ook dit effect treedt alleen op bij de T1-sprekers.

Deze bevindingen suggereren dat (a) ritmische convergentie inderdaad optreedt, terwijl (b) tegelijkertijd de subtiele effecten van geslacht en metrische structuur niet goed verworven worden door de gevorderde T2-sprekers.

}, author = {Hugo Quen{\'e} and Rosemary Orr} } @article {47, title = {Second-dialect performance on TV: Accuracy and acceptability}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Performance in a second dialect (Trudgill, 1983) is thought not to give a realistic view of second-dialect acquisition (Chambers, 1992; Siegel, 2010). An analysis of performance, however, excludes factors as motivation and analytical ability, and allows for an exclusive focus on the extent to which speakers can modify their behaviour.

This paper focuses on the short vowel systems in the American English performance of three Australian actors in the television series Camp (2013). There are clear phonological and phonetic differences between Australian and American English, necessitating an adaptation of accent. Acoustic analysis shows that, for the KIT /ɪ/, DRESS /ɛ/ and TRAP /{\ae}/ vowels, the actors use sufficiently lowered realisations to fit an American model, but at the expense of greater variability in their second dialect compared to their first. This is in line with findings from second-language acquisition (van Dijk et al., 2011). Performance for the STRUT /ʌ/ and LOT /ɑ/ vowels is less on target. As the actors{\textquoteright} American English accents received mixed reviews on internet fora, the acoustic analysis will be contrasted with a foreign-accent rating (underway at the time of abstract submission).

References

  • Chambers, J. K. 1992. Dialect acquisition. Language 68(4), 673{\textendash}705.
  • Van Dijk, Marijn, Marjolijn Verspoor \& Wander Lowie. 2011. Variability and DST. In Marjolijn Verspoor, Kees de Bot \& Wander Lowie (eds.), A dynamic approach to second language development: methods and techniques, 55{\textendash}84. Amsterdam: Benjamins.
  • Siegel, Jeff. 2010. Second dialect acquisition. Cambridge: Cambridge University Press.
  • Trudgill, Peter. 1983. Acts of conflicting identity: the sociolinguistics of British pop-song pronunciation. In On dialect: social and geographical perspectives, 141{\textendash}160. Oxford: Blackwell.
}, author = {Remco Knooihuizen} } @article {47, title = {Variability in L2 phonology: a plea for a dynamic, process-based methodology}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Even though the most important questions about the acquisition of (L2) sound systems concern change over time (like the effect of age of onset; acquisition orders, perception vs. production; implicational relationships), most research has investigated the outcomes of phonological development rather than the process itself. I will argue that only a longitudinal, process-based approach can truly inform us about the developmental process. In this paper I will report on two longitudinal case studies of English learners of Dutch.

Using variability analyses and nonlinear time series analyses, several phonetic correlates (Voice Onset Time, vowel formants) were analyzed over time in two tasks: a word naming task and in a shadowing task. Based on previous studies it could be expected that pronunciation accuracy is first approached in shadowing tasks and gradually spreads to more spontaneous production.

The data show variable developmental patterns in the two tasks, and support the idea that variability is not an irrelevant by-product of development, but can be seen as the motor of change. The data also show how process-based analyses will be able to reveal dynamic interactions that would remain concealed in product based approaches.

}, author = {Wander Lowie} } @article {47, title = {Word onset effect in interactional speech errors: spontaneous speech versus elicitation}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Interactional speech errors are speech errors that have an obvious source in the immediate environment. It has been observed that segmental interactional speech errors are more frequent in word onsets than in other positions. Earlier we have shown that in spontaneous speech this so-called "word onset effect" in interactional errors in spontaneous speech may be fully explained by the number of opportunities segments in different positions in the word have for interaction with other segments in the immediate environment. However, there is experimental evidence for a real word onset effect in elicited interactional speech errors.

We will report a tongue twister experiment set up to investigate interactional substitutions of consonants under different elicitation conditions. Results show a real and considerable word-onset effect if the interacting consonants share both word-onset position and pre-stress position as compared to a condition in which they share a word medial position plus pre-stress position. However, when the interacting consonants share neither position in the word nor pre-stress position, error frequency is completely determined by numbers of opportunities. We conclude that the word onset effect is limited to experiments that successfully elicit interactions by selective activation of segments.

}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {47, title = {The aerodynamic puzzle of Scottish Gaelic nasalized fricatives}, year = {2014}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Scottish Gaelic is sometimes described as having nasalized fricatives (/ṽ/ distinctively, and [f̃, x̃, h̃] etc. triggered by assimilation). However, there \ are claims in the phonetic literature that\  \ it \ is \ not\  \ aerodynamically \ possible \ to\  \ open\  \ the\  \ velum \ for\  \ nasalization \ while maintaining frication noise.

We present aerodynamic data from \ 14 native \ Scottish Gaelic \ speakers to determine how the \ posited nasalized fricatives in this language \ are \ realized. \ Most tokens demonstrate loss of the \ nasalization distinction, \ but \ some productions include nasalization with \ the consonant realized as an approximant, nasalization of [h̃], nasalization on the vowel preceding the \ consonant, or sequential frication and nasalization, none \ of which pose an aerodynamic conflict.\  A very \ few tokens do contain nasalization and frication at the same time with \ a trade-off in airflow.

We also present perceptual evidence showing that Gaelic listeners can hear this distinction significantly better than \ chance, but not well. \ Thus, instrumental phonetic data from \ this language, one \ of the \ few \ in the \ world described as having \ nasalized fricatives, confirms that\  \ such \ a \ distinction \ is \ possible,\  \ but\  \ not\  \ through \ producing \ strong \ nasalization concurrently \ with\  \ clear\  \ frication \ noise.\  \ Furthermore, \ although speakers \ most \ often neutralize the distinction, when they \ maintain it they \ do so through a variety of phonetic mechanisms, even within a single language.

}, author = {Natasha Warner} } @article {61, title = {Cross-regional differences in the perception of a sound change in progress}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

This paper presents the results of a speeded categorization task aimed at getting insight in the speech perception patterns of speakers from three regions of the Dutch language area. In these regions the devoicing of onset /v/ to [f] is in different stages (West-Flanders: incipient, South-Holland: advanced and Groningen: almost complete) and the regions show differences in the implementation of the voicing contrast (Kissine et al. 2004). We tested the use of two dimensions (degree of periodicity and duration, 9 steps each) in the perception of the Dutch labiodental fricatives. In each region we selected 10 male and 10 female participants, age 18-28, and highly educated. The participants had to categorize 405 stimuli (9 x 9 x 5 runs) asv orf. It turned out that in all regions, periodicity is consistently used as the main cue in the cat- egorization of the stimuli, but speakers from West-Flanders and Groningen also use duration information but in different ways in the categorization of the labiodental fricatives. People from Groningen are the least categorical in their judgments. The results will be discussed in relation to the production differences found in previous studies.\ 

}, author = {Anne-France Pinget and Hans Van de Velde and Ren{\'e} Kager} } @article {61, title = {De invloed van de Zipfdistributie op het leren van tweede orde fonetische beperkingen}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Fonetische beperkingen defini{\"e}ren taalafhankelijke foneemsequenties. Zo kan een woord in het Engels, in tegenstelling tot een woord in het Vietnamees, niet beginnen met een ng. Eerste orde fonetische beperkingen zijn slechts afhankelijk van de positie van de klank; tweede orde fonetische beperkingen zijn ook afhankelijk van andere eigenschappen van de lettergreep, zoals de klank in de onset of de coda. Onishi et al. (2002) hebben aangetoond dat volwassenen de twee orde beperkingen van een kunstmatige taal binnen afzienbare tijd kunnen leren. Het te bespreken onderzoek heeft bekeken of fonetische beperkingen in een kunstmatige taal beter geleerd worden als de woorden van een taal aangeboden worden volgens de Zipfdistributie dan wanneer ze aangeboden worden in een uniforme distributie. Proefpersonen luisterden naar CVC-woorden met tweede orde beperkingen. Hun kennis van de taal werd getest door ze een superset van de geleerde woorden te laten beluisteren en deze na te laten zeggen. Dit liet geen voordeel zien van de Zipfdistributie ten opzichte van de uniforme distributie noch waren er aanwijzingen dat de proefpersonen tweede orde beperkingen geleerd hadden. Wij vermoeden dat de woorden uit de te leren taal te weinig aangeboden waren om goed te kunnen leren. Een andere complicerende factor is dat de gebruikte kustmatige taal waarschijnlijk te complex was.\ 

}, author = {Laura Baakman} } @article {61, title = {Een nieuwe stem voor het Fries}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In 2011 is, met subsidie van de Provincie Frysl{\^a}n, de tekst-naar-spraaksoftware van Fluency uitgebreid met twee Friessprekende stemmen. Deze stemmen bleken niet helemaal te voldoen aan de verwachtingen van de subsidiegever en andere partijen die bij het project waren betrokken. Daarom is dit jaar in een vervolgproject een nieuwe stem geproduceerd, met als expliciet doel: een hoger kwaliteitsniveau. Om dit doel te bereiken hebben we een professionele spreker ingeschakeld, wiens stem bekend is van zijn voice-overs voor Omrop Frysl{\^a}n. Behalve het eerder samengestelde inspreekcorpus voor het Fries (1018 woorden/zinnen) hebben we extra materiaal laten inspreken: nieuwsberichten, teksten van websites, twee langere literaire fragmenten, en een deel van het Nederlandse inspreekcorpus. De opnames zijn gelabeld op woord- en foneemniveau met een speciaal hiervoor getrainde spraakherkenner. Ten slotte hebben we ook de synthesizer op een aantal punten verbeterd. In mijn bijdrage wil ik enkele aspecten van dit vervolgproject nader toelichten, en wat voorbeelden laten horen van de nieuwe stem.\ 

}, author = {Arthur Dirksen} } @article {61, title = {Forms and Functions of Stress and Accent in Spoken Language: A Cross-Linguistic Perspective}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In my talk I will present a survey of work that I did (together with students and co-workers) since the early 1970s on the topic of (word) stress and (sentence) accent on a variety of languages (Germanic and non-Germanic). Part of the presentation will be based on published papers, for another part I will rely on unpublished materials (mainly student papers and theses). A recurrent theme will be how word stress is marked by the speaker, and what acoustic cues contribute (in what order of importance) to the perception of word stress on a particular syllable by the listener. I will consider the issue whether the stress cues have a universally fixed order of importance, or vary from one language to the next, and {\textendash} in the latter case {\textendash} to what extent the order of importance can be predicted from functional principles. I will also address the issue how stress contributes to the process of word recognition in Dutch and English (stress differs between words), as opposed to languages with either fixed stress (uniform stress location for all the words in the lexicon), or with no preference for stress on one syllable or the other (Indonesian).\ 

}, author = {Vincent van Heuven} } @article {61, title = {Het verband tussen prosodische sensitiviteit en leesvaardigheden bij Nederlandse scholieren}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Uit eerder onderzoek in het Engels en Frans is gebleken dat er een link bestaat tussen prosodische sensitiviteit en leesvaardigheden. Meer inzicht in deze relatie kan nuttig zijn bij het op jonge leeftijd trainen van kinderen met ontwikkelingsdyslexie of andere leesproblemen. In een experimentele studie met eentalige Nederlandse middelbare scholieren (N=56) van twee leeftijdsgroepen hebben we de relatie tussen prosodische sensitiviteit en leesvaardigheden getest. Prosodische sensitiviteit is in een luistertoets toegespitst op het al dan niet herkennen van lokale en globale verschillen in pitchcontouren (Foxton, Talcott, Witton, Brace, McIntyre, \& Griffiths, 2003; Ziegler, Pech-Georgel, George, \& Foxton, 2012). Leesvaardigheden zijn gemeten aan de hand van drie leestoetsen die samen technische, orthografische en fonologische leesvaardigheden meten. In de jongere leeftijdsgroep van eerstejaars havo/vwo-leerlingen is er een significante correlatie gevonden tussen globale pitchperceptie en een leestoets die fonologisch bewustzijn meet aan de hand van pseudowoorden. In een vervolgstudie met universitaire studenten hebben we de relatie tussen leesvaardigheden en pitchperceptie opnieuw getoetst. Naast de toetsen uit de eerste studie hebben we gebruik gemaakt van twee andere pitchperceptie-instrumenten waarmee in het verleden de lokale-globale dimensie werd onderzocht (Sanders \& Poeppel, 2007; Postma-Nilsenov \& Postma, 2013). Deze twee instrumenten verschilden van de taak van Foxton et al. (2003) door relatief minder nadruk te leggen op het auditieve werkgeheugen van de luisteraar (waarvan de relatie met dyslexie reeds bekend is). De resultaten lieten opnieuw een link zien tussen leesvaardigheden en globale pitchperceptie gemeten met de originele taak van Foxton et al. (2003). Daarnaast was er ook een significante correlatie tussen leesvaardigheden en lokale pitchperceptie in dezelfde taak. Een link tussen pitchsensitiviteit en leesvaardigheden bleek daardoor niet duidelijk aanwezig te zijn. Om te testen of de correlatie verklaard kan worden als een effect van het werkgeheugen zijn we momenteel een experiment aan het uitvoeren waar het auditieve werkgeheugen van de participanten getoetst wordt met een cijferreekstaak.\ 

}, author = {Chiara de Jong and Marie Nilsenov{\'a} and Maria Mos} } @article {61, title = {Ik wel maar hij niet: De invloed van glimlachen en fronsen op zinsbegrip}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Heeft een hoorbare frons of glimlach invloed op hoe we spraak waarnemen? We hebben eerder al laten zien dat luisteraars gesproken woorden worden sneller begrijpen, indien het hoorbare affect (frons of glimlach, gemanipuleerd door verschuiving van formantfrequenties) congruent is met de woordbetekenis. In een nieuw, uitgebreider luisterexperiment moesten luisteraars ditmaal geen losse woorden maar gehele zinnen begrijpen. Een belangrijke nieuwe vraag hierbij is of het perceptieve effect van congruentie gevoelig is voor het *perspectief* van de zinsinhoud, in eerste of derde persoon. We voorspellen dat luisteraars de congruentie wel gebruiken bij de verwerking van ik-zinnen ({\textquotedblright}ik heb een prijs gekregen{\textquotedblright}, luisteraar verwacht dat spreker blij is), maar niet bij de verwerking van hij-zinnen ({\textquotedblright}hij heeft een prijs gekregen{\textquotedblright}, luisteraar weet niet of spreker blij of afgunstig is en heeft dus geen verwachting over de spreker). De responsietijden van de correcte responsies bevestigen het eerder gevonden effect van affectieve congruentie, en dit effect treedt inderdaad uitsluitend op bij de ik-zinnen. De resultaten bevestigen dat luisteraars niet alleen reageren op *wat* er gezegd wordt, maar ook op *hoe* dat gezegd wordt, en *over wie* er iets gezegd wordt. Luisteraars combineren alle drie de bronnen van informatie onmiddellijk om gesproken zinnen effici ̈ent te kunnen begrijpen, inclusief de affectieve betekenis van een zin voor de spreker.\ 

}, author = {Hugo Quen{\'e} and Anne van Leeuwen and Jos van Berkum} } @article {61, title = {Interacties tussen perceptie en motoriek in spraakontwikkelingsstoornissen: neurocomputationele modellering van gestoorde ontwikkeling}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Speech perception skills in cochlear-implant users are often measured with simple speech materials. In children, it is crucial to fully characterize linguistic development, and this requires more linguistically more meaningful materials. The authors propose using the comprehension of reflexives and pronouns, as these specific skills are acquired at different ages. According to the literature, normal-hearing children show adult-like comprehension of reflexives at age 5, while their comprehension of pronouns only reaches adult-like levels around age 10. To provide normative data, a group of younger children (5 to 8 yrs old), older children (10 and 11 yrs old), and adults were tested under conditions without or with spectral degradation, which simulated cochlear-implant speech transmission with four and eight channels. The results without degradation confirmed the different ages of acquisition of reflexives and pronouns. Adding spectral degradation reduced overall performance; however, it did not change the general pattern observed with non-degraded speech. This finding confirms that these linguistic milestones can also be measured with cochlear-implanted children, despite the reduced quality of sound transmission. Thus, the results of the study have implications for clinical practice, as they could contribute to setting realistic expectations and therapeutic goals for children who receive a cochlear implant.\ 

}, author = {Zheng Yen Ng and Deniz Baskent and Jacolien van Rij and Rolien Free and Petra Hendriks} } @article {61, title = {Searching for a new method to study the use of lexicosyntactic and intonational cues in turn projection by Dutch and English children}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Children learn language in the context of conversations. Successful coordination and comprehension of conversations relies heavily on the ability to anticipate upcoming speaker changes (turn-transitions). Two linguistic cues that are used to anticipate such turn-transitions are lexicosyntactic and intonational information. This study will address if we can disentangle these two cues in natural dialogues and if so, how Dutch and English toddlers weight these cues in their anticipation of upcoming turn-transitions. Because children receive rich intonational input and are very sensitive to intonation from an early age (Fernald \& Thomas, 1984; Moon \& Cooper-Panneton, 1993), children may rely more on intonational than on lexicosyntactic cues. This would contrast adult behaviour, as adults seem to rely more on lexicosyntactic cues (de Ruiter et al., 2006). In this talk I will demonstrate the materials that will be used for this study. The current study is the first developmental study that will address the potential different roles of lexicosyntactic and intonational cues in natural dialogues. Previous developmental turn- taking experiments always used materials with flattened intonational contour to get rid of the intonational content or band-pass filtered speech to get rid of lexicosyntactic content. In contrast, our materials consist of dialogues between puppets in which natural speech is used. To control for the linguistic cues, each dialogue includes four different target conditions. These target conditions are manipulated for lexicosyntactic completion (incomplete declarative vs. complete interrogative) and intonational completion (incomplete intonational contour vs. interrogative contour). Possible advantages and disadvantages of this new approach will be discussed. Also, first pilot results of Dutch adults will be presented.\ 

}, author = {Imme Lammertink and Titia Benders and Marisa Casillas and Brechtje Post and Paula Fikkert} } @article {61, title = {Stemeigenschappen van Nederlandse kinderen met een cochleair implantaat}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

This study investigates speech perception performance in younger and older adults as a function of naturally varying speech rate in conversational speech. In contrast to related research, the present study uses conversational corpus materials, with a natural variation in speech rate, rather than lab-recorded and subsequently artificially time-manipulated stimuli. We set up an eye-tracking study in which participants had to click which of four words on a visual display they detected in a conversation. The research question was whether older adults would be more affected by increased speech rate than younger adults and which auditory, cognitive and linguistic individual listener characteristics would predict the impact of increased speech rate on speech processing. Analysis of the click RTs and the gaze proportions shows that increased speech rate makes sentence processing more difficult for both younger and older listeners. In line with previous results, both hearing level and processing speed are predictors for perception performance in the older adults. In contrast to earlier findings, however, younger adults are more affected by increased speech rates than older adults. Analyses of the gaze proportion data suggest that this discrepancy may relate to different task related strategies for the two age groups. The data also suggest that individual characteristics, rather than age, predict speech processing differences at speech rates encountered in everyday conversational situations.\ 

}, author = {Xaver Koch and Esther Janse} } @article {61, title = {Waar komt de dominantie van woordbegin-medeklinkers in klankversprekingen vandaan?}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Beginmedeklinkers van woordvormen zijn relatief veel vaker bij klankversprekingen betrokken dan medeklinkers in andere posities. Shattuck-Hufnagel (1987, 1992, 2011) verklaart dat door aan te nemen dat bij het klaarzetten van woordvormen om uitgesproken te worden beginklanken van woorden apart van de rest behandeld worden. Deze complicatie is onnodig wanneer we een andere verklaring vinden voor die overheersing van woordbeginmedeklinkers. Die zoeken wij in de fonotactische structuur van de taal. We hebben een analyse gemaakt van een corpus klankversprekingen in spontaan Nederlands, en van de fonotactische structuur van de woordreeksen waarin die versprekingen zijn gemaakt. Het blijkt dat de relatieve frequentie van klankversprekingen in verschillende posities binnen woorden voorspeld kan worden uit de fonotactische mogelijkheden die iedere klank heeft om versproken te worden. We hebben ook een experiment gedaan waarin klankversprekingen zijn uitgelokt in CVC-woorden, in de posities van C1, V en C2. De resultaten laten zien dat C1 en C2 even vaak versproken worden, maar de klinker minder vaak. Dat laatste kan verklaard worden door aan te nemen dat op elkaar lijkende klinkers meer verschillen dan op elkaar lijkende medeklinkers. Het is onnodig om te veronderstellen dat in de spraakvoorbereiding woordbeginklanken apart behandeld worden.\ 

}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {61, title = {Welke akoestische cues spelen een rol bij de onderscheiding van klinkers? De casus /U u u:/ in het Saterfries}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Saterland Frisian has a complete set of closed short tense vowels: /i y u/. Together with the short lax vowels /I Y U/ and the long tense vowels /i: y: u:/ they constitute series of phonemes that only differ by length and/or tenseness. To identify the phonetic parameters that Saterland speakers use to keep minimal triplets, such as f[U]l {\textquoteleft}full{\textquoteright}, f[u]l {\textquoteleft}rotten{\textquoteright}, and f[u:]l {\textquoteleft}much{\textquoteright}, distinct, we carried out two production tests that were designed to elicit {\textquoteleft}normal speech{\textquoteright} and {\textquoteleft}clear speech{\textquoteright}. In the {\textquoteleft}normal speech{\textquoteright} condition speakers read the target words in random order with intervening filler words. In the {\textquoteleft}clear speech{\textquoteright} condition speakers were asked to make the word forms identifiable for a listener sitting opposite the speakers but lacking eye contact. Lax and tense vowels were found to be distinguished in both {\textquoteleft}normal{\textquoteright} and {\textquoteleft}clear speech{\textquoteright} by means of duration, spectral features, and steepness of the falling f0 contour. Short and long tense vowels were distinguished by the same acoustic cues in {\textquoteleft}clear speech{\textquoteright}. In {\textquoteleft}normal speech{\textquoteright}, the steepness of the falling f0 contour was found to be the only cue to the distinction between these vowels. We conclude that clear speech data better reveals the variables contributing to the discrimination of the Saterland Frisian triplet words than normal speech data.\ 

}, author = {Wilbert Heeringa and J{\"o}rg Peters and Heike Schoormann} } @article {61, title = {The perceptual noise exclusion hypothesis: a bimodal approach to dyslexia}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In recent studies, it has been suggested that dyslectic symptoms result from an impaired ability to distinguish irrelevant from relevant sensory information. To attest this perceptual noise exclusion hypothesis, we performed an experiment that consisted of two sentence repetition tasks, one in the auditory modality using spoken stimuli, and the other in the visual modality registrating eye movements while reading. Both versions were conducted by the same groups of adult dyslectics and typical language users. Materials consisted of Dutch sentences with either a semantically congruent or incongruent word of a minimal pair like mouse-house as the final word, as in The cheese was eaten by the mouse/*house. The sentences were presented in three noise levels, ( no, mild (-5 dB), and heavy (-10 dB) fluctuating noise for the auditory version, and no, 30\%, and 60\% text masking blocked patterns for the visual version). Dyslexics made more mistakes in incongruent than congruent conditions in both the auditory and visual modality. Interestingly, they frequently replaced the incongruent final word by the congruent counterpart of the minimal pair. Especially in the visual modality, this pattern became more prominent with increasing noise levels. Typical language users showed no difference between congruent and incongruent conditions in no, or mild noise conditions. Finding effects of noise in both modalities indicates the involvement of a general deficit in processing noisy sensory information in dyslexia.\ 

}, author = {Monique Lamers and Annemiek Hammer and Martine Coene} } @article {61, title = {The role of lexical representation in the recognition of phonologically reduced and unreduced variants by non-native listeners}, year = {2013}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In casual speech, words are often pronounced with fewer segments than in their citation forms. For instance, the French word renard {\textquoteright}fox{\textquoteright} may sound like rnard. Previous research has shown that non-native listeners have problems understanding these reduced pronunciation variants. The reason for this difficulty might be that during classes they mainly hear words pronounced in their citation forms and therefore lack lexical representations for reduced variants. We conducted a lexical decision experiment preceded by a learning phase in order to investigate whether Dutch listeners with a low proficiency level in French have problems understanding reduced variants (rnard) if they only learnt the unreduced variants (renard). In addition, we investigated the reverse: whether they have problems understanding the unreduced variants (renard) if they only learnt the reduced variants (rnard). We found that both reduced and unreduced variants were recognized faster and more accurately when these variants matched the variants that had been learnt. Surprisingly, unreduced variants were recognized faster than reduced variants in this match condition. In the mismatch condition, there was no significant difference. These findings suggest that factors independent of lexical representation contribute to the difficulties of non-native listeners to recognize reduced variants.\ 

}, author = {Sascha Coridun and Mirjam Ernestus and Louis ten Bosch} } @article {76, title = {Articulation Rate and Syllable Reduction in Spanish and Portuguese}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Jensen (1989) found an asymmetry in mutual intelligibility of South-American Spanish and Portuguese. According to Vaughan and Letowski (1997), Gordon-Salant et al. (2007) and Sch{\"u}ppert et al. (In press) a higher articulation rate shows negative effects on intelligibility.
This study compares canonical articulation rates (number of canonical syllables per second) and phonetic articulation rates (phonetic syllables per second) of European Spanish and Portuguese based on radio podcasts. The results show that Portuguese and Spanish speakers exhibit no difference in canonical articulation rate but the phonetic articulation rates differ among the two languages. By comparing those two measures we found that Portuguese speakers reduce syllables significantly more than Spanish speakers due to vowel elision in post-stressed and final position, which results in longer, but fewer syllables per second.
The results lead to a future experiment where intelligibility scores of European Spanish and Portuguese will be correlated with articulation rate.\ 

}, author = {Stefanie Voigt and Anja Sch{\"u}ppert and Charlotte Gooskens} } @article {83, title = {De Data Curatie Service van CLARIN-NL}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {


De data curatie service (DCS) is een project van CLARIN-NL. Binnen CLARIN worden er nieuwe dataverzamelingen gecre\"eerd, maar er zijn ook oude verzamelingen van onderzoeksdata die wat opknapwerk verdienen. Dit noemen we datacuratie en hier houdt de DCS zich mee bezig.
Bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit wordt vanaf oktober 2011 gewerkt aan de data curatie service. De DCS wil een brug vormen tussen onderzoekers met interessant onderzoeksmateriaal en de CLARIN-NL datacentra. Hierbij werken we waar mogelijk samen met onderzoekers en experts. Ongetwijfeld verkeren er onder de leden van de NFVW en onder de bezoekers van deze dag onderzoekers die hier direct belang bij hebben.
In onze bijdrage gaan we in op de achtergrond en doelstellingen van de DCS en onze werkwijze. Tevens laten we voorbeelden zien van uitgevoerde en lopende datacuraties.\ 

}, author = {Nelleke Oostdijk and Henk van den Heuvel and Maaske Treurnie} } @article {88, title = {Een nieuw foneem voor het Nederlands?}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Ter gelegenheid van mijn aanstaande vertrek na meer dan een decennium gastvrijheid in Nederland is een afscheidscadeau op zijn plaats: een nieuw foneem voor het Nederlands, de glottale stop. Voor het Duits beschouwt men de glottale stop als foneem. De canonieke vorm van Abfahrt (vertrek) is /?abfa:rt/, ook al is [\ abfa:rt] (met kraakstem) de meest voorkomende vorm. Uit observatie blijkt dat {\textquoteleft}{\textquoteleft}klinkeriniti{\"e}le{\textquoteright}{\textquoteright} woorden in het Nederlands ook vaak met kraakstem woorden geproduceerd, ook is er geen fonetische of prosodische reden voor (b.v. [en\ afOnd]). Om te onderzoeken hoe vaak dit gebeurt, produceerden Nederlandse en Duitse sprekers 60 zinnen met /n$\#$V/ of /r$\#$V/ cognaatsequenties (b.v., Schwimmer_unter Wasser en zwemmer_onder water). Onafhankelijk van de taal werden rond 20\% van de klinkeriniti{\"e}le woorden met een glottale stop geproduceerd, 60\% met glottalisatie, en 20\% zonder een glottaal gebaar. Verder zijn het dezelfde items die in beide talen vaak of minder vaak met glottalisatie worden uitgesproken (r = 0.7, p \< 0.001). Er is dus geen reden om aan te nemen dat de glottale stop in het Duits wel en in het Nederlands geen foneem is. Op dit moment testen wij de lexicale status van de glottale stop in de perceptie.

}, author = {Holger Mitterer} } @article {83, title = {Glimlachen en fronsen tijdens spraakverstaan}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

We (glim)lachen vaak tijdens het spreken. Expressies zoals een glimlach of een frons voegen extra betekenis toe aan de uiting omdat deze informatie bevatten over de affectieve toestand van de spreker. De vraag is hoe en wanneer de luisteraar deze affectieve informatie integreert met de betekenis van de zin (zie ook Quen\'e et al., 2012) en hoe het perspectief van de spreker deze integratie moduleert. Deze vragen zijn ge{\"e}xploreerd aan de hand van EEG- en gedragsonderzoek waarbij luisteraars zinnen te horen kregen die fonetisch en semantisch gemanipuleerd waren. Zinnen bevatten ofwel een positief danwel een negatief inhoudswoord en waren fonetisch gemanipuleerd om zo een glimlachende en een fronsende versie te cre{\"e}ren. Daarnaast waren de zinnen in de eerste (ik) of in de derde persoon (hij of ze). Tijdens mijn praatje zal ik de resultaten van deze studie presenteren en bediscussi{\"e}ren.\ 

}, author = {Anne van Leeuwen and Hugo Quen{\'e} and Jos van Berkum} } @article {76, title = {Globale and locale sprekeradaptatie: waarneming van het Engelse /S/--/s/ contrast}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Door anatomische verschillen, afkomst, en andere factoren bestaat grote variatie tussen sprekers, en luisteraars moeten zich kunnen aanpassen aan de eigenaardigheden van sprekers om elkaar zonder problemen te verstaan. In dit onderzoek is het contrast tussen /S/ en /s/ gebruikt om twee soorten sprekeradaptatie te onderzoeken: lexicongebaseerde aanpassing aan een nieuw accent, en spectrumgebaseerde aanpassing aan spraakkanaalgrootte.
Aanpassing aan een kunstmatig accent is onderzocht door mensen te laten luisteren naar passages met gemanipuleerde sibilanten, en daarvoor en daarna hun sibilantcategorisatie te testen. Het bleek dat luisteraars hun categoriegrenzen aanpassen aan het gehoorde accent, maar slechts in geringe mate en alleen als de categorie{\"e}n anders volledig zouden samenvallen. Om aanpassing aan spraakkanaalgrootte te onderzoeken werd gemeten bij welk spectraal zwaartepunt het omslagpunt tussen /S/ en /s/ lag wanneer de klanken rondom de sibilant eigenschappen hadden van verschillende spraakkanaalgroottes. Informatie over spraakkanaalgrootte verschoof de categoriegrens flink, en be{\"\i}nvloedde ook auditieve disciminatie van luisteraars. In het EEG waren in de eerste stadia van auditieve verwerking (tot 130 ms) geen sporen van aanpassing te zien terwijl de mismatchnegativiteit wel contextafhankelijk bleek, wat suggereert dat sprekernormering al na 200 ms heeft plaatsgevonden.
Dit onderzoek laat dus zien dat sprekeraanpassing op globaal niveau in relatief vroege stadia van auditieve verwerking plaatsvindt, terwijl subtiele lokale aanpassingen pas worden gedaan wanneer globale verwachtingen tot fouten leiden.\ 

}, author = {Mirjam de Jonge and Paul Iverson and Anita Wagner and James M. McQueen} } @article {76, title = {Ik kan er geen touw aan vastknopen! Hoe gaan Nederlanders om met slordige spraak in vergelijking met Denen?}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Door articulatorische beperkingen is snelle, natuurlijke spraak meestal gekenmerkt door minder duidelijke articulatie dan kunstmatig versnelde spraak. Voor het Nederlands is gevonden dat reactietijden in een foneemdetectietaak korter zijn voor kunstmatig versnelde spraak dan voor natuurlijke snelle spraak (Janse 2004). Dit werd gedeeltelijk verklaard door het feit dat snelle spraak meer reductie bevat dan versnelde spraak en daardoor minder verstaanbaar is. Dit patroon is echter niet bevestigd voor het Deens, waar we verstaanbaarheid door middel van een dicteetaak hebben bepaald (Sch{\"u}ppert et al., in press). In het onderzoek met Deens materiaal en proefpersonen vonden we dat de twee soorten van snelle spraak even goed verstaanbaar waren. Dit roept de vraag op of dit verschil in gemeten verstaanbaarheid aan de taak ligt (online foneemdetectie versus offline dicteetaak), of aan de taal (bv. reductie in snelle spraak werkt anders in het Deens dan in het Nederlands). We hebben een experiment opgezet dat deze vraag zal beantwoorden.\ 

}, author = {Martin Kroon and Susan Rosink and Anja Sch{\"u}ppert and Charlotte Gooskens and Nanna Hilton and Vincent van Heuven} } @article {82, title = {Interacties tussen perceptie en motoriek in spraakontwikkelingsstoornissen: neurocomputationele modellering van gestoorde ontwikkeling}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

De differentiaaldiagnose tussen de verschillende fonologische en motorische spraakstoornissen vormt {\'e}{\'e}n van de hoofdvragen op het gebied van de spraakpathologie bij kinderen. Bij spraakontwikkelingsstoornissen is een grote overlap in symptomatologie eerder regel dan uitzondering en bovendien veranderen de klinische symptomen gedurende de ontwikkeling.
Uit data van spraakexperimenten is gebleken dat er bij kinderen met spraakontwikkelingsstoornissen een nauwe relatie is tussen perceptuele scherpte en productiesymptomen. De huidige studie onderzocht de interactie tijdens de ontwikkeling tussen neurologische tekortkomingen in auditieve en motorische processen door middel van computationele modellering met het DIVA-model.
De computersimulaties laten zien dat bij kinderen met spraakstoornissen de kwaliteit van het fonologisch leren voor een groot deel afhankelijk is van de kwaliteit van de spraakmotoriek. Uit gedragsstudies is gebleken dat door een stoornis in de spraakmotoriek, zoals bij spraakdyspraxie of dysarthrie, ook de ontwikkeling van de fonologie verstoord kan raken. Onze computersimulaties bevestigen dit en laten verder zien dat de zelf-monitoring op basis van auditieve en somatosensorische terugkoppeling daarin een grote rol speelt. De condities waarin dit gebeurt hebben vooral te maken met de mate en de kwaliteit van de zelf-monitoring tijdens de vroege ontwikkeling. Verder blijkt dat ook articulatietempo hierbij van invloed kan zijn.\ 

}, author = {Hayo Terband} } @article {76, title = {An Intonation Clinic for Second Language Learners}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In this talk I present a project proposal on a novel Computer-Aided Pronunciation Training (CAPT) system that provides corrective feedback on intonation to second language learners. The system can be used to learn the correct placement of lexical stress, but also the correct intonation for a polite request in a foreign language.
Two novelties are introduced with respect to current (experimental) systems. First, the software makes decisions on the adequacy of the learner{\textquoteright}s input (correct/wrong) based on statistical models built on a corpus of utterances spoken by native speakers. Second, corrective feedback is provided in the form of re-synthesized speech: Either the learner{\textquoteright}s wrong intonational pattern (F0 contour and segment durations) is corrected and played back in the learner{\textquoteright}s own voice, or a reference (teacher) voice is manipulated to imitate the learner{\textquoteright}s intonation mistake. In either case, the advantage is that the learner does not need to isolate his/her intonation mistake by comparing his/her own utterance with the teacher{\textquoteright}s realization, which involves several distracting dimensions of variation like phonetics, voice quality and rhythm.


Both decision making and speech manipulation are based on a modern statistical methodology called Functional Data Analysis, which allows one to model F0 contours and segment durations automatically and without introducing unwarranted simplifications (e.g. no F0 contour stylization).\ 

}, author = {Michele Gubian} } @article {86, title = {Intrinsieke prosodie van klinkers}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

De relatie tussen vorm en betekenis in taal lijkt niet arbitrair, zoals aangetoond aan de hand van intrinsieke toonhoogte van klinkers (IF0). IF0 correleert negatief met de openheid van de mond bij het uitspreken van de betreffende klinker. De mate van kracht (sterkte, grootte, gewicht, mannelijkheid) die luisteraars associ{\"e}ren met pseudowoorden is groot bij lage-IF0-klinkers en klein bij hoge-IF0-klinkers. Onderzoek naar het effect van intrinsieke eigenschappen van klinkers richt zich met name op IF0. Een andere intrinsieke eigenschap van klinkers is intensiteit (II). II correleert positief met mondopening. In de huidige studie onderzoeken we de effecten van zowel IF0 als II op betekenisvolle associaties van proefpersonen. Associaties zijn verkregen door middel van een leestaak waarin pseudowoorden aan proefpersonen zijn gepresenteerd. Resultaten bevestigen eerder onderzoek naar IF0 en laten zien dat proefpersonen een hoge II met meer kracht associ{\"e}ren dan een lage II. De keuze van {\textquoteleft}extreme{\textquoteright} klinkers (lage/hoge IF0/II) is problematisch in de huidige aanpak, onder andere door de tegengestelde correlatie van IF0 en II met mondopening en verschillen tussen sprekers.

}, author = {Constantijn Kaland and Marie Nilsenov{\'a}} } @article {87, title = {Parallellen tussen zelfbewaking bij het spreken en identificatie van spraaksegmenten door luisteraars}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

In deze bijdrage rapporteren we over een experiment waarin we aspecten van de zelfbewaking bij het spreken op een indirecte manier onderzoeken. Luisteraars hebben 291 korte spraakfragmenten ge{\"\i}dentificeerd die beginmedeklinkers bevatten, gesneden uit segmentele versprekingen zoals uitgelokt in eerdere experimenten. Voor ieder versproken segment is er een correct controlesegment van dezelfde spreker. Segmentele versprekingen waren {\'o}f niet ontdekt door de spreker, {\'o}f vroeg ontdekt zoals blijkt uit een interruptie (wee... beter weten), {\'o}f laat ontdekt (weter beten... beter weten). Aantal misidentificaties en reactietijden zijn bepaald. Misidentificatie is iedere afwijking van een eerdere auditieve transcriptie. Aantal misidentificaties is laag (3.1 \%), maar toch significant hoger voor versproken dan voor controlesegmenten, en significant hoger voor laat dan voor vroeg gedetecteerde versprekingen. Reactietijden zijn gemeten voor spraakfragmenten die door de luisteraars unaniem correct waren ge{\"\i}dentificeerd. Deze reactietijden verraden desondanks effecten van vari{\"e}rende perceptieve ambigu{\"\i}teit. Vroeg gedetecteerde versprekingen en correcte controlefragmenten hebben samen de kortste reactietijden, laat gedetecteerde versprekingen hebben significant langere reactietijden. We speculeren dat vroeg gedetecteerde versprekingen zelfbewaking van innerlijke spraak reflecteren, met als criterium afwijking van de correcte doelklank, en laat gedetecteerde versprekingen zelfbewaking van de articulatie met als criterium conflicterende articulatiebewegingen.

}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {81, title = {Predicting perceptual scores of speech intelligibility, articulation and voice quality for speakers with head and neck cancer}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, Nederland}, abstract = {

Cancer of the head and neck can have a negative effect on a speaker{\textquoteright}s speech and voice quality. In the clinical situation, a clinician-independent manner to evaluate the perceptual quality a patient{\textquoteright}s speech and voice quality is sought. To this end, models using input from automatic evaluation tools (e.g. speaker feature sets) were developed to predict perceptual scores for speech intelligibility, articulation and voice quality. The validation corpus contains longitudinal recordings of 55 speakers (before treatment, short-term and long-term follow-up) and perceptual scores completed by 13 raters.

}, author = {Renee Clapham and Rob van Son} } @article {83, title = {Stemeigenschappen van Nederlandse kinderen met een cochleair implantaat}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Sinds enige decennia kan aangeboren of verworven doofheid (in bepaalde gevallen) worden behandeld met cochleaire implantatie (CI). Hoewel een CI gehoor cre{\"e}ert of gedeeltelijk herstelt, wijkt het gehoor uiteraard af van dat van normaalhorende mensen. Uitgaande van een relatie tussen perceptieve en productieve vaardigheden, verwacht je dat de afwijkende hoorsituatie wordt gereflecteerd in de productie. In eerder onderzoek zijn abnormale waarden gevonden voor stemparameters, zoals formantwaarden, jitter en harmoniciteit, maar daarvoor is zelden of nooit gebruik gemaakt van spontane-taalopnames. In dit onderzoek zijn fragmenten van spontane-taalopnames van 13 vroegge{\"\i}mplanteerde (onder 3 jaar), 8 laatge{\"\i}mplanteerde (boven 3 jaar) en 12 normaalhorende Nederlandse kinderen geanalyseerd. Opnames waren van 18, 24 en 30 maanden na CI-activatie, dan wel na geboorte (voor normaalhorende kinderen). De volgende metingen en afleidingen zijn verricht: gemiddelde, minimum, maximum, bereik, standaarddeviatie van F0 t/m F3, bandbreedte van F1 t/m F3, jitter en Harmonics-to-Noise Ratio (HNR). Er waren verschillen tussen vroeggemplanteerde en laatgemplanteerde kinderen in enkele F0-parameters en verschillen tussen vroegge{\"\i}mplanteerde en normaalhorende kinderen in F3-parameters. Longitudinale effecten zijn niet gevonden. Deze resultaten geven aan dat het gebrekkige gehoor van CI-gebruikers sommige, maar niet alle stemeigenschappen in spontane taal be{\"\i}nvloedt en dat late implantatie een ander effect heeft dan vroege.

}, author = {Daan van de Velde} } @article {76, title = {The evolution of the ability to speak}, year = {2012}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In this lecture I review some of the evidence for when and how speech evolved. This evidence appears to indicate that adaptations to speech started to occur at least 500000 years ago. I will also show how computer models and experiments can help to interpret this evidence: by reconstructing our ancestors{\textquoteright} vocal abilities, and by reconstructing how they may have sounded. Finally, I will discuss the relation between evolution of anatomy and the evolution of cognition, arguing that although we have undergone evolutionary selection for anatomy, cognitive adaptations must have been primary.

}, author = {Bart de Boer} } @article {99, title = {ALADIN: de ontwikkeling van zelflerende, spraakgestuurde bedieningsinterfaces voor mensen met een motorische beperking}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Mensen met een motorische beperking die moeite hebben met het handmatig bedienen van apparaten, zouden veel baat kunnen hebben bij spraakgestuurde bedieningssystemen in hun woning. Toch worden dergelijke spraakgestuurde interfaces nog weinig gebruikt door deze doelgroep. Dit is te wijten aan technische en praktische problemen, zoals het gebrek aan robuustheid van het spraakherkenningssysteem (onder andere voor afwijkende spraak door spraakstoornissen) en de leercurve aan de kant van de gebruiker,die zijn commandos over het algemeen moet aanpassen aan een vooraf bepaalde vocabulaire en grammatica. In het ALADIN-pro ject wordt een spraakgestuurde bedieningsinterface ontwikkeld met een robuust en zelflerend spraakherkenningssysteem, dat zich aanpast aan de gebruiker. De woordenschat en de grammatica van het ALADIN-systeem worden dan ook niet voorgeprogrammeerd, maar automatisch afgeleid op basis van een aantal voorbeeldcommandos tijdens een zo kort mogelijke trainingsfase. Om de toepasbaarheid van zelflerende technieken op dit soort van taaldata te bestuderen, werd een klein corpus van gesproken commandos en bijbehorende acties verzameld, orthografisch getranscribeerd en lingu{\"\i}stisch geannoteerd. In deze presentatie stellen we het corpus voor en tonen we de resultaten van eerste, verkennende experimenten rond automatische grammatica-inductie.

}, author = {Janneke van de Loo and Guy De Pauw and Jort Gemmeke and Peter Karsmakers and Bert van den Broek and Walter Daelemans and Hugo Van hamme} } @article {100, title = {Akoestische maten voor de automatische beoordeling van verstaanbaarheid in dysartrische spraak: een case study}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het doel van de studie was om correlaties tussen akoestische maten en mate van verstaanbaarheid in dysartrische spraak te onderzoeken. Een pati{\"e}nt met hypokinetische dysartrie, een spraakstoornis ten gevolge van de ziekte van Parkinson (PD), werd behandeld met {\textquoteleft}E-learning gebaseerde Spraaktherapie{\textquoteright} (EST; Beijer et al., 2010). Akoestische maten die de spraakbewegingsproblemen (bewegingsrestrictie, traagheid, verminderde controle van de articulatoren) en prosodische beperkingen (monotonie) in hypokinetische dysartrie weergeven, werden als mogelijke voorspellers van verstaanbaarheid onderzocht. Akoestische maten waren de grootte van de klinkerdriehoek, transitiegrootte, -duur en -helling van de eerste twee formanten, spectrale helling en mate van stem in het spectrum van /s/, F0 en variabiliteit van F0.

Interventie met EST leek de co{\"o}rdinatie van de glottale opening te vergroten, zoals weergegeven door mate van stem in het spectrum van /s/. Bovendien werd een verlaging van de F0 bereikt. De prosodie van de spreker verbeterde door een grotere F0 variabiliteit. Verstaanbaarheid werd lager beoordeeld in gevallen dat F0 variabiliteit en co{\"o}rdinatie van glottale opening verminderde.

De resultaten laten vooral een effect van interventie op laryngale en respiratorische mechanismen zien. De studie bevestigt de invloed van prosodie op verstaanbaarheid in hypokinetische dysartrie.

}, author = {Thordis Neger} } @article {97, title = {Contextuele deaccentuering in het Nederlands als tweede taal: waar gaat dat accent naartoe?}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Over het algemeen hebben niet-moedertaalsprekers van het Nederlands die de taal na hun puberteit hebben geleerd een duidelijk hoorbaar accent. Naast afwijkingen in de uitspraak van consonanten en vocalen komen ook suprasegmentele verschillen voor. De vraag die wij proberen te beantwoorden is in hoeverre NT2-sprekers fouten maken als gevolg van deaccentuering van gegeven informatie in zinnen als [Ik heb een boek voor mijn verjaardag gekregen,] maar ik lees helemaal geen boeken. Op grond van eerder onderzoek verwachten wij dat de gegeven informatie -i.e. boeken- correct gedeaccentueerd wordt, maar dat het accent veelal niet op de juiste plaats in de zin terechtkomt, de persoonsvorm, maar op het negatie-element. Een groep gevorderde NT2-sprekers met Hongaars als moedertaal en een controlegroep T1-sprekers lezen een tekst voor waarin een aantal van deze constructies zijn verwerkt. We rapporteren over de resultaten van deze productiestudie.

}, author = {Evelyn Bosma and Johanneke Caspers and Frida Kramm and Olga Kruming and Polona Reya} } @article {96, title = {De rol van spreektempo en reductie voor de verstaanbaarheid van het Deens in Scandinavi{\"e}}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In Hilton, Gooskens en Sch{\"u}ppert (2011) [Syllable reduction and articulation rates in Danish, Norwegian and Swedish. Nordic Journal of Linguistics 34, 215237] worden verschillen in spreektempo tussen Zweeds, Deens en Noors aangetoond. Deense nieuwslezers produceerden significant meer fonologische lettergrepen (6,2 syll/s) dan hun Noorse (5,4) en Zweedse collegas (5,4). In welke mate heeft het spreektempo van de Denen en de daarmee gecorreleerde segmentele reductie ieder apart invloed op hun verstaanbaarheid voor Noren en Zweden? Om een antwoord op deze vraag te krijgen werd een luisterexperiment uitgevoerd. Door een Deen werden 50 testzinnen ingesproken: eenmaal snel en met veel reductie en eenmaal langzaam en met weinig reductie. De snelle, gereduceerde versie werd daarna ook nog eens lineair vertraagd en de langzame, ongereduceerde versie versneld. Noren en Zweden luisterden naar de Deense zinnen in alle vier de condities (geblockt) en vertaalden ze in hun eigen taal. Een vergelijking van het percentage juist vertaalde woorden in de vier versies geeft een beeld van het relatieve belang van spreeksnelheid en reductie voor de verstaanbaarheid van een nauw verwante taal.

}, author = {Anja Sch{\"u}ppert and Charlotte Gooskens and Nanna Hilton and Vincent van Heuven} } @article {95, title = {Een akoestische beschrijving van de hoekklinkers in baby-gerichte spraak in het Nederlands}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Over het algemeen wordt aangenomen dat moeders tegen hun baby overdreven articuleren, dat wil zeggen dat moeders de akoestische afstand tussen de hoekklinkers vergroten als ze tegen hun baby praten (e.g., Kuhl et al., 1997). Onze studie onderzoekt hoe Nederlandse moeders de hoekklinkers [i], [u] en [a] tegen hun baby uitspreken als de baby 11 en 15 maanden oud is. Daarvoor is de spraak van 18 Nederlandstalige moeders tegen hun baby opgenomen en, ter vergelijking een conversatie met de onderzoekster. In de akoestische analyse zijn de eerste en tweede formant (F1 en F2) van de hoekklinkers gemeten.

De resultaten laten zien dat Nederlandse moeders de F2 van alledrie de hoekklinkers verhogen als ze tegen hun baby spreken. Er is geen aanwijzing dat de akoestische afstand tussen de hoekklinkers groter is als moeders tegen hun baby praten. In eerder onderzoek naar baby-gerichte spraak in het Noors is een vergelijkbare verhoging van de F2 gerapporteerd (Englund \& Behne, 2005), die veroorzaakt zou kunnen worden door een constante glimlach als moeders tegen hun baby praten (Tartter \& Braun, 1994).

Ook Nederlandse moeders passen hun spraak aan als ze met hun baby in gesprek zijn, maar het overdreven articuleren van hoekklinkers is geen universele eigenschap van baby-gerichte spraak.

}, author = {Titia Benders} } @article {93, title = {Een vergelijking tussen de klinkerproducties van CI kinderen, kinderen met hoorapparaten en normaal horende kinderen}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Deze studie maakt een vergelijking tussen de vocaalproductie van 40 dove kinderen die gebruik maken van een cochleair implantaat (CI), 34 matig tot ernstig slechthorende kinderen met hoorapparaten (HA) en 42 normaalhorende kinderen (NH). Aan de hand van PRAAT worden voor de 3 klinkers met uiterste formantwaarden[a], [i] en [u], de F1 en F2 bepaald, alsook de intra-subject standaarddeviatie van elke formantwaarde. Daarnaast worden de afstanden tussen de klinkers en de oppervlakte van de klinkerdriehoek bij elk kind berekend. Bij de HA kinderen de formantwaarden, vooral voor de F2 significant lager liggen dan bij de NH kinderen. HA kinderen vertonen dus een meer posterieure articulatie van klinkers. Daarnaast zien we bij zowel de CI als HA kinderen verhoogde afstanden tussen de klinkers en een grotere oppervlakte van de klinkderdriehoek, wat wijst op overarticulatie. Dit kan een gevolg zijn van de vroege en intensieve logopedische training van deze kindern. Mogelijks trachten gehoorgestoorde kinderen het gebrek aan auditieve feedback te compenseren door de proprioceptieve feedback te verhogen aan de hand van vergrootte articulatorische manoevres.

}, author = {Nele Baudonck and Kristiane Van Lierde and Ingeborg Dhooge and Paul Corthals} } @article {103, title = {Effect of training modality on foreign-accent adaptation in older adults}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

This study investigated the effect of presentation modality (audio-only or audiovisual) on adaptation to an artificial (foreign-sounding) accent. Participants were 66 older adults with varying degrees of (age-related) hearing loss: half of them only heard the accented speech, and the other half both heard and saw the speaker speak the artificial accent. We tested accent processing and monitored adaptation in both groups using a speeded sentence-verification test (i.e., judging whether a statement such as {\textquoteright}rats have teeth{\textquoteright} is true or false). Older adults showed adaptation with longer accent exposure. This adaptation effect, however, was not modified by presentation modality. Overall performance in the audio-visual condition was better than in the auditory-only condition, both for the accented sentences and for the practice trials spoken in standard-Dutch. Further, a number of cognitive and linguistic abilities were tested to investigate correlates of adaptation and of accented-sentence perception. Selective attention and vocabulary knowledge predicted amount of adaptation over the course of the experiment.

}, author = {Esther Janse and Patti Adank} } @article {102, title = {Fortitie en de Perceptie van een Buitenlands Accent}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Foreign Accent Syndrome (FAS) is een aandoening waarbij spraak als gevolg van hersenletsel verandert. Hierdoor worden pati ̈enten waargenomen als sprekers met een buitenlands accent. Ons onderzoek laat zien dat deze perceptie gebaseerd is op een gebrek aan coarticulatie in de spraak. Het gebrek aan segmentbinding ofwel fortitie zorgt ervoor dat aan de spraak fonologische eigenschappen gegeven worden die behoren tot andere taalregisters: een door veel lenitieprocessen als vocaalreductie en assimilatie gekenmerkte stress-timed taal als het Nederlands kan daardoor worden waargenomen als een syllable-timed taal als het Frans, een taal die bijvoorbeeld veel minder vocaalreductie kent. De voorspelling is dan ook dat er geen FAS-pati{\"e}nten gevonden zullen worden met Frans als moedertaal, maar waargenomen als met een Nederlands accent sprekend. We meten het gebrek aan articulatie door de mate van fortitie van de spraak te bepalen aan de hand van parameters als Voice Onset Time, intensiteit, formantwaardes en syllabeduur. Wij presenteren een eerste versie van een fonetisch meetapparaat dat gebruikt kan worden om verbeteringen in de spraak van een FAS-pati{\"e}nt onder behandeling aan te geven.

}, author = {Dicky Gilbers and Saskia van den Akker and Matthijs Hulleman and Jan Korterink and Menke Muller and Joke Weening and Marlon Wiekamp} } @article {94, title = {Glimlach met een glimlach}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Als een spreker glimlacht tijdens het spreken, dan resulteert dat in grotere spectrale afstand tussen de formanten, overeenkomstig een kortere effectieve lengte van het spraakkanaal. Bij het luisteren leiden affectieve woorden (bv {\textquotedblleft}glimlach{\textquotedblright}) tot activatie van de congruente glimlach-spieren, mogelijk als gevolg van activatie van spiegelneuronen. Op grond hiervan voorspellen we dat affectieve woorden wellicht worden uitgesproken met congruente affectieve gebaren: het woord {\textquotedblleft}glimlach{\textquotedblright} zou worden uitgesproken met een glimlach. Deze voorspelling is onderzocht door formant-analyse van klinkers afkomstig uit {\textquotedblleft}glimlach{\textquotedblright} (e.d.), en uit controle-woorden. De F2-F1-afstand blijkt inderdaad iets groter te zijn in de affectieve woorden dan in controle-woorden. Dit voorspelde effect bleek echter alleen op te treden bij vrouwen, en niet bij mannen. Deze resultaten bevestigen het idee van {\textquotedblleft}affectieve resonantie{\textquotedblright} tussen wat we zeggen, en hoe we dat zeggen.

}, author = {Hugo Quen{\'e}} } @article {101, title = {Reading skills and challenged phoneme perception}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Numerous studies support the hypothesis that dyslexic persons have a specific problem with phonological processing. This problem is manifest in a weaker mastery of the relation between phonemes and graphemes and of the decoding of words. This research aims to reveal whether a discernable difficulty in correctly identifying distinct phones in speech could have a bearing on the ability to acquire reading skills. In a number of experiments, children with different reading proficiency levels were sub ject to perception experiments in which VCVs were presented, in combination with visual display showing the correct target consonant C and a distracter consonant. Two types of distracters were used, a phonologically close and distant one. Sub jects had to do a two-alternative forced choice task to indicate which of the visually presented graphemes corresponded to the consonant that was presented in the VCV, in various noise conditions (SNR). The findings show that all sub jects are less accurate and less fast when consonants had to be identified in noise. They are also less accurate and less fast if the target phoneme is presented together with a close distracter, as compared to a distant distracter. There was a marked drop in accuracy of the poor readers, but not of the good readers, when the surrounding noise level increased. The experimental results support the hypothesis that phonological representations of poor readers are less adequately built up as compared to good readers.

}, author = {Cecile Kuijpers and Louis ten Bosch and Renske Schilte} } @article {91, title = {Restoration of interrupted speech: What does it teach us for top-down speech repair in hearing impaired?}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Inaudible parts of speech can be perceptually restored with the help of linguistic knowledge, context, and expectations. This top-down repair mechanism, phonemic restoration, is considered to enhance speech intelligibility in noisy environments. Hearing-impaired listeners and users of cochlear implants commonly complain about not understanding speech in noise. In our research, we observe that hearing impairment and front-end processing of hearing aids and cochlear implants may reduce the benefit from restoration. Based on this observation, we hypothesize that the degradations in the bottom-up speech signals due to the hearing impairment or signal processing may have a negative effect on the top-down repair mechanism, which could partially be responsible for the complaints by this population. We test this hypothesis in a number of studies with either control groups of normal hearing (with or without simulations of hearing impairment) or with hearing-impaired participants. In this talk, I will present results from these studies. Overall findings from our laboratory imply that the degradations in the bottom-up signals alone (such as in hearing impairment) may reduce the top-down restoration of speech, even in the absence of cognitive deficits.

}, author = {Deniz Baskent} } @article {98, title = {Tekst-naar-spraak voor het Fries}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Welke aanpassingen zijn nodig om een Nederlandse spraaksynthesizer geschikt te maken voor het Fries? Jelske Dijkstra (UvA) onderzocht deze vraag in haar prijswinnende scriptie uit 2004. Haar benadering vormde de inspiratie voor een samenwerkingspro ject van Fluency, Readspeaker, Fryske Akademy en Af{\^u}k, met subsidie van de Provincie Friesland.

Eerst hebben we de tekst-naar-spraaksoftware van Fluency voorzien van een Friese modus, bestaande uit een Fries lexicon en uitzonderingsregels voor het Fries. Vervolgens is een Fries tekstcorpus samengesteld, dat door twee moedertaalsprekers is ingesproken. De opnamen vormden de basis voor twee Friese stemmen voor de unit-selectie synthese van Fluency.

Het resultaat zal door Readspeaker worden toegepast op een aantal Friestalige websites, en komt daarnaast beschikbaar als plugin voor de tekst-naar-spraakproducten van Fluency.

}, author = {Arthur Dirksen} } @article {92, title = {Weter beten: Verwisselingen overheersen in segmentele versprekingen}, year = {2011}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het zogenaamde "scan-copier" model voor de seri{\"e}le ordening van spraaksegmenten van Shattuck-Hufnagel (1983) voorspelt, in strijd met wat we in collecties versprekingen aantreffen, dat er meer segmentele verwisselingen dan anticipaties en perseveraties zijn (voorspelling 1). Recent onderzoek van Goldstein et al. (2007) en van McMillan \& Corley (2010) laat zien dat segmentele versprekingen gradueel zijn en het resultaat kunnen zijn van parti{\"e}le en simultane activatie van segmenten die strijden om dezelfde positie. Dit leidt tot voorspelling 2: Responsietijden voor niet verbeterde versprekingen zijn langer dan die voor wel verbeterde versprekingen. Beide voorspellingen blijken bij toetsing op te gaan. Dit steunt zowel het scan-copier model van Shattuck-Hufnagel als het idee van Goldstein c.s. dat versprekingen gradueel zijn en segmenten kunnen concurreren voor dezelfde positie.

}, author = {Sieb Nooteboom and Hugo Quen{\'e}} } @article {154, title = {ASR-based CALL: integrating automatic speech recognition (ASR) in computer-assisted language learning (CALL)}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

More and more computer-assisted language learning (CALL) applications have {\textquoteright}speech inside{\textquoteright}. However, in most cases the speech is produced by the system, i.e. speech is output. The CALL system reads utterances, avatars or movies are shown, and the student has to listen and respond (usually, by means of a mouse or a keyboard). In some of these CALL systems the student is also asked to speak. What these systems do with these utterances spoken by the students differs, e.g. nothing at all, or the speech is recorded to give the teacher the possibility to listen to it (afterwards), or the student immediately has the opportunity to listen to (and/or look at a display of) the recorded utterance, and possibly compare it with an example of a correctly pronounced utterance.

In a few systems automatic speech recognition (ASR) is used to give more detailed feedback. ASR can be briefly described as the conversion of speech into text by a computer. The performance of ASR systems has gradually improved over the last decades, but ASR is certainly not error-free, and probably it will never be, especially for so-called a-typical speech (speech of non-natives or people with communicative disabilities). An important question then is, when and how ASR can usefully be incorporated in applications, such as CALL applications. In my presentation, I will make clear what ASR can and what it cannot (yet) do, within the context of CALL, a-typical speech. Although ASR is not error-free it can successfully be applied in many applications, if one carefully takes its limitations into account. The most well-known application at the moment is probably the reading-tutor, but there are other possibilities. I will present some examples of such applications.

}, author = {Helmer Strik} } @article {156, title = {Automatic assessment of native, normally formed, read or repeated speech}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In reading education and speech therapy, teachers and therapists often need to assess if a known utterance is pronounced up to the expected standard. While training their reading skills, regular pupils as well as persons with a reading disorder may produce reading miscues. One of the tasks of the teacher or therapist is to detect these (reading skill evaluation) and give corrective feedback (training). In another setting, persons who have lost their hearing and who have a cochlear implant need to be trained to their new bionic ear. A therapist will read a sentence which the patient is to repeat as accurately as possible.

In the therapy and evaluation setting of the above examples, a one-on-one setting is used in practice. This is an expensive solution in terms of labour cost as well as in terms of logistics to bring patient and therapist together. Reading training is often done collectively in today{\textquoteright}s classrooms, but a more personalized training is in demand. The result is that the number of one-on-one practice hours is reduced from the ideal. This calls for computer programs that incorporate automated methods of speech assessment and that the pupil/patient can use in addition to the scheduled contact hours. Additionally, automated methods have the advantage to have endless patience and do not suffer from examiner bias, i.e. apply the same metrics to all, irrespective of examiner, place, time and history.

In this contribution, we show how speech recognition technology can be applied to come to an automated assessment. We describe a method for dealing with imperfect phone recognition while exploiting acoustic, lexical and phonotactic knowledge as well as knowledge of the intended sentence. Finally, by giving performance data in real settings, we show what we can and cannot expect from automated speech assessment.\ 

}, author = {Hugo Van hamme} } @article {110, title = {De overgang}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De articulatie van woorden in gebarentalen bestaat meestal uit een eenvoudige beweging van de vingers door de ruimte. Om van het eind van een gebaar naar het begin van het volgende gebaar de komen, is vrijwel altijd ook een beweging nodig. We probeerden erachter te komen of er een verschil is in kinematische eigenschappen van lexicale gebaarbewegingen versus overgangsbewegingen. Twee vaardige sprekers van Nederlandse Gebarentaal produceerden eenhandige woordparen. Door middel van een Cyberglove en bijbehorende locatie- en ori{\"e}ntatiesensor werd de beweging van de vingertop in drie dimensies gemeten. De lexicale en transitiebewegingen werden gesegmenteerd met behulp van de gemaakte video-opnames in ELAN, waarna de lengte van de padbeweging van de vingertop alsmede de duur, snelheid en versnelling werden berekend voor de drie segmenten. Allereerst maakte een vergelijking van het eerste en het tweede gebaar duidelijk dat in gebarentaal net als in gesproken taal een effect van finale verlenging optreedt, een bevestiging van een studie van Grosjean (1979) over Amerikaanse Gebarentaal. Verder bleek uit een vergelijking van de beweging tijdens de overgang met die van de lexicale gebaren een significant verschil in snelheid: de beweging tussen gebaren was langzamer dan die binnen gebaren.

}, author = {Ellen Ormel and Onno Crasborn} } @article {105, title = {De {\textquoteright}scherpe{\textquoteright} /z/ en forensische relevantie van segmentele variatie}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De {\textquoteright}scherpe{\textquoteright} /z/ is een variant van de /z/ die geassocieerd wordt met etnolectische spraak en geldt als een van de stereotypes van spraak van jonge allochtonen. De variant is bijvoorbeeld opgemerkt door Dorleijn \& Nortier in Turks- en Marokkaans-Nederlands in N. van der Sijs, Wereldnederlands. Oude en jonge vari{\"e}teiten van het Nederlands (2005). Deze /z/ is onderzocht in het corpus van het {\textquoteright}Roots of Ethnolectsproject{\textquoteright}, een samenwerkingsverband tussen het Meertens Instituut en de Radboud Universiteit Nijmegen. Dat corpus bestaat onder andere uit spraak van Amsterdamse en Nijmeegse 20-jarigen met Marokkaanse, Turkse of autochtoon Nederlandse achtergrond. Van 18 proefpersonen zijn 20 /z/{\textquoteright}en geselecteerd en gescoord naar perceptieve scherpte van de /z/. Vervolgens is in deze tokens op verschillende akoestische variabelen gemeten, hetgeen een profiel opleverde van wat een scherpe /z/ een scherpe /z/ maakt. In deze presentatie wordt verder ingegaan op hoe forensische toepassing van fonetiek werkt en hoe het type onderzoek zoals boven beschreven relevant kan zijn.

}, author = {David van der Vloed} } @article {115, title = {Een dynamisch perspectief op de ontwikkeling van T2-fonologie: productie en perceptie (afgelast)}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een van de belangrijkste vragen op het gebied van de verwerving van een T2-klanksysteem is of de moeilijkheid van uitspraakproductie kan worden verklaard vanuit de perceptie. Veel onderzoek op dit gebied (bijvoorbeeld Flege, 1995; Wode, 1994) zoekt de verklaring van productieproblemen in (categorische) perceptie. Als er een volgorde effect zou zijn, waarbij productie volgt op perceptie, zou zich dit ook moeten manifesteren in longitudinaal onderzoek. In deze lezing zal ik verslag doen van een kleinschalig longitudinaal onderzoek naar de ontwikkeling van het T2-klanksysteem door Nederlandse leerders van het Engels. Het onderzoek concentreert zich op het VOT-continu{\"u}m van /p/ en /b/, vari{\"e}rend van {\textquotedblleft}prevoicing{\textquotedblright} in Nederlandse stemhebbende plosief /b/ tot aspiratie in de Engelse stemloze variant /p/. Uit de resultaten van dit onderzoek lijkt naar voren te komen dat perceptie en productie elkaar niet op een eenduidige manier opvolgen, maar een patroon van precursor-interactie vertoont, die onder meer afhankelijk is van leeftijdgerelateerde factoren.

  • Flege, J. E. (1995). Second language speech learning. theory, findings and problems. In W. Strange (Ed.), Speech perception and linguistic experience (pp. 233-277). Timonium, MD: York Press.
  • Wode, H. (1994). Nature, nurture, and age in second language acquisition: The case of speech perception. SSLA, 16, 325-345.
}, author = {Wander Lowie} } @article {114, title = {Effect van luistertype op de perceptie en productie van spraak}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Aangetoond in psychoakoestische en neurologische onderzoeken is dat voor verschillende luisteraars, verschillende aspecten van een signaal dominanter overgebracht worden. Sommige luisteraars zijn gevoeliger voor informatie die gecodeerd is in fundamentele frequentie, anderen voor de algemene spectrale informatie. Effecten van luistertype zijn al eerder aangetoond voor perceptie van muziek en emoties. De resultaten van ons huidige experimentele onderzoek laten zien dat luisteraars (N=46, 20 mannen, allemaal moedertaalsprekes van het Nederlands) ook verschillen in de perceptie van de lengte van klanken /i/-/i:/, afhankelijk van de spectrale eigenschappen van de klinker in een perceptietaak met 36 varianten van de klinker (combinaties van F1(Hz)={357,326,295,265,236,207} en lengte(ms)={94.6,112,128,145,152,179}). Er is geen effect gevonden op productie van spraak.

}, author = {Marie Nilsenov{\'a}} } @article {157, title = {E-learning based Speech Therapy: generating a database of pathological speech}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In Nijmegen, a web application for speech training in neurological patients with dysarthric speech has been developed. This web application, E-learning based Speech Therapy (EST), provides patients with diminished speech intelligibility due to neurological diseases (e.g. stroke or Parkinson{\textquoteright}s disease) with the possibility to practice speech in their own environment. The key point of the EST infrastructure is a central server, to which both therapists and patients have access. The server contains audio files of both target speech and patients{\textquoteright} pathological speech. Therapists are enabled to remotely compose a tailor-made speech training program, containing audio files of target speech. Patients have access to these files and attempt to approach the target. They can upload their own speech to the central server, thus generating a database of pathological (i.e. dysarthric) speech. Therapists are allowed to monitor their patients{\textquoteright} uploaded speech across time by downloading and analyzing speech files.

Apart from therapeutic benefits, EST, automatically generating a database of dysarthric speech, provides researchers in the field of speech technology with a large amount of speech data. For the purpose of developing tools for automatic error detection in speech or automatic recognition of dysarthric speech, this source of pathological speech is vital. On the long term, the results might enhance communicative independence of patients with various degrees of dysarthria. Moreover, new developments in de the field of automatic speech recognition of severely dysarthric speech might be applied in domotica.

}, author = {Lilian Beijer} } @article {113, title = {Klinkerproductie en -perceptie in het Standaardnederlands}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Voor twintig jonge moedertaalsprekers van het Nederlands hebben wij

(a) opnamen gemaakt van de productie van vijftien Nederlandse klinkers in zes verschillende medeklinkercontexten, en

(b) hun categorisering (in termen van dezelfde vijftien Nederlandse klinkers) van ruim 700 natuurlijke en synthetische klinkers getest.

De perceptiedata stellen ons in staat de Nederlandse perceptieve klinkerruimte nauwkeurig in kaart te brengen. De productiedata kunnen een waardevolle bijdrage leveren aan eerdere metingen van de Nederlandse klinkers, en daarnaast vergeleken worden met de perceptiedata om individuele verschillen in perceptie te relateren aan individuele verschillen in productie.

}, author = {Jan-Willem van Leussen} } @article {149, title = {{\textquotedblleft}Knock, Knock. Who{\textquoteright}s there?{\textquotedblright} - Speaker Tracking in the BATS Project}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Creating large digital multimedia archives is no problem. With an investment of less than two hundred euros for example, it is possible to record the Dutch public television broadcast channels every single day for about a year. This archive would fill a 1.5 Terabyte hard drive and would contain over 7000 hours of video. Creating such an archive is no problem, but efficiently finding information in the archive is a challenge.

An effective method of searching multimedia archives and collections is to run automatic speech recognition on each file and to apply standard search techniques on the speech transcriptions. This makes it possible to find video fragments on basis of what has been said.

By applying speech recognition it is possible to search an archive on content words, but it is not possible to answer queries such as: {\textquotedblleft}Find a video fragment where Armstrong talks about the Amstel Gold Race{\textquotedblright}. In the BATS project we attempt to solve these kinds of queries by applying speaker tracking ({\textquotedblleft}Armstrong{\textquotedblright}) and topic detection ({\textquotedblleft}Amstel Gold Race{\textquotedblright}).

BATS, Topic and Speaker tracking in Broadcast Archives, is a joint project of the University of Leuven and the Radboud University Nijmegen, funded by ICTRegie and IBBT. In my talk I will focus on the speaker tracking task. I will explain why it is a challenge to automatically determine the identity of each single speaker in a collection and I will describe our approach to solve this challenge.

}, author = {Marijn Huijbregts} } @article {117, title = {Mutual intelligibility of Dutch and German cognates by humans and machines}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Many languages are so closely related that they are mutually intelligible to a certain extent. Mutual intelligibility between language pairs is sometimes asymmetric. For example, Danes understand Swedish better than Swedes understand Danish (Delsing \& Lundin {\r A}kesson, 2005; Gooskens et al., in press) and Brazilians understand (Argentinean) Spanish better than Argentineans understand (Brazilian) Portuguese (Jensen, 1989). These results are usually explained by extra-linguistic factors such as asymmetric attitudes towards the (speakers of the) languages involved and unequal experience with the languages. Additionally, linguistic differences can also be asymmetric and can also account for asymmetric mutual intelligibility.

This project aims to investigate factors determining intelligibility between Dutch and German. Dutch listeners (score: 87\%) understand German better than Germans (score: 73\%) understand Dutch (H{\'a}z, 2005). The most obvious explanation for this asymmetry is the fact that Dutch children learn German at school while Dutch is not a part of the curriculum for German children. The first aim of our investigation is to rule out the influence of education by testing mutual intelligibility of Dutch and German with children of 11 to 12 years who have not yet learnt the neighbouring language at school. We selected ca. 750 highly frequent Dutch-German cognate nouns (Celex corpora). These cognates were read aloud by a perfect bilingual speaker of German and Dutch and presented to the subjects in a translation task. Prior tothe intelligibility test, the German and Dutch subjects answered questions on their attitudes towards and experience with the neighbouring language and its speakers.

The second aim of our investigation is to model the mutual Dutch-German intelligibility through automatic speech recognition. Dutch cognates used in the intelligibility test (described above) were presented to a German speech recognizer and the German words to a Dutch speech recognizer of the same make (Dragon NaturallySpeaking Standard version 10). The speech recognizers had been trained by our bilingual speaker in exactly the same way in both languages. The percentage of correctly recognized words per language is our measure of intelligibility. If the German-Dutch intelligibility is asymmetric it can be assumed that non-linguistic factors do not play a decisive role and that the asymmetry can be explained at least partly by linguistic factors.

The results of the human-based experiment will be compared to the results of the computer-based experiment.

  • Delsing, L. \& Lundin {\r A}kesson, K. (2005). H{\r a}ller spr{\r a}ket ihop Norden?[Does language keep together the Nordic countries?] Copenhagen: Nordiska ministerr{\r a}det.
  • Gooskens, C., V.J. van Heuven, R. van Bezooijen \& J.J.A. Pacilly (2010). Is spoken Danish less intelligible than Swedish? Speech Communication (in press).
  • Gooskens, C. \& R. van Bezooijen (2006). Mutual comprehensibility of written Afrikaans and Dutch: symmetrical or asymmetrical?Literary and Linguistic Computing.
  • H{\'a}z, E. (2005). Deutsche und Niederl{\"a}nder. Untersuchungen zur M{\"o}glichkeit einer unmittelbaren Verst{\"a}ndigung. Hamburg: Kova{\v c} (Philologia 68).
  • Jensen, J. B. 1989. On the mutual intelligibility of Spanish and Portuguese. Hispania 72, 848-852.
}, author = {Vincent van Heuven and Charlotte Gooskens and Ren{\'e}e van Bezooijen} } @article {116, title = {Mutual intelligibility of English vowels by Chinese dialect speakers}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

This mutual intelligibility study contains two experiments: the production and the perception of English monophthongs. In the production experiment, 45 male and 45 female first-year Chinese college students were recorded. They hailed from nine different dialectal backgrounds (three supergroups), with five male and five female speakers per dialect group. The stimuli were [hid], [hɪd], [hed], [h{\ae}d], [hu:d], [hʊd], [hɔ:d], and [hɔd].Formants F1 and F2 as well as vowel durations were measured. Linear Discriminant Analyses showed that the speakers{\textquoteright} dialect backgrounds can be predicted better than chance only on the supergroup level. In the perception part, one representative male speaker was chosen for each dialect based on his Euclidian distance from a model American speaker. The representatives{\textquoteright} vowel tokens were then identified and rated for typicality by two 282 first-year undergraduates from the same dialect groups. A significant interlanguage benefit (i.e. better identification results when listener and speaker share the same language background) was found only on the dialect supergroup level.

}, author = {Rongjia Cui and Vincent van Heuven} } @article {109, title = {Optimalisatie van tekst-to-speech door gebruik van metainformatie (documentstructuur)}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De huidige generatie algemeen beschikbare text-to-speech (TTS) systemen (links naar websites) leest tekstbestanden (bv Word-bestand, HTML, PDF) voor aan de gebruiker. Denk hierbij aan situaties waarin de gebruiker auditieve informatie beter tot zich kan nemen dan geschreven informatie, zoals bijvoorbeeld bij het beluisteren van vergaderstukken in de auto, of het beluisteren van collegestof in de sportschool. Echter, in geschreven documenten beperkt de boodschap zich niet slechts tot een rij woorden en zinnen, maar heeft de visuele opmaak een ondersteunende functie voor het begrijpen van de boodschap. Dik gedrukte woorden, lettergroottes, lijsten met bullets, genummerde opsommingen, inspringingen en dergelijke, maken het de lezer makkelijker de functie van elementen en hun onderlinge relaties te begrijpen. Als een TTS-systeem enkel de document-tekst uitspreekt, gaat al deze informatie verloren, en is de documentstructuur minder goed te begrijpen. Voor mijn bachelor-afstudeerstage Kunstmatige Intelligentie onderzoek ik hoe documentstructuur in combinatie met documentinhoud via audio gecommuniceerd kan worden met als doel de begrijpelijkheid te verbeteren. Het ultieme doel is dan vervolgens een applicatie te ontwikkelen waarin deze optimalisatie aan gebruikers kan worden aangeboden in een mobiele omgeving.\\

}, author = {Bouke Versteegh} } @article {111, title = {Over postura in het NL}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Spreek uit: lontje-lor-lok-lot-Lon-lont-lol. Het schijnt dat (voor de meeste niet-Amsterdammers) de {\textquoteleft}tongue-posture{\textquoteright} steeds iets verder naar achteren helt. De helesyllabe klinkt dan {\textquoteleft}donkerder{\textquoteright}. Luister vooral naar en voelook uw begin-lateralen.

Dit roept veel vragen op. Hoe specificeer en doceer je de lippen/tong -postura{\textquoteright}s van het NL? Wat is {\textquoteleft}postura{\textquoteright}? Waarom maken wij dergelijke niet-distinctieve onderscheidingen? Hoe regelt uw brein dat? Stellen Blondie\&Co ook dit nu verplicht voor niet-Edelgermanen{\textellipsis}?

In het hoofdstuk {\textquoteleft}Postura{\textquoteright} van mijn Engelse uitspraakcursus (gratis pdf-download op www.linguavox.nl) behandel ik het verschijnsel, met verwijzingen naar het NL en {\textquoteleft}exhaustive rules{\textquoteright} voor het GB Engels. Meer discussie in vBuuren (1995).

L. v. Buuren: English Phonetics Course (for Dutch-speaking students), (1969-)1993, chapter 11; Postura, Clear and Dark Consonants Etcetera, in: J. Windsor Lewis (ed.) Studies in English and General Phonetics, Londen, 1995, pp. 130-142.

}, author = {Lucas van Buuren} } @article {112, title = {Schwareductie in Nederlandse woordiniti{\"e}le lettergrepen}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In spontane spraak worden vaak niet alle klanken van een woord helemaal uitgesproken. Klanken kunnen erg kort zijn, maar ook compleet afwezig. Bijvoorbeeld, het woord geleden heeft de canonische vorm /xəledə/, maar de eerste schwa kan erg kort zijn en soms zelfs afwezig, zoals in [xledə]. Hoewel van een aantal factoren bekend is dat ze invloed hebben op reductie, is nog niet geheel duidelijk op welke manier ze dat hebben. Om hier meer inzicht in te krijgen, presenteren wij een corpusonderzoek, waarbij de invloed van zowel de voorspelbaarheid van een woord in de context als de morfologische structuur van het woord op de mate van schwareductie werd onderzocht. We hebben ons gericht op schwa in de Nederlandse woordiniti{\"e}le lettergrepen ge-, be- en ver- en de mate van reductie gemeten als de af- versus aanwezigheid van schwa en de duur van schwa. De resultaten toonden aan dat schwa vaker gereduceerd wordt als de voorspelbaarheid gegeven het volgende woord groter is. Verder is schwa in ge- langer als de lettergreep een prefix is en als de stam vaker voorkomt dan het woord zelf. De resultaten suggereren dat de condities waaronder gereduceerde varianten geproduceerd worden, complexer zijn dan je zou verwachten op basis van de huidige literatuur.

}, author = {Iris Hanique and Barbara Schuppler and Mirjam Ernestus} } @article {152, title = {Speech Applications based on websites {\textendash} a feasibility assessment}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

The principle of basing speech applications on websites ({\textquotedblleft}the principle{\textquotedblright}) is usually frowned upon by both IT and Speech experts. The process is often referred to as {\textquotedblleft}screen scraping{\textquotedblright}, indicating a lack of understanding of the technological aspects. Also the opportunities that it offers are not always valued for their huge potential.

This presentation aims to discuss pros and cons of the principle, by putting the benefits of the value added applications in perspective with technological possibilities and constraints. The fundamental advantage of the principle is that in the current web centric world many benefits can be obtained from a standardized web-interface as the single source for all communication channels. This way of interfacing allows for speed and efficiency in the creation and life-cycle management of quickly evolving content and service concepts.

Through the implementation in some commercial websites the reading out of texts in websites in the web browser by using Speech Synthesis is for many people already a familiar phenomenon. Speech input offers at least the same potential. Some areas and solutions that could or already benefit from both are:

  • Designing and prototyping speech applications for self service.
  • Integrating multi-channel applications for computers and mobile devices.
  • Powerful multi-channel solutions e.g. Employee Customer Satisfaction Feedback and ICT Helpdesk.
  • Multi-modal use of computers and mobile devices e.g. for general handsfree or making them more accessible for people with special impairments.

The success of the deployed applications is strongly determined by the capabilities and constraints of speech technology. Some factors that cannot be resolved by the application developer and require a fundamental approach are:

  • Dealing with incomplete or irrelevant information
  • Dealing with {\textquotedblleft}real{\textquotedblright} natural language and adoption of foreign words.
  • Dealing with background noise, background voices and environmental acoustics (speech recognition only).
}, author = {Its Kievits} } @article {150, title = {Speech based audiovisual content annotation and contextualisation at NISV}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

The audiovisual archive of the Netherlands Institute for Sound and Vision (NISV) consists of more than 700000 hours of radio, television, documentaries, films and music and is growing every day (15000 hours of video annually). As the traditional manual annotation process is costly and limited by definition, new annotation strategies need to be explored to enable access to the variety of user types, both professional and non-professional, in our present-day information society. In my talk, I will give an overview on new annotation and contextualisation strategies that are being deployed or tested within the context of the NISV archive and zoom in on strategies that make use of the speech present in audiovisual content.

}, author = {Roeland J. F. Ordelman} } @article {108, title = {Spraaksynthese met de eigen stem: 4 casestudy{\textquoteright}s met ALS-pati{\"e}nten}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De spraaksynthese van Fluency maakt gebruik van een relatief klein corpus voor unitselectie, waardoor in korte tijd een nieuwe stem gemaakt kan worden. Voor sprekers die hun stem dreigen te verliezen, bijvoorbeeld als gevolg van de progressieve spierziekte ALS, kan het de moeite waard zijn het corpus (of een substantieel deel ervan) in te spreken, en hun stem te laten conserveren in de vorm van een spraakdatabase voor de synthesizer. In een later stadium kunnen zij dan hun "eigen stem" gebruiken in een communicatiehulpmiddel.

{\.I}n deze lezing bespreek ik de resultaten met een viertal sprekers met ALS, en de kunstgrepen die toch wel nodig zijn om van enigszins weerbarstig audiomateriaal bruikbare spraaksynthese te maken.

}, author = {Arthur Dirksen} } @article {106, title = {Uit de forensische spraakkeuken}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In 2009 is er een onderzoek verricht naar de werkwijze en rapportages van Amerikaanse forensische onderzoekers. In het verslag wordt de forensische wetenschap bekritiseerd en wordt de werkwijze zoals bij DNA-vergelijking als voorbeeld gesteld. Alhoewel forensisch spraakonderzoek er niet rechtstreeks in bekritiseerd wordt (waarschijnlijk is het een te kleine discipline), geeft het rapport een duidelijk signaal. Enerzijds dient er gewerkt te worden aan de validatie van de methoden en technieken en anderzijds moeten er op databases gebaseerde technieken ontwikkeld worden. Ook het onderzoek naar confirmation bias is een belangrijk punt.

In deze presentatie zal ik aangeven hoe er op verschillende fronten wordt gewerkt aan verbetering en objectivering van forensische sprekervergelijking. Er zijn nu verschillende stromingen, die in de presentatie kort uiteen zullen worden gezet. Verder is er een groep onderzoekers die de invloeden van contextinformatie en de daarbij behorende confirmation bias te lijf gaat.

}, author = {Jos Vermeulen} } @article {151, title = {Unveiling Personal Memories of War and Detention}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Recording and publicizing your {\textquotedblleft}own{\textquotedblright} AV-recorded memories is so easy now a days, that nearly everyone can (and maybe will) do it. Of course, not all the recorded material will be of huge historical or social interest, but how to decide what is valuable and what is not? Most of the AV-recorded material is not or only sparsely enriched with useful meta-data. So, to unveil these recordings, meta-data is necessary. One of the most promising technologies for meta-data addition is automatic speech recognition: a technology used to transform the spoken speech in a sequence of adjacent, most likely said words. At least at this time, a reliable, 95\% correct recognition of the speech is not possible and we have to deal with imperfections: sometimes not more than 40\% of the words are correctly recognized.

Nevertheless, ASR is suitable for the unveiling of spoken memories and the last years we see an increasing number of such projects. In this talk we will present an overview of two upcoming Oral History projects: Sobibor and MATRA.

In the Sobibor project 35 interviews with {\textquotedblleft}nebenkl{\"a}ger{\textquotedblright} (relatives of people killed in Sobibor) and survivors of the Sobibor camp are aligned. Because not all interviewees speak Dutch, multilinguality becomes an issue here.

In the MATRA project 500 inhabitants of Croatia will be interviewed about their memories of the Yugoslavian civil war (1991 and 1995). Full speech recognition for Croatian does not exist yet, so other technologies will be used to unveil these data. Moreover, because only a few people can understand Croatian, full translations in English and automatic term-translation in other languages will be done in order to unveil the data as much as possible.

}, author = {Arjan van Hessen} } @article {155, title = {Using Speech Technology to Assist during Pathological Speech therapy}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Pathological speech developing as a result of oncological treatment has a significant negative impact on the quality of life of patients. Studies have shown that improvements of speech quality and intelligibility can indeed significantly improve the quality of life of patients. To achieve these improvements in clinical treatment, the speech quality of individual patients needs to be evaluated and followed to address his or her specific problems and to collect evidence for selecting the best treatment course.

Currently, pathological speech can only be evaluated by, scarce, human judges using subjective measures. The use of panels of human judges is not feasible during routine treatment. Moreover, subjective human evaluations are less than optimal for evidence based treatment selection. Therefore, efforts have been recently made to introduce objective methods and automatic evaluations of the intelligibility and quality of pathological speech to improve reliability and reduce cost.

Two such initiatives will be discussed, from the universities of Erlangen/N{\"u}rnberg and of Gent. Both systems have been used in clinical practice. The Erlangen/N{\"u}rnberg system uses a standard ASR system trained on normal speech. The word-error-rate of the ASR is correlated to the intelligibility of the speech. The Gent system uses a speech feature recognizer trained on normal speech with a back-end that is trained to correlate recognized speech features to intelligibility.

Currently only very little is known about the way human and automatic speech recognizers {\textquotedblleft}react{\textquotedblright} to pathological speech. An obvious way to study this is to generate bench-mark synthetic speech with well defined pathologies. Recent attempt to synthesize and manipulate pathological speech for such aims will be discussed.

}, author = {Rob van Son} } @article {107, title = {Validiteit van herkomstbepaling op basis van spraak door de IND}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Bij de IND worden zogeheten {\textquoteleft}taalanalyses{\textquoteright} uitgevoerd om de gestelde herkomst van ongedocumenteerde asielzoekers nader te onderzoeken. Ten behoeve van dit onderzoek worden spraakopnames gemaakt van interviews, waarin de asielzoeker de mogelijkheid krijgt zijn gestelde herkomst aannemelijk te maken door middel van een demonstratie van zijn actieve talenkennis. De IND stelt vervolgens vast of de gedemonstreerde taalbeheersing de gestelde herkomst ondersteunt of niet, en moet hiertoe vaak taalvarianten differenti{\"e}ren.

Zowel de methode als de conclusies van de IND worden vaak zwaar bekritiseerd, en contra-experts komen regelmatig tot andere conclusies. Uit een onderzoek aan de hand van zaken waarin de daadwerkelijke identiteit achteraf is komen vast te staan, blijkt echter dat in gevallen waarin een contra-expert het niet eens was met de IND, de conclusie van de IND ten aanzien van de gestelde herkomst steeds juist was, en die van de contra-experts dus niet.

In deze presentatie komen de methodologische verschillen tussen de IND en contra-expertises aan bod, en worden de resultaten van bovengenoemd onderzoek gepresenteerd.

}, author = {Tina Cambier-Langeveld} } @article {153, title = {The challenges of forensic application of automatic speaker recognition}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Automatic speaker recognition is an area in speech technology that is enjoying increasing interest from the research community. In recent years, the application of this technology to the forensic domain is being investigated. Here the general idea is that a recording of an incriminating speech utterance can help to identify the perpetrator of a crime. The first application scenario is to use speaker recognition technology in the criminal investigation: to narrow down the search of suspects using the recording. In a second stage, the application scenario is to use the technology to produce evidence to support the hypothesis that a suspect is the source of the recording.

The speaker recognition community is in general very careful about the application of the technology to new domains, and in this presentation, some aspects of both application scenarios are put forward. The specific challenges and necessary research directions are reviewed, and where possible a comparison to current practice is made.

}, author = {David van Leeuwen} } @article {129, title = {15:50 Luisteren naar glimlachen}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een glimlach heeft waarneembare effecten op de tegelijkertijd geproduceerde spraak. Volgens sommige theorie{\"e}n heeft de waargenomen glimlach effect op de luisteraar, zowel motorisch (spiegeling van glimlach-gebaar) als emotioneel (meer positieve attitude). Hieruit volgt dat de verwerking van bijpassende positieve woorden (bv "eerlijk") vlotter zal verlopen dan van negatieve woorden (bv "gemeen"). Deze voorspelling werd onderzocht in een proef waarbij een gesproken doelwoord moest worden geclassificeerd als semantisch positief of negatief. De gesproken woorden waren fonetisch bewerkt zodat ze klonken als gesproken met glimlach, neutraal, of met frons. De gevonden reactietijden bevestigen het voorspelde gunstige effect van fonetisch{\textendash}semantische congruentie. De theoretische implicaties hiervan zijn echter nog onduidelijk.

}, author = {Hugo Quen{\'e}} } @article {127, title = {Brabbelen en het gehoor: Aspecten van fonatie en articulatie in het vocalisatiepatroon van doofgeboren baby{\textasciiacute}s na cochleaire implantatie}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Brabbels zijn prelexicale vocaliseringen waarin fonatie en articulatie vlot gecombineerd worden. Normaal beginnen baby{\textquoteright}s te brabbelen tussen de leeftijd van 6 en 10 maanden ([3], [4], [6], [8]). Bij doofgeboren kinderen ontwikkelt deze belangrijke vocale mijlpaal zich pas veel later of zelfs helemaal niet ([2], [5]). Recent onderzoek heeft aangetoond dat de auditieve stimulatie die zeer vroege cochleaire implantatie (CI) biedt, ervoor zorgt dat doofgeboren baby{\textquoteright}s gaan brabbelen zoals hun normaal horende leeftijdsgenoten ([1], [7]). Onze studie gaat na of de vocaliseringen van zulke vroeg-ge{\"\i}mplanteerde baby{\textquoteright}s zich tijdens de brabbelperiode volgens dezelfde patronen ontwikkelen als die van normaal horende kinderen. De resultaten tonen aan dat beide groepen kinderen met vergelijkbare frequenties gebruik maken van brabbeluitingen, maar dat kinderen met een CI relatief vaker uitingen met onderbroken fonatie produceren, terwijl normaal horende kinderen doorlopende fonatie prefereren. De verschillende auditieve ervaring van beide groepen lijkt dus een invloed te hebben op hun vocalisatiepatroon in de prelexicale periode.

Referentielijst

[1] Colletti, V., Carner, M., Miorelli, V., Guida, M., Colletti, L., \& Fiorino, F. G. (2005). Cochlear Implantation at under 12 months: Report on 10 Patients. The Laryngoscope, 115(3), 445-449.

[2] Koopmans-van Beinum, F. J., Clement, C. J., \& van den Dikkenberg-Pot, I. (2001). Babbling and the lack of auditory speech perception: A matter of coordination? Developmental Science, 4(1), 61-70.

[3] Koopmans-van Beinum, F. J., \& van der Stelt, J. (1986). Early stages in the development of speech movements. In B. Lindblom \& R. Zetterstrom (Eds.), Precursors of Early Speech (pp. 37-50). New York: Stockton.

[4] Oller, D. K. (1980). The emergence of the sounds of speech in infancy. In G. H. Yeni-Komshian, J. F. Kavanagh \& C. A. Ferguson (Eds.), Child Phonology. Volume 1: production (pp. 93-112). New York: Academic Press.

[5] Oller, D. K., \& Eilers, R. E. (1988). The role of audition in infant babbling. Child Development, 59, 441-449.

[6] Roug, L., Landberg, I., \& Lundberg, L.-J. (1989). Phonetic development in early infancy: a study of four Swedish children during the first eighteen months of life. Journal of Child Language, 16, 19-40.

[7] Schauwers, K., Gillis, S., Daemers, K., De Beukelaer, C., \& Govaerts, P. J. (2004). Cochlear implantation between 5 and 20 months of age: The onset of babbling and the audiologic outcome. Otology \& Neurotology, 25, 263-270.

[8] Stark, R. E. (1980). Stages of Speech Development in the First Year of Life. In G. H. Yeni-Komshian, J. F. Kavanagh \& C. A. Ferguson (Eds.), Child Phonology. Volume 1: production. New York: Academic Press.

}, author = {Inge Molemans and Renate van den Berg and Lieve Van Severen and Paul Govaerts and Steven Gillis} } @article {122, title = {CLARIN: wat is dat?}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

CLARIN is een grootschalig Europees samenwerkingsprogramma dat erop gericht is, bestaande talige hulpbronnen en technologie op elkaar af te stemmen en ze via centrale servers voor alle onderzoekers beschikbaar te maken. Het idee achter CLARIN is dat de talige technologieen en data die de afgelopen decennia ontwikkeld zijn, nog te veel alleen door de TST-onderzoekers zelf worden gebruikt. Buiten de TST-community bestaat er nauwelijks besef van wat er allemaal mogelijk is. CLARIN richt zich daarom nadrukkelijk op alle wetenschappers uit de humaniora en de sociale wetenschappen om hen te overtuigen van de zegeningen die de verschillende bestaande talige hulpmiddelen en instrumenten kunnen bieden voor computerondersteunde taalverwerking. In onze voordracht zullen we proberen te laten zien wat de Nederlandse fonetische gemeenschap mogelijkerwijs aan CLARIN kan hebben, en omgekeerd.

Voorbeeldcase:

Iedere onderzoeker kent het: hij/zij heeft nog kasten/tapes/computerschijven vol prachtige data van veldwerk of experimenteel onderzoek, waar helaas niets meer mee gedaan wordt. Deels omdat de prioriteiten verschoven zijn, deels omdat de software/data niet meer compatibel zijn met de huidige standaarden. Door alles nu onder de CLARIN-vlag te brengen (CLARIN-compatibel te maken), wordt het weer mogelijk deze tools/data te gebruiken, waardoor wellicht de hoeveelheid dubbel werk vermindert en mooie collecties bewaard kunnen blijven.

}, author = {Arjan van Hessen} } @article {130, title = {De rol van semantische context in de herkenning van gereduceerde woorden}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In spontane spraak worden woorden vaak verkort uitgesproken (Johnson, 2004). Luisteraars hebben context nodig om deze gereduceerde woorden te herkennen (Ernestus, Baayen, Schreuder, 2002). In deze studie rapporteren we drie auditieve-lexicale-decisie experimenten, met semantische priming, waarmee we onderzochten in hoeverre semantische context een rol speelt in de herkenning van ongereduceerde en gereduceerde woorden. Luisteraars kregen alleen ongereduceerde (Experiment 1), gereduceerde (Experiment 2), of zowel ongereduceerd als gereduceerd woorden te horen (Experiment 3).

De resultaten voor Experiment 1 laten zien dat het effect van semantische context afhankelijk is van woordfrequentie: Semantische context speelt een grote rol voor laagfrequente, maar niet voor hoogfrequente woorden. Experiment 2 laat zien dat semantische context een ondergeschikte rol speelt in het herkennen van gereduceerde woorden. Uit de resultaten van Experiment 3 blijkt dat de kleine rol van semantische context in Experiment 2 niet zozeer te wijten is aan de gereduceerde uitspraak van de targetwoorden, maar aan hun gereduceerde primes. Dit suggereert dat gereduceerde uitspraakvarianten minder goed contact maken met het lexicon.

}, author = {Marco van de Ven and Benjamin V. Tucker and Mirjam Ernestus} } @article {121, title = {De structuur-prosodie interface van beperkende en uitbreidende relatieve bijzinnen in het Nederlands en Duits}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Hoe volgt prosodie de structuur van taal? Prosodie kan worden gezien als syntactisch gedreven, semantisch gedreven of gedreven door geen van beide (autonoom). Dit onderzoek belicht de structuur-prosodie interface van ingebedde beperkende (RRC) en uitbreidende (ARC) relative bijzinnen in het Nederlands en Duits. RRCs beperkend de klasse waarnaar het antecedent verwijst, terwijl ARCs een extra eigenschap van het antecedent aangeven. Hoe dit verschil in prosodie is gereflecteerd is onderwerp van onderzoek. Voor beide talen is een perceptie experiment uitgevoerd om het effect van toonhoogte en temporele signalen op de interpretatie van RRCs en ARCs te testen. Resultaten wijzen uit dat Nederlandse - en niet Duitse - luisteraars beide bijzinnen van elkaar kunnen onderscheiden op basis van deze signalen. In het algemeen zijn grotere effecten gevonden voor temporele dan voor toonhoogte signalen. Verder kan worden gezegd dat de prosodische realisatie van structurele cohesie (voor RRCs) anders is in het Nederlands dan in het Duits.

}, author = {Constantijn Kaland} } @article {120, title = {Dialectverandering: Lexicon versus morfologie versus klankcomponenten}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Op basis van fonetische transcripties van opnamen die gemaakt werden in 2008 en 2009 bestuderen we veranderingen in 20 lokale Nederlandse dialecten . In elke plaats werden twee oudere mannen (conservatieve sprekers) en twee jongere vrouwen (innovatieve sprekers) opgenomen. Op basis van dit materiaal (waarin lexicon, morfologie en klankcomponenten onderscheiden zijn) willen we de volgende vragen beantwoorden:

Veranderen de dialecten? Welke taalcomponent verandert het meest? Groeien dialecten naar elkaar toe? Convergeren dialecten naar het Standaardnederlands? Convergeren dialecten die sterk verschillen van het Standaardnederlands relatief sterker aan de standaardtaal dan dialecten die betrekkelijk verwant zijn aan het Standaardnederlands? Wat zijn de belangrijkste voorspellers voor dialectverandering?

}, author = {Wilbert Heeringa and Frans Hinskens} } @article {126, title = {Een akoestisch-articulatorisch model van medeklinkerinventarissen}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De foneeminventarissen van gesproken talen verschillen onderling aanzienlijk. Toch zijn er ook opvallende overeenkomsten aan te wijzen: sommige klinkers en medeklinkers zijn in een grote meerderheid van de talen aanwezig, terwijl andere klanken slechts in een fractie van de talen van de wereld voorkomen. Onderzoek met behulp van computermodellen heeft uitgewezen dat vaak voorkomende klinkerinventarissen grotendeels verklaard kunnen worden als een gevolg van twee tendensen: het minimaliseren van articulatorische moeite, en het maximaliseren van perceptueel contrast tussen de klinkers. Ik beschrijf een computermodel om te onderzoeken of medeklinkerinventarissen op dezelfde manier verklaard kunnen worden. Dit model maakt gebruik van verschillende technieken uit de spraaktechnologie: een articulatorische synthesizer genereert de mogelijke klanken, en automatische spraakherkenning wordt gebruikt om de onderlinge perceptuele afstand tussen de klanken te bepalen, en om de resulterende inventarissen te vergelijken met natuurlijke taaldata. De resultaten van het model lijken erop te wijzen dat maximaal contrast en minimale moeite ook een bepalende rol spelen in het ontstaan van medeklinkersystemen, maar dat hiermee niet alle tendensen in medeklinkersystemen verklaard kunnen worden.

}, author = {Jan-Willem van Leussen} } @article {125, title = {Gefloten plosieven en andere articulatorische wetenswaardigheden}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Bij mijn verhaal over Cardinal Vowels vorig jaar noemde ik al de nauwe relatie met fluiten. Bij mijn weten is daar nooit eerder op gewezen. Na nog wat experimenteren met het fluiten (hoorbaar en onhoorbaar) van Somewhere Over The Rainbow, etc., wil ik nu ook de relatie met palatale-velaire-uvulaire-faryngale consonanten daarbij betrekken. Uitgaande van een fluitbereik/beheersing van {\textpm} 3x12 halve tonen zou je wellicht een potentieel van {\textpm} 36 (tonglichaam) plosieven en fricatieven kunnen veronderstellen, en evenzovele klinkerplaatsingen in hetzelfde gebied. Articulatorisch fonetisch onderzoek als dit geniet (kennelijk!) niet veel belangstelling meer: de articulatorische fonetiek dreigt zelfs (ten tweede male) kopje onder te gaan. Maar. Van alle dieren heeft onze soort wel het meest fantastische, veelzijdige en (soms) buitengewoon fraaie en ontroerende vocale potentieel. Dus...?

}, author = {Lucas van Buuren} } @article {119, title = {Invloed en eigenschappen van herhaling op multilinguale spraakherkenning}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Herhaling speelt een belangrijke rol in gesproken communicatie. Het gaat hierbij zowel om herformulering (semantische verduidelijking) als om verbetering van uitspraak. Herhaling is vooral belangrijk bij weinig voorkomende woorden en formuleringen. Het Stevin-project Autonomata TOO richt zich op een domein met dit type taalgebruik: spraakherkenning van (commerci{\"e}le) eigennamen met Nederlandse, Engelse en Franse elementen, uitgesproken door sprekers met een Nederlandse/Vlaamse, Franse, Engelse, Marokkaanse of Turkse achtergrond. Herhaling blijkt een positief effect te hebben op de prestaties van de spraakherkenner, met verbeteringen tot meer dan 10 procentpunt. Dit effect is onder gecontroleerde condities getest, wat mogelijk was door het direct toepassen van spraakherkenning tijdens de opname van het spraakcorpus. De presentatie behandelt naast de herkenningsresultaten ook de verschillende aspecten van herhalingen zoals articulatie, klankrealisatie of herstel van fouten.

}, author = {Marijn Schraagen} } @article {124, title = {Recent additions to Praat}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Recent additions in Praat are among others the VowelEditor and the KlattGrid. The VowelEditor demonstrates that by varying two formant frequencies only, one can create many different vowels and diphthongs. The KlattGrid is an acoustic speech synthesizer based on a source-filter model of speech production. It is modeled after the famous Klatt synthesizer. By varying parameters as a function of time you can create an infinite amount of speech sound

}, author = {David Weenink} } @article {128, title = {Recognition of reduced words, context use, and age-related hearing loss}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Older adults are often claimed to rely more strongly on context effects and linguistic knowledge to compensate for their poorer hearing. As a test case of linguistic knowledge, we investigated recognition of acoustically reduced words that were followed by a word (such as {\textquoteright}hangende{\textquoteright}) with which it either formed a fixed expression ({\textquoteright}hangende pootjes{\textquoteright}) or not ({\textquoteright}hangende planten{\textquoteright}). The two research questions were: a) whether older adults show a greater reliance on the following-word context than young adults, and b) whether simulation of hearing loss in young adults (by low-pass filtering the stimuli) would bring about a stronger reliance on the following context. Data analysis (accuracy and RTs) showed that words were better recognised when part of a fixed expression, and that older adults benefited more in RT than young adults (equal benefit in accuracy). The young adults with simulated hearing loss, however, benefited less than the other two groups (both in accuracy and RT). These results suggest that signal degradation does not immediately lead to greater reliance on following-word context.

}, author = {Esther Janse and Mirjam Ernestus} } @article {123, title = {Spraakmakende publicaties. Het voorbeeld van Veteran Tapes VP}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Belangrijke aspecten van het wetenschapsbedrijf zijn datacollectie, dataverwerking en publicatie. Nieuwe technologieen,en de alledaagse werkelijkheid van het internet maken allerlei vormen van hergebruik van data mogelijk in het kader van de zogenoemde eHumanities. Een m.i.onderbelicht aspect van eHumanities zijn nieuwe mogelijkheden van digitaal publiceren in de vorm van verrijkte publicaties. Ik zal een voorbeeld hiervan geven aan de hand van het Veteran Tapes VP project. De impact hiervan op datacollectie en dataverwerking komen daarbij vanzelf aan de orde.

}, author = {Henk van den Heuvel} } @article {310, title = {Analyse en visualisatie van de relatie tussen fonetische en geografische afstanden}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In dialectonderzoek kijken we vaak naar niet taalkundige, externe factoren voor de verklaring van interne variatie van het taalsysteem. Een typisch voorbeeld is het effect dat natuurlijke grenzen hebben op dialectvariatie. Weijnen (1937) bijvoorbeeld bespreekt het effect van moerasgebieden op de dialectvariatie in de provincie Brabant. Aangezien reizen door de moerasgebieden in het zuidoosten van Brabant onmogelijk was, houdt Weijnen deze gebieden verantwoordelijk voor enkele van de belangrijkste dialectgrenzen in Brabant. Hinskens, Kallen \& Taeldeman (2000) hebben gekeken naar het belang van sociaal geconstrueerde grenzen: "The influence of socially constructed borders on the dialect landscape, especially those that reflect political, economic, or ecclesiastic boundaries, is often assumed to be minor compared to the influence of natural borders. However, upon closer consideration, European state borders cutting across old dialect continua sometimes appear to have significant impact on dialect change". Het laatstgenoemde type effect is door Heeringa et al. (2000) en Giesbers (2008) onderzocht voor het grensgebied tussen Nederland en Duitsland. Het gebied waar Heeringa et al. in ge{\"\i}nteresseerd waren, ligt ten noorden van de Rijn, rond de Duitse stad Bentheim. Giesbers onderzocht het Kleverlands dialectgebied dat ten zuiden van de Rijn ligt. Noordelijk van de Rijn werd de Nederlands-Duitse grens al bepaald in 1648 terwijl de grens in het Kleverlands gebied, ten zuiden van de Rijn, pas na 1815 werd bepaald. Dit dialectgebied was een perfect dialectcontinu{\"u}m zonder enige natuurlijke of politieke grenzen, maar recent op perceptieve gegevens gebaseerd onderzoek toont duidelijk een breuk in dit continu{\"u}m langs de grens. De verschillen tussen de dialecten binnen Nederland of Duitsland worden als veel kleiner waargenomen dan de verschillen tussen de Duitse en Nederlandse dialecten onderling (Giesbers 2008).

In onze lezing gaan we in op de vraag of ook de feitelijke dialectgegevens de hypothese ondersteunen dat de staatsgrens tot een taalkundige grens heeft geleid tussen de Nederlandse en Duitse dialecten in het Kleverlands gebied. De data bestaan uit fonetische transcripties van dialectwoorden voor 100 begrippen/concepten. Op basis van deze transcripties hebben we fonetische afstanden berekend tussen tien grensdialecten. De relatie tussen de geografische afstanden in het gebied en de fonetische afstanden visualiseren we vervolgens in 3D.

Referenties

  • Giesbers, C. (2008). Dialecten op de grens van twee talen. Een dialectologisch en sociolingu{\"\i}stisch onderzoek in het Kleverlands dialectcontinu{\"u}m. PhD thesis, Radboud University, Nijmegen.
  • Heeringa, W., Nerbonne, J., Niebaum, H., Nieuweboer, R. \& Kleiweg, P. Dutch-German (2000). Contact in and around Bentheim. Languages in Contact. In: Studies in Slavic and General Linguistics 28.
  • Gilbers, D.G., Nerbonne, J. \& Schaeken, J. (eds.) Amsterdam-Atlanta: Rodopi. Hinskens, F., Kallen, J.L. \& Taeldeman, J. (2000). Dialect Convergence and Divergence across European Borders. In International Journal of the Sociology of Language, 145, Berlin, New York: De Gruyter.
  • Weijnen, A.A. (1937) Onderzoek naar de dialectgrenzen in Noord-Brabant. In aansluiting aan geographie, geschiedenis en volksleven. Fijnaart 19.
}, author = {Folkert de Vriend and Jan Pieter Kunst and Roeland van Hout} } @article {312, title = {De "Gooise" /r/ en /r/-allofonie in het Nederlands}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Sinds de jaren {\textquoteright}90 van de vorige eeuw (Van den Toorn 1992; Van de Velde 1996; Stroop 1998) staat de {\textquoteleft}Gooise{\textquoteright} /r/ in de belangstelling van taal- en spraakwetenschappers. Daarvoor was de term al bekend in het dagelijkse spraakgebruik, en van commentatoren in (vaak negatief getoonzette) krantenkolommen. Ondanks de wetenschappelijke en populaire aanvaarding van de term is er nog steeds veel onbekend over de bijbehorende /r/-variant, zoals wat zijn precieze fonetische eigenschappen zijn. Wat dat betreft spreken taalkundigen elkaar tegen als ze beweren dat de {\textquoteleft}Gooise{\textquoteright} /r/ alveolair (Gussenhoven 1992), retroflex (Stroop 1998), pre-velair (Collins \& Mees 1996) of zelfs uvulair (Van Oostendorp 2008) is.

Een corpus van echografische opnames van jonge vrouwelijke spreeksters van het Standaardnederlands toont aan dat er meerdere articulatiewijzen van /r/ mogelijk zijn voor vergelijkbare akoestische resultaten. De {\textquoteleft}Gooise{\textquoteright} /r/ heeft een variabele articulatiewijze, en verschilt in die zin niet enorm van de Amerikaanse /r/, zoals ge{\"\i}llustreerd door de echo-opnamen van Gick (2003) en al veel langer bekend uit Delattre{\textquoteright}s (1965) R{\"o}ntgenopnamen. Waar het Nederlands echter sterk verschilt van de Amerikaanse data is in de allofonische patronen van individuele sprekers: de {\textquoteleft}Gooise{\textquoteright}, approximantische /r/ wordt door sommige sprekers gecombineerd met een prevocalische variant een articulatorische connectie met de postvocalische lijkt te ontberen. Deze uitkomst heeft gevolgen voor op articulatorische kenmerken gebaseerde fonologische theorie{\"e}n, zoals Articulatory Phonology (Browman \& Goldstein 1986 et seq.).

Referenties

  • Browman, C.P.;Goldstein, L. (1986). Towards an articulatory phonology. In C. Ewen; J. Anderson (red.) Phonology Yearbook 3, pp. 219-252. Cambridge University Press, Cambridge.
  • Collins, B; Mees, I.M. (1996). The Phonetics of English and Dutch. E.J.Brill, Leiden.
  • Delattre, P. (1965). Comparing the phonetic features ofEnglish, French, German and Spanish. Julius Groos Verlag, Heidelberg.
  • Gick, B. (2003). Articulatory correlates of ambisyllabicity in English glides and liquids. In J. Local; R, Ogden; R. Temple (red), Papers in Laboratory Phonology VI: Constraints on phonetic interpretation, pp. 222-236. Cambridge University Press, Cambridge.
  • Gussenhoven, C. (1992). Dutch. Illustrations of the IPA. Journal of the. International Phonetic Association 22, pp. 45-47.
  • Stroop, J. (1998) Poldernederlands. Waardoor het ABN Verdwijnt. Bert Bakker, Amsterdam.
  • Van den Toorn, M.C. (1992) De tweede wereldoorlog en het Nederlands van nu. Nijmegen University Press, Nijmegen.
  • Van de Velde, H. (1996). Variatie en verandering in het gesproken Standaard-Nederlands (1935{\textendash}1993). Proefschrift KUN, Nijmegen.
  • Van Oostendorp, M. (2008). Hoe de slot-r verdween uit het Nederlands, Onze Taal 77e jg: 2/3, 53-55.
}, author = {Koen Sebregts} } @article {312, title = {De ontwikkeling van het tooncontrast in Limburgse dialecten}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, author = {Carlos Gussenhoven} } @article {312, title = {Drie labiodentalen op een rij: kan dat wel?}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Er zijn heel wat talen in de wereld die zoals Engels en Frans aan woordbegin de labialen /w/ - /v/ - /f/ kennen. In die talen is de /w/ een bilabiaal die tegenover de labio-dentale /f/ en /v/ staat. Zo ook in het Belgisch-Nederlands, het Limburgs in Nederland en het Surinaams-Nederlands. In de rest van Nederland is echter wat anders aan de hand. Daar zijn dialecten te vinden waarin /w/ - /v/ - /f/ alledrie labiodentaal worden uitgesproken, b.v. in:

  • wat {\textendash} vat - fat
  • wel - vel - fel
  • geweest {\textendash} geveest - gefeest
  • leeuwen - leven - heffen

Voorzover mij bekend zijn die dialecten hierin (vrijwel) uniek. Ladefoged \& Maddieson (1996: 140-141, 322-325) melden alleen /w2/ (om de labiodentaal voortaan zo aan te duiden) en /v/ in Isoko (Uzere dialect; Niger-Kordofanian, Nigeria), maar zonder de /f/ te noemen.

Drie labiodentalen op een rij is ook voor vele dialecten in Nederland teveel van het goede, en die hebben de zaken daarom vereenvoudigd, maar niet als in het BelgischNederlands. Ze hebben van de /v/ een /f/ gemaakt, met als resultaat de oppositie /w2/ - /f/. De Friese dialecten lopen hierin voorop. Ook het Afrikaans heeft dit systeem.

Vergelijking van kaart 194 wijn en kaart 107b verf in FAND IV laat zien dat [w2] en [v] slechts in een minderheid aan dialecten lijken samen te gaan. Verf heeft in het grootste deel van Nederland massaal [f] aan het begin. Toch is dat effect weer minder duidelijk op kaart 107a vis met relatief veel [v].

Tussen het Belgisch-Nederlands met [w] {\textendash} [v] {\textendash} [f] en het Nederlands/Fries met [w2] {\textendash} [f] zitten allerlei gradaties. Nader onderzoek van de GTRP-gegevens brengt er een aantal aan het licht. Wat is de plaats van zulke graduele verschijnselen in de fonologische theorie?

Referenties

  • Ladefoged, Peter \& Ian Maddieson 1996 The sounds of the world{\textquoteright}s languages, Blackwell:Oxford/Malden.
}, author = {Pieter van Reenen} } @article {136, title = {Een audiovisuele spontane emotie-database van gamers}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

TNO Defensie en Veiligheid, Soesterberg Een spontane audiovisuele emotie-database is opgenomen met het doel om automatische emotieherkenners te ontwikkelen. 28 proefpersonen hebben een videospel gespeeld (Unreal Tournament) waarin bepaalde spelelementen zijn gemanipuleerd om emoties uit te lokken. Er zijn spraak- en gezichtsopnamen gemaakt die na afloop door de gamers zelf zijn geannoteerd op emotie. Met deze opgenomen data is een aantal experimenten uitgevoerd. Ten eerste hebben we gekeken naar hoe het aanbieden van uni- of multimodale informatie (bijv. alleen audio, alleen video of beiden) de beoordeling van emotie beinvloedt. Ten tweede hebben we gekeken naar de betrouwbaarheid van de eigen emotiebeoordelingen van de gamers. Het uiteindelijke doel is om automatisch emotie in spraak te detecteren; we zullen voorlopige resultaten van een aantal emotieclassificatieexperimenten laten zien.

}, author = {Khiet Truong and Mark Neerincx and David van Leeuwen} } @article {134, title = {Een menselijke benchmark voor automatische taalherkenning}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Automatische taalherkenning heeft als doel het herkennen van de taal die gesproken wordt in een spraakfragment. Regelmatig worden wereldwijd systemen langs de lat gelegd in benchmark evaluaties, uitgevoerd door het Amerikaans NIST, en systemen worden steeds beter. Maar hoe goed kunnen mensen dat eigenlijk? En hoe meet je zoiets, en waar hangen de prestaties van af? We willen de resultaten presenteren van een onderzoek dat we bij het International Computer Science Institute in Berkeley en het University College Utrecht hebben uitgevoerd. En mensen doen het zo gek nog niet{\textendash}-als ze de taal in kwestie een beetje kennen.

}, author = {Rosemary Orr and David van Leeuwen} } @article {145, title = {Het modelleren van subtiele fonetische informatie in een computationeel model van menselijke woordherkenning}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In de afgelopen jaren hebben verschillende psycholingu{\"\i}stische experimenten laten zien dat luisteraars al voor het einde van {\textquoteleft}ham{\textquoteright} weten of de spreker het broodbeleg bedoelt of het huisdiertje. Maar hoe komt het dat mensen " in ieder geval in het laboratorium " in staat zijn om de grenzen tussen woorden zo snel en trefzeker te vinden dat ze al verschil kunnen maken tussen de woorden {\textquoteright}ham{\textquoteright} en {\textquoteright}hamster{\textquoteright} voor het einde van de {\textquoteright}ham{\textquoteright}?

Het blijkt dat er subtiele fonetische informatie in het spraaksignaal zit die aangeeft of het einde van een woord in aantocht is of niet. Het is al langer bekend uit fonetisch onderzoek dat er in laboratoriumspraak (onder andere) subtiele verschillen in duur zijn die samenhangen met het aantal lettergrepen dat nog volgt tot aan het einde van het woord. Luisteraars blijken deze informatie dus te kunnen gebruiken tijdens het luisteren naar spraak. Maar hoe doen luisteraars dat nu eigenlijk?

Om een verklaring te vinden voor hoe mensen dat doen gebruiken wij in dit onderzoek een computermodel van de verwerking van spraaksignalen en de opslag van woorden in ons brein. De meest invloedrijke computationele modellen van auditieve woordherkenning kunnen echter deze subtiele fonetische informatie niet representeren en dus ook niet gebruiken tijdens woordherkenning. Wij presenteren een nieuw computationeel model, Fine-Tracker, dat dit wel kan. Fine-Tracker is een computermodel dat is ontwikkeld met gebruikmaking van technieken uit de automatische spraakherkenning en heeft net als automatische spraakherkensystemen echte spraak als input. Op deze manier slaat dit onderzoek een brug tussen de onderzoeksgebieden van de automatische spraakherkenning en de psycholingu{\"\i}stiek.

}, author = {Odette Scharenborg} } @article {311, title = {Klankverandering in Nederlandse dialecten: 1874 versus 1996}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In 1874 publiceerde Johan Winkler zijn Algemeen Nederduitsch en Friesch dialecticon, een tweedelig werk met daarin 186 vertalingen van de gelijkenis van {\textquoteright}de verloren zoon{\textquoteright} in dialecten in Nederland, het noorden van Belgi{\"e} en het westen van Duitsland. In 1996 werd het werk van Winkler herhaald door Harrie Scholtmeijer. Hij verzamelde 81 vertalingen van de parabel in dialecten in Nederland. 74 van deze plaatsen zijn ook in het werk van Winkler vertegenwoordigd. Heeringa \& Nerbonne (2000) gebruikten het materiaal van Winkler en Scholtmeijer om dialectverandering te meten, en om convergentie en divergentie tussen dialecten vast te stellen (Auer et alii 2005). Van de 74 vari{\"e}teiten die in beide corpora voorkomen kozen H\&N er 42 {\textendash} inclusief Standaardnederlands en Standaardfries {\textendash} en converteerden de orthografische transcripties naar {\textendash} tamelijk brede {\textendash} fonetische transcripties. Zij maten uitspraakafstanden tussen dialecten en ten opzichte van het Standaardnederlands. Uitspraakafstanden werden gemeten met de Levensthein afstand (d.i. een tekenreeksbewerkingsafstand).

De manier waarop dialectverandering van invloed kan zijn op het gesproken taalgebruik wordt uitgebreid besproken door Hoppenbrouwers (1990): door de invloed van het Standaardnederlands en door wederzijdse be{\"\i}nvloeding gaan dialecten meer op elkaar lijken en versmelten gaandeweg tot grotere gehelen, aangeduid als {\textquoteleft}regiolecten{\textquoteright}. In dit verband komen minstens vier vragen op. Allereerst, welke dialecten convergeren naar het Standaardnederlands? Deze vraag is al beantwoord door Heeringa \& Nerbonne (2000). Vervolgens, welke dialecten convergeren naar naburige dialecten zodat regiolecten ontstaan? We willen deze vraag beantwoorden en proberen te verklaren waarom sommige dialecten wel convergeren met aangrenzende dialecten, en anderen juist niet. Een derde vraag is of de gegevens uit 1996 grotere dialectgroepen suggereren dan de gegevens uit 1874. Om deze vraag te beantwoorden worden de dialecten geclassificeerd op basis van zowel de gegevens uit 1874 als op basis van de gegevens uit 1996. We verwachten dat het aantal natuurlijke groepen in 1996 kleiner is dan in 1874. Ten slotte maken we een inventarisatie van de meest frequente klinkerveranderingen die niet het gevolg kunnen zijn van {\textquoteright}vernederlandsing{\textquoteright} en bekijken inhoeverre die stroken met de principes die werden voorgesteld door Labov (1994).

Referenties

  • P. Auer, F. Hinskens \& P. Kerswill, eds. (2005). Dialect change. The convergence and divergence of dialects in contemporary societies. Cambridge University Press, Cambridge UK.
  • Heeringa, W. \& J. Nerbonne (2000). Change, Convergence and Divergence among Dutch and Frisian. In: P. Boersma, Ph. H. Breuker, L. G. Jansma, J. van der Vaart (eds.), Philologia Frisica Anno 1999. L{\^e}zingen fan it fyftjinde Frysk filologekongres, Fryske Akademy, Ljouwert, 2000, pp. 88-109.
  • Labov, W. (1994). Principles of Linguistic Change, Internal Factors, Language in Society. Blackwell, Oxford etc.
  • Hoppenbrouwers, C. (1990). Het regiolect; van dialect tot Algemeen Nederlands. Coutinho, Muiderberg.
  • Winkler, J. (1874). Algemeen Nederduitsch en Friesch dialecticon. Martinus Nijhoff, {\textquoteright}s-Gravenhage.
}, author = {Wilbert Heeringa and Frans Hinskens} } @article {312, title = {Klankverschuiving versus morfo-fonologische structuur: diffusie van spontane palatalisatie [u]>[y] en umlaut in Oostelijke dialecten}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Het latere oud-germaans onderging een radicale herstructurering van de klinkerinventaris met de introductie van een nieuwe serie van ronde voorklinkers, waarschijnlijk ongeveer tussen de 6de en 8ste eeuw (Grimm 1822). Deze nieuwe klinkerreeks (nog afwezig in het Gotisch) is wel toegeschreven aan Keltische substraatwerking maar ook aan taalinterne processen van push-chain om oplossing te bieden aan de overbezetting van het [achter]-domein van de klankruimte (Labov 2007). In weerwil van de globale gelijkenis van het fonologische systemen van het nieuwere continentale Germaans, is deze nieuwe serie in het taalsysteem ge{\"\i}ncorporeerd op tenminste twee manieren die ruimtelijk van elkaar gescheiden waren: 1. als een voorwaardelijke verandering ("secundaire umlaut") in ruwweg de vari{\"e}teiten van het hedendaagse Duitse grondgebied en de grensdialecten waarbij [u] tot [y] overging onder invloed van [i], en 2. als een over de gehele breedte opererende klankverschuiving van spontane palatalisatie van lange klinkers in taalvariaties op ruwweg het hedendaagse Nederland, [u:]\>[y:]. Voor het interne mechanisme van secundaire umlaut wordt oncontroversieel een umlaut-factor aangenomen in onbeklemtoonde lettergrepen. Een mogelijk taalintern scenario is dat de umlautfactor een licht gefronte allofoon van de voorafgaande achterklinker veroorzaakte, welke fronting fonemische status kreeg na reductie en afval van de umlautfactor (Sheter 1958), waarschijnlijk als onderdeel van een deflectieprocess in de laat Oud-germaanse periode. Omtrent het mechanisme van spontane palatalisatie is veel minder eenstemmigheid. Ondanks de mogelijke kritiek op een push-chain scenario (Goeman) is voorshands geen goed alternatief voor spontane palatalisatie voorhanden. Opmerkelijk is wel dat deze tweede verandering vatbaar is voor de sociologische dimensie. Deze spont. pal. diffundeert van west naar oost (Kloeke 1927, Van Reenen 1992) en heeft inmiddels het gebied van umlaut bereikt. In deze presentatie zullen we nagaan wat er op het grensvlak (grens Salland-Twente) gebeurt.

Referenties

  • Goeman. A. (1994). Geen Great Vowel Shift in de Nederlandse dialecten. In: G. E. Booij en J. van Marle (red.) Dialectfonologie. Cahiers van het P.J. Meertens-Instituut 6, p. 20-60.
  • Goossens, J. (1962), {\textquotedblleft}Die gerundeten Palatalvokale im Niederl{\"a}ndischen Sprachraum{\textquotedblright}. Zeitschrift f{\"u}r Mundartforschung 29, 313-328.
  • Grimm, J. (1822). Deutsche Grammatik. G{\"o}ttingen.
  • Heeroma, K. (1965), {\textquotedblleft}De herkomst van het Nederlandse vocalisme{\textquotedblright}. Taal en Tongval 17, 162-180.
  • Kloeke E.G.G. (1927), De Hollandsche Expansie in de zestiende en zeventiende eeuw en haar weerspiegeling in de hedendaagsche Nederlandse dialecten: proeve eener historisch-dialectgeographische synthese. {\textquoteright}s-Gravenhage.
  • Labov, W. (2007). The life history of linguistic change. Talk presented at ICHL18, Aug 7-11, 2007, Montreal.
  • Martinet, Andr{\'e} (1955). {\^E}conomie des changements phon{\'e}tiques. Bern.
  • Reenen, Piet van (1992). Corpustaalkunde en de Hollandse Expansie. Amsterdam.
  • Reenen, Piet van ( 2006). In Holland staat een huis. M{\"u}nster.
  • Reenen, Piet van \& Gertjan Postma (te verschijnen). Huus/huuse en moes/ moesen: Hollandse en Groningse Expansie versus meervoudsumlaut. Taal en Tongval.
  • Shetter, W.Z. (1958). Phonemics of the Zwolle Dialect: Synchronic and Diachronic. Language 34, 40- 54.
}, author = {Gertjan Postma} } @article {309, title = {Large Scale Pronunciation Comparison}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

For many reasons it is desirable to be able to measure the phonetic (dis)similarity of two pronunciations automatically. While most dialectology and sociolinguistics focuses on single "shibboleths", large-scale comparison holds the promise of including much more material, of assessing the importance of single differences, and perhaps even allowing the formulation of general laws. But it requires automatic procedures to be feasible.

In this talk we sketch two approaches and problems in the research program aiming to measure pronunciation dissimilarity automatically. One approach is to measure dissimilarity based on phonetic transcriptions. While this risks "carrying" transcriber errors, it benefits from the implicit focus on the phonetic quality on the part of the transcribers. A puzzle at present is the question of how to include more phonetic sensitivity into the measurements. Current attempts fail, perhaps because the large numbers compensate sufficiently for missing sensitivity, but perhaps for other reasons as well.

The second approach is try to work on acoustic material directly, obviating the need for transcription. But this approach quickly requires techniques for abstracting phonetic quality from waveform, which, as phoneticians know, is no trivial task. Formant measurements need to be hand-corrected and is therefore not a suitable method if large amounts of data are to be analyzed. We use principal component analysis on the Bark-filtered spectra of vowels, which is an acoustic method that can be fully automatized. Normalizing for speaker-dependent variation becomes important when working directly with acoustic data. We average over a number of speakers per dialect in order to even out these speaker-specific differences. Subsequently Euclidean distance is used to measure the distance between vowels in different dialects.

}, author = {Therese Leinonen and John Nerbonne} } @article {139, title = {Leren en doceren van klinkers}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

L2 sprekers van het Nederlands hebben veelal grote problemen met de klinkers. Blijkbaar zijn wij niet (langer) in staat die te doceren. Hetzelfde geldt trouwens voor L2 (i.c. Engels) sprekende Nederlanders.

Uitgaande van Catford (1988) hoofdstuk 7-8 en Van Buuren (1993) hoofdstuk 7-9 (op Linguavox.nl/klinkers) wil ik weer eens Daniel Jones{\textquoteright} Cardinal Vowel benadering onder de aandacht brengen en enkele verbeteringen en verfijningen voorstellen.

  • J.C. Catford (1988, 2002). A Practical Introduction to Phonetics
  • L. van Buuren (1975, 1993). English Phonetics Course
}, author = {Lucas van Buuren} } @article {132, title = {Meer stemmen voor Nederlandse spraaksynthese}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In mijn bijdrage van vorig jaar heb ik een overzicht gegeven van de nieuwe spraaksynthesizer van Fluency, toen nog volop in ontwikkeling. Inmiddels is de software verder ontwikkeld, en voorzien van zeven levendige, levensechte stemmen: drie mannen, twee vrouwen, en twee tieners (een jongen van 13 en een meisje van 16).

Bijzonder aan de nieuwe synthesizer is dat het betrekkelijk eenvoudig is een nieuwe stem te maken. De spreker moet een corpus inspreken dat bestaat uit 387 woorden en 387 zinnen (totaal 774 items). Elk item wordt door de spraaksynthese voorgezegd, en de spreker moet dit vrij precies nazeggen, met name wat betreft pauzes. De opnames kunnen door Fluency grotendeels automatisch worden omgezet in een spraakdatabase voor de synthesizer.

De software om het corpus op te nemen is vrij beschikbaar, en het opnemen van een nieuwe stem vereist geen grote investeringen in hardware: met een usb-microfoon en een notebook kan al een goede kwaliteit bereikt worden.

In deze bijdrage wil ik nader ingaan op de mogelijkheden die dit biedt voor spraakgehandicapten, en hoe andere partijen hierop kunnen inspelen.

}, author = {Arthur Dirksen} } @article {138, title = {Modaliteit in spontane en geacteerde spraak}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Frequentieanalyses van spraakfragmenten laten vaak {\'e}{\'e}n piek zien. In emotionele spraak daarentegen zijn soms meerdere pieken te vinden (modaliteit). Schreuder, van Eerten \& Gilbers (2006) hebben een pilotstudie gedaan naar modaliteit in voorgelezen, emotionele spraak. Zij vinden in sombere passages mineurmodaliteit (3 semitonen afstand tussen de pieken) en in vrolijke majeurmodaliteit (4 semitonen afstand).

In ons vervolgonderzoek is behalve geacteerde emotionele spraak (Bert \& Ernie, soapseries, motherese) ook spontane spraak (winnaars en verliezers in sportinterviews) onderzocht op modaliteit. De uitkomst is dat modaliteit frequent in geacteerde spraak voorkomt maar nauwelijks in spontane spraak. Mineur en majeur vinden we alleen duidelijk in overacting. In motherese vinden we wel veel modaliteit, maar niet altijd de verwachte majeurmodaliteit.

Volgens Boersma (2007) {\textquotedblleft}beschrijven{\textquotedblright} cue constraints ideaalpatronen voor de productie en perceptie van spraak. De resultaten van het hier gepresenteerde onderzoek geven aan dat in spontane spraak cue constraints minder sterk opereren dan in geacteerde spraak.

  • Boersma, Paul (2007), Cue constraints and their interactions in phonological perception and production. ROA 944
  • Schreuder, Maartje, Laura van Eerten \& Dicky Gilbers (2006), Mineur en Majeur in Emotionele Spraak, in: Tabu 35, 1/2, p. 1-14
}, author = {Deelnemers MA-onderzoekscollege Fonologie} } @article {141, title = {Nederlandse baby{\textquoteright}s gebruiken statistische informatie om spraakklanken te leren onderscheiden}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

UiL-OTS Universiteit Utrecht Baby{\textquoteright}s hebben aanvankelijk een {\textquoteright}universele{\textquoteright} spraakperceptie. Zij zijn in staat om foneemcontrasten uit alle natuurlijke talen te onderscheiden. Dit vermogen verdwijnt echter gedurende het eerste levensjaar en wordt meer moedertaalspecifiek. Maye et al. (Cognition, 2002) suggereren dat (onder andere) statistisch leren verantwoordelijk is voor deze verandering. Maye et al. waren de eerste die aantoonden dat 6 en 8 maanden oude baby{\textquoteright}s bij het leren onderscheiden van spraakklanken gebruik maken van de statistische distributie van fonetische variatie. In een replicatie van dit experiment werden 10 tot 11 maanden oude Nederlandse baby{\textquoteright}s blootgesteld aan ofwel een bimodale ofwel een unimodale frequentiedistributie van een 8-staps spraakklankcontinu{\"u}m. Dit continu{\"u}m was gebaseerd op de Hindi stemhebbende en stemloze retroflexe plosieven (/ɖa/ en /ʈa/). De resultaten laten zien dat alleen baby{\textquoteright}s in de bimodale groep na de blootstelling reageren op het verschil tussen stemloos en stemhebbend. Dit wijst erop dat de spraakklanken voor deze groep in twee categorie{\"e}n worden gerepresenteerd. Samenvattend kan gezegd worden dat de resultaten van het huidige experiment de hypothese ondersteunen dat baby"s statistisch leren aanwenden om foneemcategorie{\"e}n te vormen.

}, author = {Desiree Capel and Elise de Bree and Annemarie Kerkhoff and Frank Wijnen} } @article {140, title = {Perceptie van onvolledig spraaksignaal}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Ito et al (2001) betogen dat de perceptie van /i,e,a,o,u/ niet alleen berust op de eerste twee formanten in het akoestisch signaal. Ook bij onderdrukking van een van deze formanten worden de vocalen goed ge{\"\i}dentificeerd.

In een vervolgexperiment hebben we 12 participanten 4 voorvocalen aangeboden, niet alleen de primaire kardinale vocalen /i,e/ maar ook de secundaire kardinale vocalen /y,2/. De participanten kregen alle vocalen zowel met als zonder tweede formant aangeboden. Wij concluderen evenals Ito et al (2001) dat primaire kardinale vocalen in beide condities goed worden waargenomen. Onvolledig gespecificeerde secundaire kardinale vocalen worden echter significant vaker als hun primaire kardinale tegenhanger waargenomen.

Wat zijn de perceptieve en/of cognitieve strategie{\"e}n van de luisteraar die dit verschil in perceptie verklaren? Wij zullen betogen dat de luisteraar prototypes van klanken heeft opgeslagen en dat deze ideaalpatronen de perceptie be{\"\i}nvloeden.

  • Ito, M., J. Tsuchida \& M. Yano (2001) On the effectiveness of whole spectral shape for vowel perception. J.Acoust. Soc. Am. 110 (2).
}, author = {Bea Valkenier and Dicky Gilbers} } @article {137, title = {Perceptie-effecten van geografische variatie in (micro-)prosodische eigenschappen: In hoeverre kunnen luisteraars de leeftijd, de lengte en het gewicht van een spreker raden?}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Hoe goed zijn luisteraars in het inschatten van de leeftijd, lengte en gewicht van een spreker op basis van haar/zijn stem? De resultaten van een aantal experimenten van Lass et al (1979, 1980a, 1980b, 1980c, 1980d) voor het Engels waren positief, maar achteraf blijken de data statistisch op een niet betrouwbare manier geanalyseerd te zijn (Cohen et al. 1980). Ook andere experimentele resultaten (Gunter \& Manning 1982, van Dommelen \& Moxness 1995) doen twijfel rijzen omtrent de conclusies van Lass et al.. Toch bestaat er een duidelijke relatie tussen de leeftijd, lengte en gewicht van een spreker en spraakparameters zoals pitch en formanten, gebaseerd vooral op de lengte van de vocal tract en de grootte en dikte van de stembanden (Greisbach 1999). Een mogelijke reden voor de ruis in de data is de sociale en geografische vrije (niet-lingu{\"\i}stische) variatie tussen sprekers. In dat geval verwachten we dat sprekers van een geografische variant beter in staat zouden zijn om sprekers van dezelfde variant te beoordelen in vergelijking met sprekers van een andere variant. In onze experimenten hebben we Nederlandse (Vlaamse) luisteraars in Antwerpen met Nederlandse luisteraars in Tilburg vergeleken in hun inschatting van de leeftijd, de lengte en het gewicht van mannelijke en vrouwelijke sprekers van de twee varianten in twee tussen-proefpersoon condities; met spraak die achterstevoren wordt afgespeeld ({\textquoteleft}reversed speech{\textquoteright} /= om het duidelijk hoorbaar verschil tussen Vlaams en Nederlands te maskeren) en met gewoon afgespeelde spraak. Onze verwachting dat luisteraars beter op hun eigen variant zouden presteren wordt duidelijk bevestigd voor alle drie de eigenschappen (leeftijd, lengte, gewicht) met significante interactie-effecten voor geslacht.

}, author = {Marie Nilsenov{\'a}} } @article {132, title = {RechtSpraakHerkenning: Nederlandse spraakherkenning in de rechtszaal}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In toenemende mate moeten verhoren door politie volledig worden opgenomen. Ingeval van twijfel, kan dan altijd de oorspronkelijke opname opnieuw beluisterd worden. Ook de Nederlandse rechtbanken experimenteren met geluidsopnamen. De griffier maakt altijd het verslag van de rechtszitting, maar omdat het soms lastig is alles direct tijdens de zitting correct te noteren, worden er al voor intern gebruik dikwijls geluidsopnamen gemaakt: alles wat er gezegd wordt op een cassettebandje!

Door iedere spreker echter op een eigen spoor op te nemen en de opnamen door de spraakherkenner te halen, kan veel meer bereikt worden. De opnamen worden namelijk doorzoekbaar op zowel spreker als spraak. Iedereen die straks toegang heeft tot de opnamen kan met een paar simpele klikken zoeken naar de woorden X,Y en Z, uitgesproken door verdachte A of Rechter B.

De griffier kan de spraakherkenningsresultaten gebruiken om sneller een verslag te maken en rechters kunnen naar een gesproken samenvatting luisteren; bedoeld om hun geheugen op te frissen als ze de zaak weer oppakken na een langdurige onderbreking.

De Taal- en Spraaktechnologie wordt in het RechtSpraakHerkenningsproject ingezet voor de ondersteuning van de rechtbank, niet als vervanging van medewerkers. Rechtspraak blijft vooralsnog toch echt mensenwerk.

}, author = {Arjan van Hessen} } @article {312, title = {Regionale variatie in klinkers van het Standaardnederlands}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

De presentatie heeft drie doelstellingen: (1) de beschrijving van regionale variatie in het Standaardnederlands gesproken in Nederland en in Vlaanderen; (2) de interpretatie van deze patronen met betrekking tot convergentie/divergentie en (de)standaardisatie; (3) het onderzoeken of een analyse op basis van dynamische spectrale eigenschappen in plaats van steady state metingen van klinkers leidt tot een betere classificatie van sprekers in hun regio van herkomst.

De informanten in deze studie zijn 80 Nederlandse en 80 Vlaamse standaardtaalsprekers, gestratificeerd naar regio, sekse en leeftijd. De data zijn geselecteerd uit een woordenlijst. Alle geselecteerde klinkertokens dragen primaire woordklemtoon en worden gevolgd door een /s/. Voor deze presentatie beperken we ons tot de monoftongen. Naast de duur zijn op zeven punten in de tijd de grondfrequentie en F1, F2, F3 van de klinkers gemeten.

Enerzijds verwachten we dat de klinkervariatie groter zal zijn in deze woordenlijstdata dan in de draagzinnen van dezelfde sprekers (zie Adank et al. 2007) en dat regionale verschillen duidelijker aanwezig zullen zijn. Anderzijds verwachten we dat de akoestische ruimte van de individuele sprekers kleiner wordt in de woordenlijst, in vergelijking met de meer gemonitorde voorleestaak in Adank et al. (zie Van Bergem 1995). Dit kan een probleem opleveren voor standaard normalisatieprocedures, zoals die voorgesteld door Adank (2004), en zou kunnen resulteren in meer problemen bij het onderscheid maken tussen sprekers en regio{\textquoteright}s. Daarom willen we testen of het onderscheiden van sprekers/regio{\textquoteright}s op basis van dynamische formantdata succesvoller is dan die op basis van steady state metingen. McDougall \& Nolan (2007) hebben voor de klinker /u/ laten zien dat het onderscheid maken tussen sprekers op basis van formantdynamiek succesvol kan zijn.

Referenties

  • Adank, P. (2003). Vowel Normalization in Dutch. Dissertation University of Nijmegen.
  • Adank, P., Van Hout, R., Van de Velde, H. (2007). An acoustic Description of the Vowels of Northern and Southern Standard Dutch II: regional Varieties. In: Journal of the Acoustical Society of America, to appear.
  • Bergem, D. van (1995), Acoustic and Lexical Vowel Reduction. PhD, University of Amsterdam.
  • McDougall, K. \& F. Nolan (2007). Discrimination of speakers using the formant dynamics of /u:/ in British English
}, author = {Sander van der Harst and Hans Van de Velde and Roeland van Hout} } @article {143, title = {Transcriptie van Russische Intonatie ToRI, een interactieve module op het Internet}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In een audiovisuele demonstratie zal ik een nieuw systeem presenteren voor het transcriberen van Russische intonatie: ToRI, gratis beschikbaar op het Internet. ToRI maakt gebruik van {\'e}{\'e}nduidige symbolen voor de transcriptie van toonhoogteaccenten, verbindende toonhoogtebewegingen en grenzen van uitingen gemarkeerd door toonhoogte. De beschrijving van alle toonhoogteverschijnselen in ToRI is gebaseerd op de resultaten van perceptie experimenten met moedertaalsprekers van het Russisch. Het systeem geeft ook de fonetische correlaten voor de realisatie van toonhoogteaccenten. In ToRI worden de toonhoogteaccenten gepresenteerd met audiovisuele voorbeelden en oefeningen voor het leren herkennen van toonhoogteaccenten en grensmarkeringen. In de voorbeelden en oefeningen worden ook de communicatieve functies van de accenten gegeven. Een alfabetische woordenlijst verklaart de in het systeem gebruikte terminologie. Het systeem is zodanig opgezet dat het als leermodule voor linguisten en vergevorderde studenten kan worden gebruikt, individueel of in een klassituatie.

}, author = {Cecilia Od{\'e}} } @article {312, title = {Variatie in verscherping: fonologie of fonetiek}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Variatie in verscherping aan het einde van de lettergreep speelt een sleutelrol in recente discussies over de rolverdeling van de fonetiek en de fonologie in de beschrijving van taalverschijnselen. Het is de afgelopen jaren steeds duidelijker geworden dat het verschijnsel niet-categorisch is en dat is een probleem voor traditionele fonologische modellen. In deze lezing laat ik zien hoe recent empirisch onderzoek toch verenigd kan worden met een klassieke rolverdeling tussen fonologie en fonetiek: een waarin de fonetiek op een niet-categorische manier categorische representaties interpreteert.

Het eerste verschijnsel is dat verscherping in het Nederlands, net als in veel andere talen, onder experimentele condities niet-categorisch is gebleken (Warner et al. 2004). Er is een minimaal akoestisch verschil tussen de finale plosief in _rad_ en die in _rat_ en uit perceptie-experimenten blijkt dat luisteraars dit verschil ook kunnen oppikken, zij het lang niet zo goed als het fonemische verschil tussen _das_ en _tas_ (zie onder andere ook Wheeler 2005 voor het Catalaans, Piroth et al. 1991 voor het Duits, Pye 1986 voor het Russisch en Wilson 2003 voor het Turks). Dit lijkt te betekenen dat subfonemische verschillen een rol spelen in de perceptie, en volgens een beroemd artikel van Port en Leary (2005) toont dit de onhoudbaarheid van de formele fonologie aan.

Het tweede verschijnsel is dat Ernestus en Baayen (2003) hebben aangetoond dat de {\textquoteright}onderliggende{\textquoteright} stemhebbendheid van stamfinale obstruenten voor een groot deel statistisch voorspelbaar is uit de vergelijkbaarheid van de stam met andere stammen. Sprekers hebben volgens deze auteurs ook kennis van deze statistische regelmatigheden die, wederom, fonologische kennis zouden uitsluiten.

In beide gevallen laat ik zien dat verscherping wel degelijk nog steeds als een fonologisch verschijnsel kan en zelfs moet worden beschouwd. Wel moeten de theorie{\"e}n worden verfijnd om de grotere empirische basis preciezer te kunnen beschrijven; maar dat ligt in de natuur van de wetenschap.

Referenties

  • Ernestus, M. \& Baayen, R.H. (2003). Predicting the unpredictable: Interpreting neutralized segments in Dutch. Language, 79, 5{\textendash}38.
  • Piroth, H., Schiefer, L., Janker, P., Johne, B., 1991. Evidence for final devoicing in German? An experimental investigation. Proceedings of the 12th International Congress of the Phonetic Sciences.
  • Pye, S., 1986. Word-final devoicing of obstruents in Russian. Cambridge Papers in Phonetics and Experimental Linguistics 5, 1{\textendash}10.
  • Warner, N., Jongman, A., Sereno, J., Kemps, R., 2004. Incomplete neutralization and other subphonemic durational differences in production and perception. Evidence from Dutch. Journal of Phonetics 32, 251{\textendash}276.
  • Wheeler, M., 2005. The Phonology of Catalan. Oxford University Press, Oxford.
  • Wilson, S. M., 2003. A phonetic study of voiced, voiceless and alternating stops in Turkish. CRL Newsletter 15, 3{\textendash}13. URL http://stephenw.bol.ucla.edu/papers/turkishphon.pdf.
}, author = {Marc van Oostendorp} } @article {142, title = {Voorspellers van {\textquoteright}audiovisual benefit{\textquoteright} voor het perceptief scheiden van stemmen bij oudere luisteraars}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Oudere luisteraars hebben over het algemeen meer moeite om de spraak van een bepaalde spreker gescheiden te houden van een of meerdere concurrerende sprekers op de achtergrond. In deze studie onderzoeken we hoeveel baat iemand heeft bij het zien van het gezicht van de doelspreker bovenop het alleen horen van een mix van twee concurrerende stemmen. Veertig oudere luisteraars (65-plussers), varierend in mate van gehoorverlies, deden mee aan deze foneemdetectiestudie. Daarnaast werden een aantal achtergrondtesten bij hen afgenomen: gehoorverlies, lipleesscore, informatieverwerkingssnelheid, executief functioneren (planning en organisatie), en selectieve aandacht. We onderzochten welke van deze achtergrondmaten correleerden met gemiddelde foneemdetectiescore en met de mate van {\textquoteright}audiovisual benefit{\textquoteright}. De resultaten zullen besproken worden.

}, author = {Esther Janse and Alexandra Jesse} } @article {144, title = {Web-resource "Russian Dialectal Phonetics" as a model of effective authoring procedures for educational linguistic hypermedia e-learning content development}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

An original and efficient model of hypertextual authoring processes and guidelines for electronic multi-media educational and scientific resources{\textquoteright} development will be presented for discussion. Basic authoring principles were tested in the course of development of the interactive Web-resource "Русская диалектная фонетика (Russian Dialectal Phonetics)". This new open-source electronic public educational and research resource in Russian linguistics is the first one based on the ideology of "Shareable Courseware Object Reference Model" (SCORM). The Russian dialectology electronic course{\textquoteright}s structure comprises two major components: a theoretical overview and practical sections (on-line self-tests, exercises). An interactive glossary of linguistic and other special terms is also appended through dense network of hyperlinks. As essential multi- and hypermedia product the course comprises texts, charts, sonagrams, intonograms and diagrams, images (dialect maps), authentic dialectal spoken language records from the archive of dialectological expeditions of the Philological Faculty of the MGU.

}, author = {G. Kedrova} } @article {135, title = {What{\textquoteright}s in a name? Autonomata Too!}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Autonomata Too project is een project in het STEVIN-programma. In dit project proberen we de automatische spraakherkenning van Nederlandse, Vlaamse en buitenlandse namen te verbeteren door rekening te houden met uitspraakvarianten van namen ten gevolge van interculturele fenomenen, meer specifiek de oorsprong van een naam en de oorsprong van de spreker van een naam. Deze verschijnselen worden op een aantal niveaus onderzocht: variaties van uitspraken binnen de Nederlandse foneemset; het nut van het toevoegen van fonemen uit een buitenlandse foneemset; het aantal varianten dat leidt tot een optimale herkenning. Autonomata Too maakt hierbij gebruik van een namencorpus dat is opgenomen in een eerder project: Autonomata. Dit namencorpus wordt gebruikt om patronen op te sporen die ontstaan als Nederlanders namen van Nederlandse komaf uitspreken, c.q. namen van buitenlandse komaf, of als buitenlandse sprekers (met enige kennis van het Nederlands) namen van Nederlandse of buitenlandse oorsprong uitspreken. In de voordracht zal het Autonomata Too project worden voorgesteld en een aantal eerste onderzoeksresultaten worden gepresenteerd.

}, author = {Henk van den Heuvel} } @article {347, title = {Arguments for ToDI}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Arguments for phonological analyses can be internal or external. Among the most highly prized external arguments are experimental data on speech behaviour. Boundaries of intonational phrases need not obviously be marked by pauses. Our expectation in situations in which they are not is that they are marked by a boundary tone, such as H\%, to signal the separation between the preceding and the following portion of speech. The boundary tone will cause some characteristic change in the pitch contour at the location of the boundary. An example is the peak caused by a final H\% in (1).

(1)\  \  \  \  \  Ze zit VAST met dat ding op de SNELweg

\ \ \ \ \ \ \ \ \ \ \  {\textquoteleft}She has got stuck with that vehicle on the motorway{\textquoteright}

\ \ \ \ \ \ \ \ \ \ \  or {\textquoteleft}She must be on the motorway with the vehicle{\textquoteright}

A closer look at data from Dutch suggests that the above generalization is often true, but that there are exceptions either way. First, a low valley immediately after an accent peak does not induce a boundary after VAST in (2). Second, absence of a clear pitch movement nevertheless results in a boundary after ding in (3).

(2)\ \ \ \ \ \ \ \ \ \ \  Ze zit VAST met dat ding op de SNELweg

(3)\ \ \ \ \ \ \ \ \ \ \  Ze zit VAST met dat ding op de SNELweg

Where (1) is ambiguous, due to the interpretation of vast as an adjective {\textquoteleft}stuck{\textquoteright} or as an adverb {\textquoteleft}therefore probably{\textquoteright}, (2) means {\textquoteleft}She has got stuck with that vehicle on the motorway{\textquoteright}, while (3) means {\textquoteleft}So she must be on the motorway with that vehicle{\textquoteright}. The adjectival meaning of vast is best triggered by the presence of a boundary and identity of pitch accents in the two intonational phrases. The adverbial meaning is most likely to be triggered by the absence of an intonational boundary.

We designed an experiment with artificial two-accent intonation contours having identical pitch accents in the two positions. We varied the length of the first phrase (2), the presence of the medial boundary (2), and the type of pitch accent (3). Source sentences were

(4) Ze zit vast met dat ding op de snelweg\ \ \ \ \ \ \ \ \  {\textquoteleft}She has got stuck (with that vehicle) on the \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  motorway{\textquoteright}

\ \ \ \  Ze zit vast op de snelweg\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  or {\textquoteleft}She must be on the motorway (with that \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  vehicle){\textquoteright}

\ \ \  Hij zit alleen met die man in {\textquoteright}t caf{\'e} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  {\textquoteleft}He is alone (with that man) in the pub{\textquoteright} or

\ \ \  Hij zit alleen in {\textquoteright}t caf{\'e}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  {\textquoteleft}The problem is he{\textquoteright}s (with that man) in the pub{\textquoteright}

The presence or absence of the contours is determined on the basis of ToDI transcription. The results will be argued to support the analysis underlying that transcription system.

}, author = {Carlos Gussenhoven} } @article {172, title = {Articulatory settings in spraakproductie}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Er wordt verondersteld dat de combinatie van de stand van articulatoren die gebruikt worden voor het spreken (met name de tong, kaken en lippen), per taal verschillend is; dit fenomeen is bekend als {\textquoteright}articulatory settings{\textquoteright}. Eerdere studies over dit onderwerp hebben gebruik gemaakt van technieken vari{\"e}rend van analytisch luisteren tot moderne scantechnieken; geen van de tot nu toe uitgevoerde studies heeft echter eenduidig kunnen aantonen dat taalspecifieke settings tijdens spraakproductie meetbaar zijn. Met deze studie proberen we verschillen tussen de Nederlandse en Engelse setting akoestisch te meten onder optimale omstandigheden: op basis van metingen van vergelijkbare klinkerparen binnen sprekers. Hiervoor zijn de formantfrequenties gebruikt van acht verschillende Nederlands-Engelse klinkerparen voorkomend in interlinguale homofonen, uitgesproken door vijf gevorderde Nederlandse leerders van het Engels als tweede taal. Statistische analyses van deze akoestische data laten zien dat er significant verschillende globale patronen voorkomen in de Engelse en Nederlandse data, die verklaard kunnen worden door de taalspecifieke settings van deze twee talen. Deze uitkomsten laten bovenal zien hoe dynamisch het articulatieproces is, wat gezien kan worden als een verklaring voor de moeilijkheden die voorgaande studies hebben ondervonden.

}, author = {Sybrine Bultena and Wander Lowie} } @article {173, title = {Automatische meting van spreeksnelheid in gesproken Nederlands}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het kader van een grootschalig project aan de UvA (What is Speaking Proficiency, ) hebben wij een methode ontwikkeld om objectief te meten hoe snel mensen spreken, hoeveel pauzes mensen laten vallen en hoe lang de pauzes duren. In deze voordracht gaan wij in op de methode om spreeksnelheid objectief te meten: een programma, geschreven in PRAAT, detecteert syllabes met behulp van informatie over intensiteit (dB) en stemhebbendheid van het spraaksignaal. Met dit programma is het mogelijk om spreeksnelheid te schatten zonder voorbewerking van het spraaksignaal, en zonder te hoeven transcriberen. Het programma is gevalideerd op twee verschillende corpora van gesproken Nederlands. Voor zover het mogelijk is het succes van het programma te vergelijken met bestaande methodes om spreeksnelheid te schatten, functioneert het programma goed en is het makkelijk te gebruiken omdat geen enkele voorbewerking van de spraakbestanden nodig is.

}, author = {Nivja de Jong and Ton Wempe} } @article {171, title = {Competitieprocessen tijdens het begrijpen van spontane spraak}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In spontane spraak worden woorden vaak niet volledig uitgesproken. Zo kan {\textquoteright}oktober{\textquoteright} bijvoorbeeld uitgesproken worden als {\textquoteright}tower{\textquoteright}. Wij onderzochten hoe luisteraars gereduceerde woorden herkennen door het meten van hun oogbewegingen terwijl ze keken naar 4 gedrukte woorden - het doelwoord (bv. oktober), een concurrent die fonologisch op het ongereduceerde woord lijkt (bv. octopus), een die op het gereduceerde woord lijkt (bv. toveren), en een ongerelateerde distractor - terwijl ze naar spontane zinnen luisteren met gereduceerde en ongereduceerde woorden. Proefpersonen keken meer naar de concurrenten dan naar de distractor, zonder verschil tussen de twee concurrenten. We voerden twee experimenten uit om te onderzoeken wanneer de concurrenten wel van elkaar verschillen. Bij presentatie van alleen ongereduceerde vormen in zorgvuldige spaak keken proefpersonen meer naar de ongereduceerde dan naar de gereduceerde concurrenten. Met de ongereduceerde woorden uit het eerste experiment, maar nu niet gemixt met gereduceerde woorden, bleek er naar beide concurrenten niet gekeken te worden. De resultaten laten zien dat lexicale competitie afhankelijk is van de mate van reductie.

}, author = {Susanne Brouwer and Holger Mitterer and Mirjam Ernestus} } @article {165, title = {De oplijning van het begin van de eindstijging in Nederlandse "falling-rising" intonatiecontouren}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In hoeverre wordt de oplijning van het begin van de intonationele eindstijging be{\"\i}nvloed door beklemtoonde lettergrepen in postnucleaire woorden of door Second Occurrence Focus (SOF)? Om deze vragen te beantwoorden is een corpus met Nederlandse "falling-rising" intonatiecontouren met een vroeg nucleair accent opgenomen met negen sprekers. De resultaten laten zien dat noch een postnucleaire beklemtoonde lettergreep, noch SOF de positie van het begin van de eindstijging be{\"\i}nvloedt; dit punt heeft een vaste afstand tot het zinseinde. Dit suggereert dat de positie van postnucleaire tonen kan worden bepaald door (1) fonologische associatie met een postnucleaire beklemtoonde lettergreep, zoals elders aangetoond voor het Atheens-Grieks en het Roermonds, of (2) oplijning met het zinseinde of andere tonen, en dat een graduele aantrekkingskracht door klemtoon niet voorkomt.

}, author = {Marco van de Ven and Carlos Gussenhoven} } @article {174, title = {De perceptie van modale partikels in het Nederlands als tweede taal}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Nederlands kent tal van modale partikels, zoals zeker in Jij bent zeker Jan? en maar in Kom maar hier. Deze ongeaccentueerde woorden geven de hele zin een bepaalde kleuring, die lastig te omschrijven is. De voorspelling dat verwerving van deze woorden moeilijk moet zijn voor tweedetaalsprekers (Foolen 1986, Wenzel 2002) werd getoetst in een perceptieproef met de modale partikels toch, wel en zeker en hun geaccentueerde niet-modale tegenhangers (i.e., {\textquoteright}gewone{\textquoteright} bijwoorden). NT2-sprekers en NT1-sprekers kregen telkens een contextzin aangeboden (bv. Emma wil haar fiets verkopen) en moesten daarna aangeven wat ze de best passende vervolgzin vonden: met een accent op het doelwoord (Ze fietst TOCH nooit) of met een accent elders in de zin (Ze FIETST toch nooit). De resultaten laten duidelijk zien dat NT2-sprekers inderdaad grote moeite hebben met modale partikels: bij de modale contexten scoren NT2-sprekers slechts 51\% correct, d.w.z. conform de voorspelling, tegenover 94\% voor NT1-sprekers.

}, author = {Johanneke Caspers and Ton van der Wouden} } @article {164, title = {Een computationeel model voor taalverwerving - Woorddetectie op basis van multimodale input}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Taalverwerving bij baby{\textquoteright}s en jonge kinderen is een interessant proces, want baby{\textquoteright}s beginnen zonder woordenschat en in gesproken taal zijn woordgrenzen als zodanig niet hoorbaar. Toch zijn baby{\textquoteright}s en jonge kinderen heel goed in staat auditieve (multimodale) stimuli te gebruiken om woorden en betekenissen te leren die hen in staat stellen met de omgeving te kunnen communiceren. In deze presentatie laten we een rekenmodel zien dat dit woordleerproces simuleert. Het leerdermodel is in staat zonder voorafgaand gedefinieerd lexicon woorden (en woordachtige eenheden) te leren uit {\textquoteright}ruwe{\textquoteright} multimodale stimuli die in een dialoog worden aangeboden door de {\textquoteright}verzorger{\textquoteright}.

Het leerder-model bestaat uit 4 ingredi{\"e}nten: een waarnemingsmodule ({\textquoteright}zintuig{\textquoteright}), een geheugen, een drijfveer om te leren, en een module die de communicatie met de {\textquoteright}verzorger{\textquoteright} regelt.

In de presentatie bespreken we de resultaten van de leerder als functie van een aantal parameters (zoals hoeveelheid trainingstokens, sprekerafhankelijkheid, leren versus vergeten), voor drie talen (Nederlands, Fins en Zweeds). Resultaten worden gerelateerd aan wat bekend is uit de taalverwervingsliteratuur.

}, author = {Louis ten Bosch and Lou Boves and Hugo Van hamme} } @article {347, title = {Effects of dialect and context on the realization of German pitch accents}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

We investigated whether alignment differences reported for Southern and Northern German speakers (Southerners align peaks in prenuclear accents later than Northerners) are carried over to the production of different functional categories such as contrast. To this end, the realization of non-contrastive theme accents is compared with those in contrastive theme-rheme pairs such as {\textquoteright}Sam rented a truck and Johanna rented a car.{\textquoteright}

We found that when producing this {\textquoteright}double-contrast{\textquoteright}, speakers mark contrast both phonetically by delaying and rising the peak of the theme accent\  ({\textquoteright}Johanna{\textquoteright}) and/or phonologically by a change in rheme accent type (from high to falling {\textquoteright}car{\textquoteright}).

The effect of dialect is complex: a) only in non-contrastive contexts produced with a high rheme accent Southerners align peaks later than Northerners; b) peak delay as a\  means to signal functional contrast is not used uniformly by the two varieties. Dialect clearly affects the realization of prenuclear accents but its effect is conditioned by the pragmatic and intonational context.

}, author = {Bettina Braun} } @article {162, title = {Emotionele spraaksynthese}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In dit onderzoek heb ik drie methodes om synthetische spraak emotioneel te laten klinken met elkaar vergeleken. Twee methodes passen de grondfrequentie en de klankduren aan. Voor deze twee methodes gebruiken we hetzelfde difoonsynthesesysteem om de initi{\"e}le intonatie en klankduren te bepalen. De derde methode kopieert de intonatie en klankduren uit natuurlijke emotionele spraak. De spraak is geselecteerd uit een Engelstalige emotionele database en de transcripties van de fragmenten zijn ook gebruikt voor synthese met de andere methodes. Om de spraak te genereren is voor alle methodes dezelfde Engelse MBrola-stem gebruikt. In een luisterexperiment is aan 20 proefpersonen gevraagd om van ieder fragment aan te geven wat de {\textquoteright}arousal{\textquoteright} (activatie) en {\textquoteright}valence{\textquoteright} (waardering) is en om het emotielabel (afraid, angry, happy, neutral, relaxed en sad) te kiezen dat het beste past bij het fragment. Ik zal de resultaten van dit experiment presenteren.

}, author = {Melanie Kroes} } @article {161, title = {FUSS - Unit-selectie met een (relatief) klein corpus}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

FUSS is een nieuwe unit-selectie synthesizer, die deel uitmaakt van een poging om met eenvoudige middelen, en zo veel mogelijk geautomatiseerd, opnames te maken van een spreker, en die om te zetten in een stem-voor-spraaksynthese.

In mijn bijdrage zal ik aandacht besteden aan de volgende onderwerpen: constructie van het corpus, opnameprocedure, automatische labeling, de architectuur van de synthesizer en de integratie in de tekst-naar-spraaksoftware van Fluency.

De eerste stem die voor FUSS gemaakt is, wordt gedemonstreerd in twee versies: zowel v{\'o}{\'o}r als n{\'a} handmatige correctie van de automatische labeling.

}, author = {Arthur Dirksen} } @article {163, title = {"Hoe kan ik u van dienst zijn?" - Spraakgestuurde routeringsapplicaties}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het doel van routeringsapplicaties in callcenters is om bellende klanten door te verbinden met de meest geschikte dienst of medewerker. Routeringsapplicaties kunnen op verschillende manieren ge{\"\i}mplementeerd worden, zowel toetsgestuurd als spraakgestuurd. Bij toetsgestuurde applicaties moeten klanten zelf bepalen met welke keuzes in een gelaagd en dus vaak ook ingewikkeld keuzemenu hun vraag het beste beantwoord kan worden. Spraakgestuurde routeringsapplicaties vormen wat dat betreft een veel klantvriendelijker alternatief. Bij spraakgestuurde applicaties hoeven klanten niet langer een keuzemenu te doorlopen; ze moeten enkel nog antwoord geven op de open beginvraag:"Hoe kan ik u van dienst zijn?". Spraakgestuurde routeringsapplicaties herkennen vervolgens de ingesproken zin en beslissen op basis van deze gegevens automatisch bij welke dienst of medewerker de klant het best kan worden verder geholpen.

Vandaag presenteren we verschillende aspecten die te maken hebben met de bouw van spraakgestuurde routeringsapplicaties. We zullen spreken over dialoogdesign, de open spraakherkenning (OSR) en de training en tuning van de semantische component die herkende zinnen classificeert om zo de meest geschikte dienst of medewerker te vinden.

}, author = {Diana Binnenpoorte and Christophe Van Bael and Johan de Veth} } @article {347, title = {Intonational realisation of topic and focus in child Dutch}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Languages express the topic-focus distinction in different ways (e.g. word order, particles, intonation). In this study we focus on intonation and in particular look at type of pitch accent and phrasing. There has been relatively little discussion on the use of intonation to express the topic-focus distinction in child language. Prior work is mostly concerned with the use of accentuation in expressing contrast. In this study, we examined how Dutch children use pitch accent types (including deaccentuation) and phrasing to mark topic and focus in different sentence positions and how they differ from adults. The topic and focus under investigation were non-contrastive and realised as full NPs (e.g. what did the boy draw? [The boy]topic drew [a castle]focus).

A picture-matching game was used to elicit topic-focus structures as answers to WH-questions. Two variables were controlled for in the answer sentences: PRAGMATIC CONDITION (topic, focus), SENTENCE POSITION (initial, final). Data were collected from monolingual Dutch children (aged 4-5 years, 7-8 years and 10-11 years) as well as adults. The intonation patterns were transcribed following ToDI notation.

Our analysis has revealed five major findings:

  1. Children of all age groups and adults employ a similar set of pitch accent types. These accent types (e.g. L*H, H*L, H*, !H*L) form the core of the inventory of pitch accents in Dutch. This finding thus shows that children as young as 4 have adult-like inventory of accent types.
  2. Like adults, children of all age groups deaccent topic more frequently than focus independent of sentence position. This result indicates children{\textquoteright}s early sensitivity to the accentuation-focus and deaccentuation-topic associations, as suggested in prior work.
  3. Children acquire H*L as the typical {\textquoteleft}focus accent{\textquoteright} at the age of 7 or 8. 4- to 5-year-olds exhibit a weak preference for H*L over other accent types in sentence-initial position and no preference for H*L in sentence-final position. Possibly, frequent use of H*L in sentence-initial topic in adult Dutch has made it difficult for young children to associate H*L primarily with focus.
  4. Children also acquire deaccentuation as the typical {\textquoteleft}topic intonation{\textquoteright} at the age of 7 or 8. 4- to 5- year-olds realise topic similarly frequently with deaccentuation, L*H and H*L in sentence-final position.
  5. Only 4- to 5-year-olds appear to use phrasing to realise topic, which forms its own intonational phrase (IP). Older children and adults utter the topic-focus structure mostly as one IP.
}, author = {Aoju Chen} } @article {170, title = {It{\textquoteright}s all in your head - How to get abstract representations in there}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

How do we get the phonological representation of a word into our heads from the speech signal? If we assume that the mental lexicon contains something like underlying representations of words, we have to account for how children acquire them in the course of language learning. For instance, how can children learn that the word for {\textquoteright}rat{\textquoteright} in Dutch, pronounced [rat], ends in a final voiceless stop, while the word for {\textquoteright}wheel{\textquoteright}, also pronounced [rat], actually ends in a final voiced stop, as the plural form [radə] shows? In this talk, it will be demonstrated how computer-simulated learners can acquire both the phonological grammar causing the final devoicing effect plus the correct underlying forms from the phonetic forms and their meanings (e.g. from pairs such as [rat] - {\textquoteright}rat{\textquoteright} or [radə] - {\textquoteright}wheels{\textquoteright}) by combining a parallel learning procedure of the different levels of representation with subsequent serial production of the words.

}, author = {Diana Apoussidou} } @article {169, title = {Lexical-stress information rapidly modulates spoken-word recognition}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

The time-course of the effect of suprasegmental stress information on word recognition was investigated by tracking Dutch listeners{\textquoteright} looks to arrays of four printed words on a computer screen as they listened to spoken sentences. Target trials included word pairs that did not differ segmentally in their first two syllables but differed in their stress placement (e.g., {\textquoteright}BArometer{\textquoteright} and {\textquoteright}baroNES{\textquoteright}; capitals marking stressed syllables). The listeners{\textquoteright} eye-movements showed that they used stress information to disambiguate rapidly between word candidates. For example, when hearing {\textquoteright}baroNES{\textquoteright}, participants looked more at {\textquoteright}baroNES{\textquoteright} than at its competitor {\textquoteright}BArometer{\textquoteright} even before segmental information could disambiguate the words. Furthermore, there was an asymmetry in the amount of competition. Words with stress on the first syllable provided stronger competition than words with non-initial stress. Lexical stress information thus affects the degree to which words compete, and it is used immediately to modulate the recognition process.

}, author = {Eva Reinisch and Alexandra Jesse and James M. McQueen} } @article {347, title = {Music and lyrics: a comparative study of the tone-melody correspondence Thai and Cantonese popular songs}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Despite the close resemblance of language and music in terms of their acoustic nature, the relationship between lexical tone and melody in Thai music has received little attention. This study aims to address the issue whether Thai popular songs demonstrate close correspondence between linguistic tone and musical melody. A comparative approach will be adopted based on the findings of a previous study on the tone-tune interface in Cantonese popular songs (Ho 2006).

The Thai language possesses a rich tonal inventory which consists of five contrastive tones {\textendash} high, mid, low, falling and rising. One may wonder if the lexical tones and the melody of a song need to match in order that the comprehensibility of the lyrics to be preserved. According to Ho (1998), an almost perfect tone-melody mapping was found in a traditional Thai song composed in the 60s. Not only global pitch movement of word phrases or stanzas but also localized tone contour of individual syllables is fully represented by the melody. Nonetheless, tone-melody mismatch appears to be more tolerated in recent works of Thai pop music. Saurman (1999) suggested that the degree of correspondence is related to the genres of music and the year of production {\textendash} a higher degree of tone-melody correspondence is found in classical and traditional songs, whereas contemporary pop songs especially those that are reinterpretation of western music seem to abide tone-tune divergence. In Cantonese popular songs, however, tone-tune mismatches are extremely rare regardless of their origin or the year of composition. Strict matching between musical pitch transition and tonal target transition is observed in all the Cantonese pop songs analyzed. With data from 20 Thai songs composed in the past few decades to present, this study attempts to reveal and account for the structural differences, if any, between the tone-tune correspondence of Thai songs and that of Cantopop.

  • Baart, J.L.G. (2004). Tone and song in Kalam Kohistani (Pakistan). Hugo Quene \& Vincent van Heuven (eds.): On Language and Speech: Studies for Sieb G. Nooteboom. Utrecht: Netherlands Graduate Institute of Linguistics. 2004.
  • Chan, M. (1987). Tone and Melody in Cantonese. Berkeley Linguistic Society, Proceedings of the Thirteenth Annual Meeting 1987.
  • Ho, W.S.V. (1998). Tone and Tune: A Study on the Relationship of Text and Melody in Contemporary Vocal Music. MA Dissertation, University College London, University of London.
  • Ho, W.S.V. (2006) {\textquotedblleft}The Tone-melody Interface of Popular Songs written in Tone Languages{\textquotedblright}. Conference Proceedings of the 9th International Conference on Music Perception and Cognition, University of Bologna, Italy, 22-26 August, 2006.
  • Ho, W.S.V. (2006) {\textquotedblleft}An Optimality-theoretic Analysis of the Tone-melody Mapping in Cantonese Popular Songs{\textquotedblright}. Conference Proceedings of the Second International Symposium on Tonal Aspects of Languages, University of La Rochelle, France, 27-29 April, 2006.
  • Saurman, M.E. (1999). The agreement of Thai speech tones and melodic pitches. Notes on Anthropology, 3/3, 15-24. Dallas, TX: Summer Institute of Linguistics.
  • Wong, P.C.M., \& Diehl, R.L. (1999). Melody-tone relation in Cantonese songs. Journal of the Acoustical Society of America, 106: 2286.
}, author = {Vincie W.S. Ho} } @article {166, title = {Prominentie van onbeklemtoonde lettergrepen in Noord-Russische dialecten}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In Noord-Russische dialecten wordt de eerste lettergreep van prosodische woorden vaak zo prominent uitgesproken dat het moeilijk is om te horen waar de klemtoon ligt. De prominentie lijkt vooral veroorzaakt te worden door de toonhoogtebeweging, maar mogelijk spelen relatieve lengte en luidheid toch een grotere rol

Dit verschijnsel is mogelijk een gevolg van taalcontact met de omringende Fins-Oegrische talen met vaste klemtoon op de eerste lettergreep, zoals Samisch en Karelisch. In tegenstelling tot deze talen hebben de Noord-Russische dialecten geen obligatorisch beginaccent, maar wordt het accent alleen gesignaleerd bij een specifieke prosodische structuur van de uiting, wat laat zien dat de klemtoon in de betreffende woorden niet verschoven is naar de eerste lettergreep.

Frequente nadruk van de eerste lettergreep komt ook voor in het Russisch van de Samen en Komi uit hetzelfde gebied, maar deze lijkt een lichtelijk andere vorm te hebben.

}, author = {Margje Post} } @article {347, title = {Prosodic information in audiovisual spoken-word recognition}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Prosodic information influences the spoken-word recognition process. For example, auditory lexical stress information contributes to the activation of word candidates during spoken-word recognition (Cooper, Cutler, \& Wales, 2002; van Donselaar, Koster, Cutler, 2005; Soto-Faraco, Sebasti{\'a}n-Gall{\'e}s, \& Cutler, 2001). However, we typically do not only hear but also see speakers in conversations. Visual speech (i.e., information from seeing the face of a speaker) is known to contribute to the robust recognition of speech segments (e.g., for an overview, see Massaro and Jesse, in press). Segments are better recognized when presented as audiovisual than as auditory-only speech. But little is known about visual speech{\textquoteright}s ability to provide prosodic information. The project reported here will address whether visual speech informs about lexical stress and whether this information can alter lexical competition during the audiovisual spoken-word recognition process.

Dutch word pairs that overlap in their first two syllables segmentally but differ in lexical stress were selected (e.g., OCtopus vs. okTOber; capital letters marking primary stress). In an audiovisual speech version of a cross-modal repetition priming task, the first two syllables of these pairs were presented sentence-finally either as auditory-only, visual-only, or audiovisual speech (e.g., {\textquoteleft}The password was OCto-{\textquoteright} ). On these critical trials, these primes were followed by printed presentations of either matching ({\textquoteleft}octopus{\textquoteright}) or stress-mismatching ({\textquoteleft}oktober{\textquoteright}) target words. Filler trials included nonword targets. Response times needed to indicate whether the printed items were words or nonwords were analyzed. Replicating previous results for auditory-only conditions (e.g., van Donselaar et al., 2005), matching primes should speed up and mismatching primes slow down correct target recognition compared to when unrelated primes precede target presentations (e.g., The password was machi-{\textquoteleft}, where {\textquoteleft}machi-{\textquoteright} was taken from {\textquoteleft}machine{\textquoteright}). If visual speech also conveys lexical stress information and this information influences indeed lexical activation, then for audiovisual primes, target response times should be similarly modulated by overlap in lexical stress. Results are discussed within the framework of current models of auditory and audiovisual spoken-word recognition.

  • Cooper, N., Cutler, A., \& Wales, R. (2002). Constraints of lexical stress on lexical access in English: Evidence from native and non-native listeners. Language and Speech, 45, 207-228.
  • Donselaar, W. van, Koster, M., \& Cutler, A. (2005). Exploring the role of lexical stress in lexical recognition. The Quarterly Journal of Experimental Psychology, 58A, 251-273.
  • Massaro, D.W., \& Jesse, A. (in press). Audiovisual speech perception and word recognition. In G. Gaskell (Ed.), The Oxford handbook of psycholinguistics. Oxford, U.K.: Oxford University Press.
  • Soto-Faraco, S., Sebasti{\'a}n-Gall{\'e}s, N., \& Cutler, A. (2001). Segmental and suprasegmental mismatch in lexical access. Journal of Memory and Language, 45, 412-432.
}, author = {Alexandra Jesse} } @article {347, title = {Prosodic marking of information status in L1 and L2. A comparative study of Dutch and French}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In recent years quite a lot of attention has been paid to the suprasegmental features of speech, i.e. stress, accent, intonation, tone, rhythm, and speech pauses (Fox 2000). By contrast, the study of prosodic systems suffers from a considerable under-representation in the field of second language acquisition research. Indeed, most work devoted to L2 pronunciation has hitherto focussed on segmental issues (Chun 2002, Leather \& James 1991, Rasier 2006).

In the first part of this talk, I discuss some recent research on interlanguage prosody. Then, I will set out to investigate L1/L2 speakers{\textquoteright} use of prosody to signal information status in Dutch and French. The data consist in the L1 speech of 20 native speakers of Dutch and 20 native speakers of French on the one hand and in the L2 speech of 20 advanced French-speaking learners of Dutch and 20 advanced Dutch-speaking learners of French on the other (Rasier 2006). The corpus was gathered by means of an experimental accentuation test consisting in a picture description game in which the information value of target words was kept under control (see also Barlow 1998, Swerts et.al. 2002. The results show a strong trans-fer effect in the L2 learners{\textquoteright} use of prosody (accentuation, deaccentuation) in order to indicate information status. It is shown that the differences between the native and non-native speakers of Dutch and French regarding the prosodic marking of information status can be explained in terms of the markedness relations (in the sense of Eckmann 1988) between Dutch and French.

}, author = {Laurent Rasier} } @article {347, title = {Prosody - a missing link between phonetic detail and phonemic categories?}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

The prosodic structure of an utterance influences the fine-grained phonetic details of spoken word forms. Speech sounds are articulated more strongly in prosodically prominent positions, e.g., at the onsets of higher prosodic domains.

Importantly, this prosodic strengthening involves phonetic characterisitcs of the speech signal which also cue phonological distinctions. While articulatory strengthening suggests that, e.g., a prosodically strong /b/ would become more similar to a [p] (what I will call the {\textquoteleft}Fortition Account{\textquoteright}), it has also been hypothesized that prosodic strengthening enhances language-specific distinctive features, which would make a prosodically strong /b/ less [p]-like. We investigated how domain-initial strengthening affects the acoustic cuees to phonemic contrasts in German obstruents.

Experiment 1 focused on the plosives /b, p, d, t, g, k/, which form pairs of phonemes differentiated by the fortis-lenis contrast. Important acoustic cues to this contrast are closure duration, glottal vibration during closure, voice onset time, and intensitiy of the release noise. Closure durations were longer At higher prosodic boundaries, closure durations were longer, and in lenis plosives, a smaller proportion of the closure was produced with glottal vibration. Voice onset time in lenis plosives was not affected by prosody. In contrast, VOT decreased at higher boundaries for the fortis plosives, as did the maximal intensity of the release. These results suggest that the effects of prosody on different phonetic cues can go into opposite directions, but are overall constrained by the need to maintain paradigmatic phonemic contrasts.

In Experiment 2, we examined how prosody constrains a sandhi process, the progressive assimilatory devoicing of the word-initial lenis fricatives /v, z/\  folllowing /t/. Reduction in glottal vibration makes lenis fricatives more fortis-like (/f, s/). This devoicing was especially strong across small prosodic boundaries. However, prosodic structure affected the fricative duration, another cue to the fortis-lenis distinction, in the opposite direction. Duration was shorter at smaller boundaries, just as the closure duration of the plosives. Hence, at smaller prosodic boundaries, fricatives were more devoiced (more fortis-like), but also shorter (more lenis-like).

In conclusion, our results show that neither the Fortition Account nor the Feature Enhancement explanation are fully supported by the syntagmatic effects of prosody on individual cues. At the phonemic level, however, the paradigmatic fortis - lenis contrast remains distinctive in all prosodic contexts, irrespective of prosodic strengthening and assimilation.

}, author = {Claudia Kuzla} } @article {175, title = {SpeakGoodChinese - De tonen van het Mandarijnchinees leren spreken}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Nederlandse studenten, en vele anderen, hebben grote moeite om de tonen van het Mandarijnchinees te leren verstaan en spreken. In de praktijk kunnen beginnende studenten niet zelfstandig oefenen wat de vooruitgang ernstig vertraagt. In een samenwerkingsproject tussen de Hogescholen van Rotterdam en Amsterdam, Fontys en de universiteiten van Amsterdam en Twente is op basis van PRAAT een applicatie ontwikkeld, SpeakGoodChinese (), die de uitspraak van de tonen herkent waarmee studenten individueel kunnen oefenen. De student spreekt een in het pinyin gespeld woord uit. Daarna geeft de applicatie feed-back over de uitspraak van de tonen. SpeakGoodChinese kan ook synthetische referentietonen genereren vanuit de pinyin notatie.

Op de spraak van referentiesprekers maakte de SpeakGoodChinese herkenner 6\% fouten op voorgelezen woorden en minder dan 15\% op spraak verzameld met een functionele testvariant met vrije woordkeuze (vals negatief). Op nagesproken, geschaduwde, goede en foute tonen van 8 sprekers, zowel goede als slechte, maakte de herkenner minder dan 15\% fouten in beide richtingen, vals positief en vals negatief. De volledige applicatie is beschikbaar voor MS Windows XP en Linux onder de GNU GPL-licentie.

}, author = {David Weenink and Rob van Son} } @article {168, title = {Van arm tot zwerven- Sjwa-insertie in het Standaardnederlands van Vlamingen en Nederlanders}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In deze bijdrage bestuderen we sjwa-insertie in het spontaan gesproken Standaardnederlands van 80 Vlaamse en 80 Nederlandse leraren Nederlands. Bij de samenstelling van de steekproef werd rekening gehouden met de variabelen leeftijd, sekse en regio. Er wordt gefocust op woorden van het type arm en zwerven, d.w.z. woorden waarin de (enige) volle klinker gevolgd wordt door een consonantencluster met /r/ als eerste element en een niet-homorganische medeklinker als tweede element. Voor elk woord is nagegaan of in het consonantencluster een sjwa werd ingelast, bv. arm \> arrem, zwerven \> zwerreven. Sjwa-insertie bleek vaker voor te komen in Vlaanderen dan in Nederland. Bij de generatie geboren voor 1955 is het verschijnsel iets prominenter aanwezig dan bij de generatie geboren na 1960, zeker in Nederland. Ten slotte bleken er ook opvallende verschillen te bestaan tussen de respectieve regio{\textquoteright}s. De tendens om sjwa{\textquoteright}s in te voegen is het sterkst in de regio Antwerpen/Vlaams-Brabant.

}, author = {Hanne Kloots} } @article {167, title = {Waargenomen spreektempo en articulatorische inspanning}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Oordelen van luisteraars over spreektempo zijn niet alleen gebaseerd op de gehoorde spraakklanken, maar ook op het aantal bedoelde (en wellicht onhoorbare) spraakklanken. Dat roept de vraag op, of het subjectieve spreektempo mede be{\"\i}nvloed wordt door de (door luisteraars geschatte) articulatorische inspanning die nodig is om de spraak te produceren. De klankreeks "tisitisiti" gesproken met 5 syll/s zou dan beoordeeld worden als trager dan de klankreeks "sokesokeso" gesproken met hetzelfde tempo, vanwege de geringere articulatorische inspanning voor de eerste klankreeks. Deze hypothese is onderzocht in een "magnitude estimation" experiment, met klankreeksen die relatief weinig of veel articulatorische inspanning vereisen, in tempi tussen 3.0 en 4.5 syll/s.

De voorlopige resultaten bevestigen bovengenoemde hypothese, althans voor het snelste tempo. Luisteraars compenseren blijkbaar voor de articulatorische inspanning (vergelijkbaar met compensatie voor coarticulatie), indien het gehoorde spreektempo mogelijk begrensd is door articulatorische beperkingen. Deze resultaten bevestigen het algemene idee dat spraakperceptie mede wordt be{\"\i}nvloed door impliciete kennis die luisteraars hebben over spraakproductie.

}, author = {Hugo Quen{\'e}} } @article {347, title = {The importance of prosody for TRP projection}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In three different Reaction Times (RT) experiments, the effect of various prosodic features - like end tone, position of prominent words and utterance length - on the projection of potential turn changes, also known as Turn Relevance Places (TRPs) was investigated. Subjects were asked to react with minimal responses to prerecorded dialogs and impoverished versions of these dialogs.

The first two experiments - with both full and impoverished versions of the dialogs, containing only intonation and pause information (hummed stimuli), or no periodic component at all (whispered stimuli) - already showed that end tone information can be used by listeners to predict upcoming utterance ends, although in natural speech the pitch signal itself might be redundant for predicting TRPs.

It also seemed that the presence of non prominent words right before an utterance end reduced the delays of both elicited and natural responses. This would suggest that the presence of a prominent, informative, word starts the projection of a possible upcoming TRP, while the availability of non prominent, predictable, speech then allows listeners to improve their predictions of the exact timing of the TRP.

However, in a third experiment, where at random, of each utterance, either one of the last four words was replaced by white noise (masked condition), or no word was replaced (non masked condition), the masking of prominent words did not affect the response times of our subjects. Only when it was the very last word of the utterance that was masked, the reaction time was delayed. It seems that effect of prominent word position that was found earlier, is in fact an effect of utterance length.

Our results suggest that predicting the relative position of the last word before the TRP is robust enough to be unaffected by missing either intonation, or individual words. The strong facilitating effect of utterance length on RTs also points to the use of global syntactic and discourse structure in predicting the relative position of the last word.

}, author = {Wieneke Wesseling} } @article {347, title = {The prosodic marking of the contrast between restrictive and appositive clause in Dutch}, year = {2007}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

It is well known that there are prosodic differences between restrictive versus appositive relative clauses in English. In a current project we are in the process of establishing the phonetics of the prosodic marking of this contrast in Dutch, in both speech production and perception. In my talk today I will report results of a pilot experiment with a speech-technology orientation. We ask to what extent Dutch listeners are sensitive to the prosodic marking of the difference between the two clause types, and by implication, if the quality of a text-to-speech system can be improved if the contrast is properly modelled in the prosodic component of the TTS.

We resynthesized Dutch sentences whose lexico-syntactic properties are compatible with either a restrictive or an appositive interpretation of a relative clause (but never both). We generated multiple versions of each sentence by systematically varying (i) presence versus absence of domain-final lengthening before the onset of the relative clause (ii) presence versus absence of a physical silence at the onset of the relative clause and (iii) the melodic configuration at the boundary. Four different melodies were used, which were hypothesized to mark the absence or presence of a prosodic boundary with different degrees of strength.

Listeners were ask to judge for each stimulus on a scale from 0 to 10 how well the speaker read the stimulus, where {\textquoteleft}0{\textquoteright} stood for {\textquoteleft}very poorly/inappropriately read{\textquoteright} and 10 represented {\textquoteleft}read perfectly{\textquoteright}).

Our results indicate that domain-final lengthening and the presence of a physical pause at the beginning of the relative clause are dispreferred for the restrictive type. Melody seems to contribute very little to the contrast.

}, author = {Vincent van Heuven} } @article {339, title = {Audiovisual cues to a speaker{\textquoteright}s confidence level}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

I will present the results of a number of experiments on the role of audiovisual prosody for signalling and detecting meta-cognitive information in question-answering. The first study consists of an experiment in which participants are asked factual questions in a conversational setting, while they are being filmed. Statistical analyses bring to light that a speakers{\textquoteright} confidence level is cued by a number of visual and verbal properties. Interestingly, it appears that answers tend to have a higher number of marked auditive and visual feature settings, including divergences of the neutral facial expression, when a speaker{\textquoteright}s confidence level is low, while the reverse is true for non-answers. The second study is a perception experiment, in which a selection of the utterances from the first study is presented to participants in one of three conditions: vision only, sound only or vision+sound. Results reveal that human observers can reliably distinguish high confidence responses from low confidence responses in all three conditions, be it that answers are easier than non-answers, and that a bimodal presentation of the stimuli is easier than the unimodal counterparts. The talk will end with some perspectives on related work about difference in the expression of confidence level between speakers who differ in age and cultural background.

}, author = {Marc Swerts} } @article {340, title = {Automatic phonetic transcription of large speech corpora: a comparative study}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In a recent study, we investigated whether automatic transcription procedures can approximate manually verified phonetic transcriptions typically delivered with contemporary large speech corpora. Ten automatic procedures were used to generate a broad phonetic transcription of well-prepared speech (read-aloud texts) and spontaneous speech (telephone dialogues) from the Spoken Dutch Corpus. The resulting transcriptions were compared to manually verified phonetic transcriptions from the same corpus.

We found that signal-based procedures could not approximate the manually verified phonetic transcriptions. A knowledge-based procedure did not give optimal results either. Quite surprisingly, a procedure in which a canonical transcription, through the use of decision trees and a small sample of manually verified phonetic transcriptions, was modelled towards the target transcription, performed best. The number and the nature of the remaining discrepancies compared to inter-labeller disagreements reported in the literature. This implies that future corpus designers should consider the use of automatic transcription procedures as a valid and cheap alternative to expensive human experts.

}, author = {Christophe Van Bael} } @article {190, title = {Automatische emotie-detectie in spraak in het project MultimediaN: Multi-Modal Interaction}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Binnen het project MultimediaN Multi-Modal Interaction doen we o.a. onderzoek naar het automatisch detecteren van emotie in spraak. De laatste jaren wordt er steeds meer gewerkt aan het automatisch detecteren van emotie in spraak, ofwel gezicht, ofwel gebaren en daarbij komt men vaak dezelfde knelpunten tegen. Dit is een van de redenen waarom wij zijn begonnen met het detecteren van gelach. In deze presentatie zal ik iets meer vertellen over de moeilijkheden die gepaard gaan met dit soort emotie onderzoek; hoe komen we aan spontane emotionele spraak data, hoe gaan we emotie annoteren etc. Verder is het van belang dat de classificatie/detectie experimenten goed opgezet worden (classificatie vs. detectie) en dat de ontwikkelde emotie detectoren ook goed ge{\"e}valueerd kunnen worden. Ook zal ik ingaan op een aantal emotie detectie experimenten die we hebben uitgevoerd op een database en wat we van plan zijn om te gaan doen binnen het project.

}, author = {Khiet Truong} } @article {185, title = {E-learning resource {\textquoteright}Russian Dialectal Phonetics{\textquoteright}: Perspectives and first output}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

The aim of the project supported by NWO is to create an electronic course of modern Russian dialectal phonetics suitable for learning, teaching and for scientific research. The course will comprise two components: a theoretical overview and a practical section (real texts and on-line tests, exercises, quizzes). The information provided to users is a multimedia one: original dialectal texts and their phonations, multimedia sensitive maps and photo- and video-fragments from the archive of dialectological expeditions with exercises in the practical section. All course units are constructed as SCORM-consistent reusable learning objects (RLOs). As an open-source product, the electronic course "Russian Dialectal Phonetics" can be enlarged and outspread to other levels of linguistic description of Russian dialects.

In my paper, after a short discussion of the multimedia course, I will present some results of our study on some Southern Russian dialects which are characterised by so called {\textquotedblleft}dissimilative akan{\textquoteright}je{\textquotedblright} (DA) - a specific type of vowel neutralization in pretonic syllables where the result of neutralization depends on the quality of the stressed vowel. We believe that originally DA showed compensatory dissimilation within the prosodic nucleus on the basis of vowel length: the longer (more open) the stressed vowel, the shorter (more reduced) the pretonic one. The qualitative and quantitative difference between long and short pretonic vowels [a] and [ə] in all so far known dialects with DA is striking, and there is an abrupt change from one vowel to another. While processing some texts with DA during our work on the project, previously supposed to show the so-called Prokhor or Don type of DA ([a] before high stressed vowels and [ə] before all non-high ones), we found a completely different situation: qualitative and quantitative differences of pretonic vowels depending on the stressed vowel are small, gradual and irrelevant. It can be suggested that this dialect reflects the most archaic type of DA with a vague dependence of the pretonic vowel on the length of the stressed vowel, which has not yet been fixed in the phonological system. This type of DA can be called protodissimilative.

}, author = {Sergej Kniazev} } @article {342, title = {Example-based large vocabulary recognition}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Hidden Markov Models(HMM) have dominated speech recognition for over two decades. HMMs are an embeddiment of a beads on a string model in which a sentence is a sequence of words, a word a sequence of phonemes and a phoneme a sequence of states. An HMM-state (in the acoustic model) models a sub-phonetic speech fragment as a short-time stationary event. HMMs have great advantages: the concept is straightforward and the parameters in the model are trained from data available in large databases. Moreover HMMs have proven to be extremely scaleable: larger database allow for more detailed models with more parameters while more powerful CPUs make it possible to use these more detailed models in real-time systems. The success of HMMs has been the single most important driving force in the use of large databases and statistical techniques in the field of speech and language.

Nevertheless HMMs are far from ideal in their speech modeling concept. Especially the short-time stationarity assumption is contradictory to the nature of speech which often looks more like a concatenation of transients than a concatenation of stationary segments. In order to overcome these fundamental weaknesses a new line of speeech recognition systems is currently being developed that avoids the modeling step all together and does recognition straight from the data by the application of template matching. This avoids the step of imperfect modeling and at the same time itis in line with recent psycholinguistic findings that claim that many individual traces of speech fragments are permanently stored in memory.

Template based systems require that the full database is accessible at recognition time; which thanks to further increases in hardware performance is almost within reach. However, template based recognition has fundamental weaknesses as well: it relies on the score of one or a few examples only to compute a distance score.

In this presentation we will compare the pro{\textquoteright}s and con{\textquoteright}s of HMM and template based recognition. Both of the them could not exist without the availability of large corpora of speech. However, the way in which these corpora are used in an actual recognition system are drastically different for both methods.

}, author = {Dirk Van Compernolle} } @article {180, title = {Gevarieerde, natuurlijke intonatie voor difoonsynthese}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Tekst-naar-spraaksoftware die gebaseerd is op unit-selectie heeft als belangrijk voordeel dat de prosodie voldoende gevarieerd is. Die is immers direct afkomstig uit spraak van een menselijke spreker. Regelgebaseerde systemen kunnen in vergelijking hiermee wel wat {\textquoteright}houterig{\textquoteright} klinken: de regels produceren elke keer hetzelfde deuntje. Het is echter geen kwestie van alles of niets. Ook in klassieke difoonsynthese kan voor de beregeling van duur en melodie gespiekt worden bij een echte spreker. In deze lezing bespreek ik een recente - en nog enigszins experimentele - toevoeging aan de tekst-naar-spraaksoftware van Fluency, die, waar mogelijk, een zin of deelzin voorziet van een passende melodie uit een corpus van natuurlijke spraak.

}, author = {Arthur Dirksen} } @article {182, title = {How do alaryngeal speakers convey glottal stops?}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

To convey glottal stops, laryngeal speakers control the degree of constriction at the larynx. Laryngectomy {\textendash} usually necessitated by laryngeal cancer {\textendash} involves surgical removal of the larynx. The new voice source (neo-glottis) is formed by the mucosa and muscles situated at the entrance to the esophagus (foodpipe). Control over the neo-glottis in these tracheo-esophageal (TE) speakers, might influence attempts to convey glottal stops accurately. This study investigated how TE speakers realize glottal stops in abutting words that end and begin with the same vowel. Acoustic analyses showed that TE speakers use different strategies, most notably the insertion of glides (/w/; /j/). Listeners rated the TE speakers{\textquoteright} attempts to convey {\textquoteleft}glottal{\textquoteright} stops less favourably than the control speakers{\textquoteright} glottal stops. The TE speakers{\textquoteright} acoustic realizations that deviated most from what would normally be expected, received the least favourable ratings.

}, author = {Maya van Rossum} } @article {186, title = {Identifying Linguistic Structure in the Aggregate Analysis of Dialect Pronunciation}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Computational dialectometry is a multidisciplinary field that uses quantitative methods in order to measure linguistic differences between the dialects. The distances between the dialects are measured at different levels (phonetic, lexical, syntactic) by aggregating over the entire data set. These aggregate analyses do not expose the underlying linguistic structure, i.e. the specific linguistic elements that contributed to the differences between the dialects. The aim of the work presented here is to extract the linguistic structure from the aggregate analysis of Bulgarian dialects carried out on the basis of word pronunciations. The method is based on the identification of regular sound correspondences and is for the first time applied in dialectometry in order to extract linguistic structure from the aggregate analysis. All the analyses are based on the transcriptions of 117 words collected from 84 sites equally distributed over the Bulgarian dialect area. The results have shown that identification of regular sound correspondences can be successfully applied in the task of identifying linguistic structure in the aggregate analysis of dialects based on word pronunciation.

}, author = {Jelena Prokic} } @article {177, title = {Iets over rhythme en timing in NL en GB}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Mijn definitie van rhythme luidt: het {\textquoteleft}rappen{\textquoteright}, binnen een psychologisch/neurologisch praesens van {\textpm} 2-5 seconden, van motorische eenheden (h.l. syllabes) in (hierarchie{\"e}n van) MOON, TROchee, jamBOS, (+)DACtylus, (+)amPHIbrach(+) en anaPEST(+).

(De + eveneens zwakke syllabe aanduidend, komt dit neer op 11 mogelijke {\textquoteleft}voeten{\textquoteright}. {\textquoteleft}RAPpen{\textquoteright} = groeperen in overeenstemming met een Rhythmisch Alternatie Principe inhoudende: niet meer dan 2 zwakkeren tussen Sterkeren en niet meer dan 1 aan begin en eind van locutie).

Deze theorie laat zich voor GB illustreren in (1), voor NL in (2): zelfde scandering (maar andere timing).

(1) the secretary for education was at the front door, not in the living-room.

(2) het vreselijkste gesodemieter was met de m.e., niet met de kleuterjuf.

Vervolgens de vraag hoe de beschrijving voor GB/NL te voltooien.

Eerdere pogingen tot beantwoording van deze vraag o.m. in hfdst. 8 van mijn Indispensable Foundation (1990), afscheidscollege (2000), artikelen in Festschrift Barentsen (ed. Honselaar e.a.) (2003) en Lacus Forum (2004/5/6).

}, author = {Lucas van Buuren} } @article {188, title = {JASMIN-CGN: Uitbreiding van het CGN met spraak van Jongeren, Anderstaligen en Senioren}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Large speech corpora constitute an indispensable resource for conducting research in speech processing and for developing real-life speech applications. In 2004 the Spoken Dutch Corpus (Corpus Gesproken Nederlands {\textendash} CGN: a corpus of standard Dutch as spoken by adult natives in the Netherlands and Flanders) became available. Owing to budget constraints, CGN does not include speech of children, non-natives, elderly people and recordings of speech produced in human-machine interactions. Since such recordings would be extremely useful for conducting research and for developing HLT applications for these specific groups of speakers of Dutch, a project was started to extend CGN by collecting a corpus of contemporary Dutch as spoken by children of different age groups, non-natives with different mother tongues and elderly people in the Netherlands and Flanders (JASMIN-CGN). In addition, in this project speech material will be collected in a communication setting that was not envisaged in CGN: human-machine interaction. One third of the data will be collected in Flanders and two thirds in the Netherlands. In this talk I will discuss the rationale of the project, the corpus design, the speech material, the procedure and the use that can be made of the results of this project.

}, author = {Olga van Herwijnen and Catia Cucchiarini} } @article {189, title = {"Landgenooten..." Verbeterde toegang tot historische toespraken}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het CHoral project heeft tot doel om technologie te ontwikkelen ter verbetering van de toegang tot historische audiocollecties. Via spraakherkenning proberen we audio-archieven om te zetten in tekst, waardoor het mogelijk wordt om de audio te doorzoeken op woordniveau. Relevante fragmenten kunnen vervolgens direct worden beluisterd. Het automatisch verwerken van historische gesproken documenten is lastig, omdat de audiokwaliteit vaak slecht is, en de spreekstijl en het woordgebruik ouderwets zijn. Dit leidt tot een mismatch met bestaande akoestische modellen en taalmodellen, die zijn ontwikkeld op het nieuwsdomein.

In deze presentatie willen we ons onderzoek introduceren aan de hand van experimenten op een specifieke, historische audiocollectie: de toespraken van Koningin Wilhelmina uitgezonden op Radio Oranje tijdens de Tweede Wereldoorlog. Deze collectie bestaat niet alleen uit audio; alle toespraken zijn tevens volledig uitgeschreven. Daarom was het mogelijk om door oplijning van de audio met de teksten tot een index op woordniveau te komen. In een demo zullen we laten zien dat - met behulp van deze index - online gezocht kan worden in de audio en de tekst als ondertiteling bij de audio kan worden gepresenteerd.

}, author = {Willemijn Heeren and Laurens van der Werff} } @article {344, title = {Methodologies for improving the g2p conversion of Dutch names}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Names pose particular problems for grapheme-to-phoneme (g2p) converters. This is due to their non-standard orthography caused by foreign origin or fossilisation of older spelling forms. In the Autonomata project a variety of techniques is studied to improve the g2p conversion of Dutch names, more specifically: first names, second names, street names and town names. In Autonomata, a standard g2p converter is augmented with a name-specific phoneme-to-phoneme (p2p) converter that captures the peculiarities of names. Based on large collections of names with a manually verified phonetic transcription, the p2p is trained with the specific information it requires. Various inductive and deductive approaches are studied to achive this goal. We will exemplify our approach by showing results on the g2p of Dutch first names.

Autonomata is carried out in the framework of the STEVIN-programme.

Partners in the project are the Radboud University Nijmegen, Ghent University, Utrecht University, Nuance, and TeleAtlas.

}, author = {Henk van den Heuvel} } @article {338, title = {Modified repeats: one method for asserting primary rights from second position}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

This presentation examines one practice speakers have for confirming when confirmation was not otherwise relevant. The data are a collection taken from video and audio recordings of spontaneous face-to-face and telephone conversations between family members and friends. The practice I analyze here involves a speaker repeating an assertion previously made by another speaker in modified form with stress on the copula/auxiliary. It is argued that these modified repeats work to undermine the first speaker{\textquoteright}s default ownership and rights over the claim being made and instead assert the primacy of the second speaker{\textquoteright}s rights to make the statement.

Two types of modified repeats are identified: partial and full. Though both involve competing for primacy of the claim, they occur in distinct sequential environments: the former are generally positioned after a first claim was epistemically downgraded whereas the latter are positioned following initial claims that were offered straightforwardly, without downgrading.

}, author = {Tanya Stivers} } @article {341, title = {Morphological information and acoustic duration in Dutch compounds}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Recent literature demonstrates that articulatory salience in speech (e.g. acoustic duration and loudness) is sensitive to the amount of information carried by phonemes, syllables and words. The more predictable (i.e. less informative) a linguistic unit is in its lexical or phonological environment, the less salient its realization. Examples of this phenomenon, especially common in spontaneous speech, include acoustic reduction of highly frequent functional words, durational shortening or deletion of predictable discourse markers, and longer articulation of phonemes with higher contribution to word recognition.

We tested whether the amount of information supplied by morphological units adds to other (phonetic, prosodic and lexical) domains of predictability and modulates the acoustic duration of affixes. This research focused on the interfixes -s- or -e(n)- in Dutch compounds. The selection of the interfix is not determined by rules, but depends on probabilistic characteristics of the left and right constituent families (sets of compounds sharing the left/right constituent with the target). The goal was then to detect the impact of families in the interfix articulation.

The study was based on two datasets collected from the "Library of the Blind" component of the Spoken Dutch Corpus: 1156 tokens containing the interfix -s- and 787 tokens containing the interfix -e(n)-. The dependent variables of the study were acoustic durations of the interfixes, and, for the interfix -e(n)-, the number of segments in the interfix. The acoustic duration of phonemes was determined with the help of an ASR, while the presence of [n] in the interfix was established by two phoneticians. We report the correlation of acoustic salience of the interfix and the amount of information in both positional families, as well as the distribution of interfixes in the left family. Moreover, we demonstrate that a number of durational effects induced by phonetic and prosodic factors and so far only observed under laboratory conditions is also found in the genre of lively read aloud speech.

}, author = {Victor Kuperman} } @article {343, title = {Multimedia retrieval}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

The number of digital multimedia collections is growing rapidly. Due to the ever declining costs of recording audio and video, and due to improved preservation technology, huge data sets containing text, audio, video and images are created, both by professionals and non-professionals.

The reasons for building up these collections may vary. Organisations such as broadcast companies consider the production and publishing of multimedia data as their core business. Within these companies there is a tendency to search for "means" to get more out the produced content: a nice example is the added basic search functionality in the "uitzending gemist" collection. Other organisations are merely interested in obtaining insight in the internal information flow, for internal (corporate meetings that are recorded) or public use (council meetings that are recorded and webcasted). A number of organisations in the Netherlands administer spoken-word archives: recordings of spoken interviews and testimonies on diverging topics such as retrospective narratives, eye witness reports and historical site descriptions. Modern variants of these spoken-word archives are archives of {\textquoteright}Podcasts{\textquoteright}, {\textquoteright}Vodcasts{\textquoteright} (video podcasts) and {\textquoteright}Vlogs{\textquoteright} (video weblog), created in order to share {\textquoteright}home-made{\textquoteright} information with "the world".

The Human Media Interaction (HMI) group is set within the computer science department and the Centre of Telematics and Information Technology (CTIT) and has a long history in multimedia retrieval research. Especially the use of audio mining and speech recognition technology in multimedia retrieval (SDR or spoken document retrieval) is an important research focus.

The presentation is focussed on the possibility to index and access spoken archives via the use of automatic speech recognition technology. The index, based on the imperfect recognition results is then used to search the document collection and relate individual documents to other information sources in (potentially) any media format. We will discuss the running demo application in which the recognised speech of the 8 o{\textquoteright}clock news is used to connect news items with 5 (most) similar newspaper documents from the Twente News Corpus.

}, author = {Arjan van Hessen} } @article {184, title = {Noord-Russische vraagintonatie: Een brede hoed voor brede focus?}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Hoewel de Russische dialecten in verhouding weinig van elkaar verschillen, is de onderlinge variatie op het gebied van de prosodie aanmerkelijk. Een opvallend intonationeel verschil tussen het Standaard-Russisch en het Noord-Russische dialect van Varzoega, een dorpje aan de Witte Zee is een "brede hoed"-patroon in ja/nee-vragen in het dialect. Waar in het Standaard-Russisch de toonhoogte onmiddellijk na de geaccentueerde lettergreep aan een sterke daling begint - LH*L volgens Od{\'e}{\textquoteright}s ToRI (Transcription of Russian Intonation) - kent dit dialect, naast ditzelfde patroon, de mogelijkheid om de daling pas te beginnen na de beklemtoonde syllabe van het laatste woord van de uiting. De eerste analyses doen vermoeden dat dit onderscheid in het dialect bepaald wordt door een verschil in focusdomein. Dit zou betekenen dat sprekers van dit dialect, in tegenstelling tot sprekers van het Standaard-Russisch, in vraagzinnen eenduidig het verschil aan kunnen geven tussen brede en nauwe focus.

}, author = {Margje Post} } @article {178, title = {Over het perceptieve belang van prosodie bij oude en jonge luisteraars}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In een eerdere bijdrage (Dag van de Fonetiek 2003) heb ik laten zien dat een regelmatige {\textquoteright}timing{\textquoteright} van woorden in een woordenlijst leidt tot snellere reactietijden in een foneem-detectie-taak. Temporele regelmaat maakt blijkbaar dat luisteraars de gesproken woorden sneller kunnen herkennen. Dat eerdere onderzoek was uitgevoerd met jong-volwassen luisteraars. We voorspellen dat het perceptieve belang van (temporele) prosodie voor oudere luisteraars nog groter is dan voor jongeren, ter compensatie van auditieve en cognitieve handicaps bij eerstgenoemden. Een herhaling van een eerder experiment, nu met oudere luisteraars, toont wisselende resultaten. Temporele regelmaat heeft alleen effect bij jambische woorden, en niet bij trochee{\"e}n. Oudere luisteraars lijken dus meer gevoelig voor de metrische structuur van het doelwoord zelf, dan voor de al dan niet regelmatige timing van de woorden in een lijst.

}, author = {Hugo Quen{\'e}} } @article {179, title = {Prominent Words as Anchors for TRP Projection}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het effect van het laatste geaccentueerde woord van een uiting op de projectie van (potentiele) beurtwisselingsmomenten (TRPs) is onderzocht met twee reactietijd experimenten. Proefpersonen werd gevraagd met minimale responsen te reageren op vooraf opgenomen dialogen en gemanipuleerde, verarmde versies van deze dialogen. De eerste manipulatie, de {\textquoteright}gehumde{\textquoteright} stimulusvariant, bevatte enkel intonatie en timing informatie. In de tweede manupulatie, de {\textquoteright}gefluisterde{\textquoteright} stimulusvariant, ontbrak juist alle periodische informatie. De distributie van de reactietijden van deze uitgelokte responsen was vergelijkbaar met die van natuurlijke beurtwisselingen. Het bleek dat de aanwezigheid van niet prominente woorden voor een uiting-einde de timing van zowel de natuurlijke als de uitgelokte responsen versnelt, zelfs in de {\textquoteright}gefluisterde{\textquoteright} versie. Dit suggereert dat met de aanwezigheid van een prominent, informatief woord de projectie van een opkomend uitingseinde begint. De aanwezigheid van niet prominente, voorspelbare spraak helpt de luisteraars vervolgens om hun voorspelling van het uitingseinde exact te timen.

}, author = {Wieneke Wesseling and Rob van Son} } @article {183, title = {Spoken word processing and the effect of phonemic mismatch in aphasia and dyslexia}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Initial lexical activation in typical populations is a direct reflection of the goodness of fit between the presented stimulus and the intended target. In this study, lexical activation was investigated upon presentation of polysyllabic pseudowords (such as procodile) for two atypical populations: aphasic and dyslexic adults. Results of an auditory lexical decision task supported the hypothesis that sensitivity to phonemic mismatch was lower in both atypical populations, compared to their respective control groups. However, whereas the dyslexic participants were outperformed by their controls only for minimal word-initial mismatches, lexical decision accuracy of the aphasic participants was lower across the board. Both atypical groups were affected by the acoustic/perceptual difference between the changed and canonical word form. The results are discussed in terms of lexical access and the role of verbal working memory.

}, author = {Esther Janse and Elise de Bree and Susanne Brouwer} } @article {181, title = {Stemhebbend-stemloosheid in Nederlandse tracheoesofageale sprekers}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Bij keelkanker is een totale laryngectomie vaak de laatste kans. Deze operatie verandert de anatomie en fysiologie van het spraakkanaal drastisch. Door de introductie van de stemprothese is de verstaanbaarheid van deze patienten verrassend goed, maar het is nog steeds veel slechter dan bij normale spraak. Een van de meest voorkomende problemen is de verwarring tussen stemhebbende en stemloze plosieven en fricatieven. Het is interessant te weten welke akoestische cues sprekers gebruiken die wel een correct onderscheid maken en of deze cues verschillen van normale sprekers. Daarom hebben wij metingen verricht in Praat op de goed waargenomen plosieven en fricatieven, waarbij we oa hebben gekeken naar lengte van de klinkers, sluitingsduur, burst en fonatie offset na een klinker. Eerste resultaten laten een verschil zien tussen labiale en alveolaire plosieven en het feit dat patienten meer cues gebruiken dan normale sprekers. Ook lange fonatie offset lijkt een probleem. Patienten lijken secundaire cues te gebruiken als compensatie voor de verminderde controle over hun {\textquoteleft}neoglottis{\textquoteright}.

}, author = {Petra Jongmans} } @article {345, title = {Text-Induced spelling correction}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In this talk we present an overview of our PhD-work on Text-Induced Spelling Correction. The work presents a novel approximate string matching algorithm for indexed text search. The algorithm is based on a hashing function which uniquely identifies strings composed of the same subsets of characters, i.e. anagrams, by means of a numeric value. The numeric value allows for searching for character strings differing from a particular string by a predefined number of characters. This forms an ideal basis for a novel spelling error detection and correction algorithm, which we call Text-Induced Spelling Correction or TISC. Our system uses nothing but lexical and word cooccurrence information derived from a corpus, a very large collection of texts in a particular language, to perform context-sensitive spelling error correction of non-words. Non-words are word strings produced unintentionally by a typist that deviate from a convention about how words are to be spelled in order to be considered real-words within the language. We will highlight the differences between our character-based similarity key and the language specific similarity keys as employed in, for instance, the well-known Soundex and Phonix phonetic spelling systems. The spelling error detection and correction mechanism we propose uses not only isolated word information, but also context information. It performs context-sensitive error correction by deriving useful knowledge from the text to be spelling checked. This enables our system to correct typos for which it does not have the correct word in its dictionary. Apart from this, some typos are ambiguous in that they may resolve into two or more different words. We investigate in depth the relationship between a typo and its context and propose a new algorithm for ranking correction candidates that specifically makes use of the typo{\textquoteright}s context.

We further discuss the tension between the wish of developers of spelling correction systems of catering for phonetic spelling errors and the cost of this in terms of the system{\textquoteright}s precision. Extensive evaluations on both English and Dutch allow us to illustrate this by discussing the performance of Aspell and the Microsoft Proofing Tools in this regard.

}, author = {Martin Reynaert} } @article {187, title = {Vowel pronunciation in Swedish dialects}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

At the University of Groningen computational methods are used to measure dialect distances and classify dialects. In my PhD-project the focus will be on pronunciation of vowels in Swedish dialects. The data comes from 105 Swedish sites with 12 speakers from each site. The speakers represent 4 groups: elderly women, elderly men, young women and young men. The data exist both as acoustic files and transcriptions, and both will be used for analyses. One aim is to analyse the transcriptions using different feature systems, since the feature systems used so far in Groningen have not led to an improve ment of the results compared to a simple phone representation. The relationship between acoustics and transcriptions will be analysed as well as the relationships between the 4 speaker groups. Cluster analysis and multidimensional scaling are used for classifying the dialects and results are shown on dialect maps.

}, author = {Therese Leinonen} } @article {193, title = {Anticipatie van het einde van een conversationele "turn"}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Luisteraars in een conversatie moeten niet alleen nadenken over wat ze van plan zijn te gaan zeggen, maar ook wanneer ze dat gaan zeggen. Luisteraars blijken erg goed te zijn in het anticiperen van het moment dat de huidige spreker uitgesproken is. Langs deze weg verhinderen sprekers dat er te veel pauzes of overlappende spraak ontstaat.

Wij hebben onderzocht welke informatiebron(nen) een luisteraar gebruikt bij het voorspellen van het einde van een {\textquoteleft}turn{\textquoteright}. Twee hoofdkandidaten zijn: a) lexico-syntactische informatie, en b) intonatie. Wij hebben in een on-line experiment fragmenten uit echte conversaties aan proefpersonen aangeboden, waarbij wij intonatie, lexico-syntactische informatie, of beide uit het signaal verwijderd hebben.

Uit de resultaten bleek eenduidig dat lexico-syntactische informatie zowel noodzakelijk als voldoende is voor het voorspellen van het einde van een {\textquoteleft}turn{\textquoteright}. Intonatie bleek daarentegen noch noodzakelijk noch voldoende te zijn.

}, author = {Jan Peter de Ruiter and Holger Mitterer and Nick Enfield} } @article {200, title = {Automatische detectie van "articulatorische" eigenschappen}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Gedurende de laatste jaren heeft onderzoek aan automatische spraakherkenning een grote verbetering laten zien van de kwaliteit van de herkenresultaten. Toch blijft een automatische herkenner qua prestatie in het algemeen ver achter bij de menselijke luisteraar. Het grote verschil tussen machinale en menselijke prestatie kan voor een deel worden verkleind door het inzetten nog grotere training spraakcorpora (bijvoorbeeld duizenden uren spraak voor de training van akoestische modellen) en door geavanceerdere adaptatietechnieken en ruisrobuustheid, maar het wordt algemeen betwijfeld of deze werkwijze uiteindelijk het verschil substantieel zal verkleinen. Een veelbelovende alternatieve benadering die nu op verschillende plaatsen wordt onderzocht is het beter gebruik maken van de gedetailleerde informatie in het signaal zelf ({\textquoteleft}fine phonetic details{\textquoteright}) voor de decoding van het spraaksignaal. Een van de manieren om potentieel nuttige informatie uit het signaal te schatten is gebruik te maken van automatische detectoren van articulatorische kenmerken. We zullen voorbeelden van zulke detectoren laten zien en een aantal toepassingen bespreken.

}, author = {Louis ten Bosch} } @article {198, title = {De perceptieve ontwikkeling van nonnative foneemcontrasten}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In mijn presentatie wil ik een (kort) overzicht geven van de belangrijkste bevindingen uit mijn promotie-onderzoek. Dit onderzoek richtte zich op de vraag hoe de perceptie van een nonnative foneemcontrast zich ontwikkelt bij verschillende leeftijdsgroepen.

Hierbij ging ik uit van twee hypotheses. Hypothese 1,{\textquoteleft}Acquired Distinctiveness{\textquoteright}, stelt dat luisteraars verschillen binnen of tussen nieuwe categorie{\"e}n aanvankelijk slecht horen. Door training leert de luisteraar klanken onderscheiden die verschillend worden gecategoriseerd. Hypothese 2, {\textquoteleft}Acquired Similarity{\textquoteright}, stelt dat de luisteraar verschillen binnen en tussen categorie{\"e}n aanvankelijk goed kan onderscheiden. Door training blijft enkel het onderscheid tussen klanken die verschillend worden gecategoriseerd overeind.

De resultaten van mijn onderzoek naar de waarneming van het Engelse /Θ-s/ en het Finse /t-t:/ contrast lieten zien dat zowel Nederlandse volwassenen als 12-jarigen een contrast leren volgens Hypothese 1. Bovendien vereist dit leerproces veel relevante taalervaring; m{\'e}{\'e}r dan eerder onderzoek met korte trainingsparadigma{\textquoteright}s suggereert.

}, author = {Willemijn Heeren} } @article {199, title = {De rol van spraakgebaren in de shadowing-taak}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Sommige theorie{\"e}n van spraakherkenning nemen aan dat elk spraaksignaal wordt geanalyseerd in termen van spraakgebaren. Deze theorie{\"e}n lijken te worden ondersteund door experimenten met de shadowing taak. De shadowing taak (het snel naspreken van een aantal lettergrepen) leidt tot vrij snelle reactietijden, die ook nauwelijks (en veel minder dan bij andere taken) toenemen als het aantal typen stimuli in een experiment toeneemt. Stimulus en antwoord komen echter niet alleen qua spraakgebaar overeen, ze zijn ook lexicaal compatibel. Om te onderzoeken wat precies voor de snelle reactietijden verantwoordelijk is, hebben wij drie soorten stimuli aangeboden, waarbij een lexicale overeenkomst tussen stimulus en antwoord bestaat, maar de spraakgebaren verschillen: 1) nonwoorden die met een huig- of tong-/r/ beginnen, 2) nonwoorden met coda cluster met en zonder schwa-epenthese uitgesproken, en 3), nonwoorden die met een stemhebbende plofklank begonnen, die verschillden in de mate van pre-voicing. De vraag is of sprekers het fonetisch detail van de stimulus volgen. Zo niet, leidt deze mismatch tot tragere reacties? Onze eerste analyses wijzen erop dat luisteraars zelden het fonetisch detail volgen en dat dit niet noodzakelijkerwijs leidt tot een tragere reactie. Het lijkt dus niet nodig om een speciale status voor spraakgebaren aan te nemen.

}, author = {Holger Mitterer and Mirjam Ernestus} } @article {205, title = {De rol van volgende context bij het verstaan van gereduceerde woorden}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Eerder onderzoek heeft aangetoond dat woorden meer gereduceerd worden als ze beter voorspelbaar zijn gegeven het volgende woord. Wij onderzochten de rol van deze voorspelbaarheid bij het verstaan van gereduceerde woorden. Proefpersonen kregen zinnetjes van vier woorden te horen, waarin het derde woord gereduceerd was. In de ene conditie vormde het derde woord samen met het vierde een idiomatische expressie (bv. {\textquoteright}vermoorde onschuld{\textquoteright}), en in de andere conditie niet (bv. {\textquoteright}vermoorde oppas{\textquoteright}). Het derde woord was in beide condities even gereduceerd. Proefpersonen drukten op een knop zodra ze het gereduceerde woord verstaan hadden. Analyses van de reactietijden laten zien dat de gereduceerde woorden sneller verstaan werden als ze beter voorspelbaar waren op basis van het volgende woord. Ook werden ze sneller verstaan naarmate de frequentie van het volgende woord hoger was. Dit laat zien dat de volgende context een belangrijke rol speelt bij het verstaan van gereduceerde woordvormen.

}, author = {Mark Pluymaekers and Mirjam Ernestus and H. Baayen} } @article {202, title = {Evaluatie van verschillende methoden voor het bepalen van de spraakverstaanvaardigheidsdrempel}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Voor het meten van de spraakverstaanbaarheid bestaat al jarenlang een standaardtest waarbij eenvoudige Nederlandse zinnen worden aangeboden tegen een achtergrond van ruis. In een adaptieve procedure wordt het geluidniveau van de zinnen steeds verhoogd of verlaagd zodat de luisteraar een zin nog net kan verstaan. Gemiddeld over een aantal zinnen wordt de spraakverstaanvaardigheidsdrempel (SRT) verkregen. In de bestaande procedure gebeurt het scoren van de verstaanbaarheid op hele zinnen (alle woorden correct) en is een proefleider nodig om de test af te nemen. We willen een volledig automatische testprocedure ontwikkelen. In eerste instantie is daarom onderzocht in hoeverre het mogelijk is alleen de belangrijkste woorden (keywords) van een zin te scoren. Met het bestaande zinsmateriaal ({\textquoteright}Plomp-zinnen{\textquoteright}) zijn verschillende luisterexperimenten uitgevoerd, waarbij we de scoringsmethode hebben gevarieerd. De eerste resultaten laten zien dat het scoren van alleen keywords i.p.v. hele zinnen dezelfde SRT op kan leveren, en het discriminerend vermogen van de test behouden blijft.

}, author = {Hayo Terband and Rob Drullman and Gerrit Bloothooft} } @article {195, title = {Het wetenschappelijk werk van dr. Paula Smeele, 1961-2005}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Dit jaar is Paula Smeele overleden. Deze presentatie geeft een overzicht van haar wetenschappelijke carriere die zij als letterkundige en foneticus heeft opgebouwd. Dit zal gebeuren aan de hand van het werk dat ze verricht heeft in Nederland en daarbuiten: Leiden, Utrecht, Eindhoven, Delft, Santa Cruz, Seattle en Soesterberg. Het brede spectrum aan onderwerpen waar zij aan heeft bijgedragen laat zien dat we een waardevolle collega hebben verloren.

}, author = {David van Leeuwen} } @article {203, title = {IMIX: Interactive Multimodal Information Extraction}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

IMIX is een NWO-onderzoeksprogramma dat spraak- en taaltechnologie combineert. Onderzoekers van vraag-antwoordsystemen, dialoogmanagement en multimodale interactie werken samen in IMIX. De onderzoeksresultaten worden ge{\"\i}mplementeerd in een demonstrator die zich richt op het medische informatiedomein. Gebruikers kunnen vragen intypen of inspreken. Het systeem bepaalt of er een vraag is gesteld, wat voor soort vraag er gesteld is, en of de vraag doorgegeven kan worden aan het vraag-antwoordsysteem. Als het systeem denkt dat de vraag te vaag is om te beantwoorden, zal het aan de gebruiker vragen wat hij bedoelt. In alle andere gevallen wordt de vraag geanalyseerd en wordt er een antwoord opgeleverd. Dat antwoord wordt eerst nog bewerkt door een outputmodule die het gemakkelijker maakt om de informatie te begrijpen en daartoe eventueel ook plaatjes toevoegt. Vervolgens kan de gebruiker vervolgvragen stellen. Dat kan gebeuren met spraak- of tekstinvoer, maar ook door met een pen op het scherm plaatjes aan te wijzen en daarbij vragen te stellen, zoals bijv. {\textquotedblleft}wat is dat?{\textquotedblright}. De presentatie zal eerst een algemeen overzicht geven van het onderzoek in IMIX. Ook zal de demonstrator getoond worden. Daarna zal dieper ingegaan worden op het onderzoek naar spraakherkenning dat in het kader van IMIX wordt gedaan.

}, author = {Johan de Veth and Annika Hamalainen and Els den Os} } @article {201, title = {Naam maken met AUTONOMATA}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De correcte uitspraak van namen is een groot probleem voor huidige automatische spraakherkenners en spraaksynthese-systemen. Namen voldoen namelijk veelal niet aan de gangbare grafeem-naar-foneem-regels van een taal. Dit komt hoofdzakelijk door gefossiliseerde spellingsvormen en buitenlandse origines van namen. In het project AUTONOMATA proberen we deze conversie op twee manieren te verbeteren: 1. We trainen we een machine om de opgeleverde foneemtranscripties van een standaard g2p-converter te corrigeren voor namen. Vervolgens is de tandem van standaard g2p-omzetter en naamspecifieke machine dan in staat veel betere foneemtranscripties van ongeziene namen te produceren dan de g2p-omzetter alleen. 2. 120 sprekers zullen ieder een serie van namen uitspreken en deze zullen een (brede) foneemtranscriptie krijgen. Zo hopen we een corpus op te bouwen dat in vervolgprojecten kan worden gebruikt om zicht te krijgen op uitspraakvarianten van namen. Dit project wordt in parallelle sporen zowel voor het Nederlands als het Vlaams uitgevoerd in het kader van het STEVIN-programma. Partners zijn de universiteiten van Gent, Nijmegen en Utrecht, en ScanSoft.

}, author = {Nanneke Konings and Henk van den Heuvel} } @article {204, title = {Perceptie van gereduceerde woorden: Een uitdaging voor de tweetalige luisteraar?}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Luisteren naar een tweede taal (T2) is niet eenvoudig. Dat geldt zeker voor continue spraak, die vaak reducties bevat als het wegvallen van /t/ in {\textquoteleft}Postbank{\textquoteright}. Dit confronteert T2 luisteraars met onbekende vormen. Reducties die eveneens in de moedertaal (T1) voorkomen zijn echter (mogelijk) niet problematisch voor T2 luisteraars. In dit onderzoek is gekeken naar de waarneming door Duits-Nederlands tweetaligen van /t/-reductie op het woordeinde{\textemdash} een reductiefenomeen dat ook in het Duits voorkomt. In twee experimenten beslisten luisteraars of het targetwoord in een /t/ eindigde of niet. Vijf verschillende soorten /t/, van compleet geproduceerd tot volledig weggevallen, werden gepresenteerd in twee akoestische contexten: na /n/ (/t/-reductie is ongebruikelijk, leert eerder onderzoek) en na /s/ (/t/-reductie komt vaak voor). In Experiment 1 waren de targetwoorden werkwoorden (e.g. ren, kus) en de grammatica van de zin (beginnend met ik of zij) voorspelde of het targetwoord al dan niet moest eindigen op een /t/. In Experiment 2 resulteerde het interpreteren van een /t/ in een w{\'e}l (charmant) of n{\'\i}et bestaand woord (kanon[t]). T2 luisteraars hielden, net als T1 luisteraars, rekening met alle vier factoren: akoestische context (/n/ of /s/), het soort /t/-reductie, grammaticale en lexicale constraints. T2 luisteraars gaven echter vaker aan een /t/ te horen dan Nederlandse luisteraars. Uit verder onderzoek moet blijken wat hiervan de oorzaak is: een verschil in /t/-reductie tussen Duits en Nederlands?

}, author = {Annelie Tuinman and Holger Mitterer and Anne Cutler} } @article {192, title = {Stembeschrijvingen door het publiek van de Dag van de Fonetiek 2003}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Op de Dag van de Fonetiek in 2003 hebben wij een presentatie gegeven over auditieve confrontaties (sprekerherkenning door getuigen d.m.v. een line-up) zoals die door het Nederlands Forensisch Instituut worden uitgevoerd.

Zodra de vraag ons bereikt om een auditieve confrontatie te organiseren en de zaak hier inderdaad voor in aanmerking komt, gaan wij zo spoedig mogelijk de getuige interviewen om een zo accuraat mogelijke stem- en spraakbeschrijving van de dader te verkrijgen. De vraag is echter in hoeverre zo{\textquoteright}n interview bijdraagt aan een waarheidsgetrouwe stembeschrijving en/of aan een goede inschatting van de kans van slagen van de auditieve confrontatie. Daarom hebben we in 2003 twee spraakfragmenten laten horen en het aanwezige publiek een stembeschrijvingsformulier laten invullen. Tot slot is ook een auditieve confrontatie aangeboden en de mensen in het publiek gevraagd of zij {\'e}{\'e}n van de zes stemmen in de line-up herkenden als de eerder aangeboden stem.

De resultaten van dit kleine experiment en de praktische implicaties ervan is wat we vandaag zullen presenteren.

}, author = {Tina Cambier-Langeveld and Jos Vermeulen} } @article {197, title = {Uitspraak trainen met een computer: is dat mogelijk?}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Om antwoord te kunnen geven op deze vraag hebben we allereerst onderzocht welke (segmentele) fouten gemaakt worden door buitenlanders die Nederlands spreken. Van deze fouten hebben we er 11 geselecteerd op basis van de volgende criteria: frequent, persistent, en hinderlijk voor communicatie. Vervolgens is een systeem ontwikkeld dat automatisch kan detecteren of deze 11 doelklanken correct of foutief worden uitgesproken, en hierover feedback geeft. Dit systeem is gebruikt door 15 taalleerders, naast hun reguliere lesprogramma. Deze taalleerders moesten zinnen en losse woorden voorlezen, en kregen hierbij feedback over de uitspraak van de 11 doelklanken. Daarnaast was er een controlegroep van 15 taalleerders die dit systeem niet gebruikten. De resultaten laten zien dat er voor de gebruikers van dit systeem een sterke afname is van het aantal uitspraakfouten voor de 11 doelklanken.

}, author = {Ambra Neri and Catia Cucchiarini and Helmer Strik} } @article {194, title = {Vroege voorbereiding van experimenteel uitgelokte minimale responsen}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een belangrijke taak voor de deelnemers aan een conversatie, is het identificeren van beurtwisselingsmomenten, het moment waarop de spreker uitgesproken is en het mogelijk is voor de luisteraar om de beurt over te nemen. In een reactietijd-experiment, is proefpersonen gevraagd om met {\textquoteright}minimale responsen{\textquoteright} te reageren op vooraf opgenomen dialogen en een gemanipuleerde versies van deze dialogen, die slechts toonhoogte en pauze informatie bevatten. Voor deze verarmde, {\textquoteright}gehumde{\textquoteright}, versies waren reactietijden slechts langer voor neutrale {\textquoteright}midden{\textquoteright} eindtonen. We zien dit als bewijs dat hoge en lage eindtonen in veel gevallen voldoende zijnvoor onze proefpersonen om het einde van uitingen te kunnen voorspellen. In alle gevallen waren in de gehumde versie de varianties groter. Met behulp van een vereenvoudigd reactietijd model kunnen we concluderen dat de verwerkingstijd van de verarmde versie 10\% langer is. We vonden verder consistente aanwijzingen voor een tussenstadium in de planning en articulatie van de uitgelokte minimale responsen in de vorm van vroege bewegingen in larynx en glottus, zichtbaar op laryngografische opnamen. Dit tussenstadium vindt plaats na twee derde van de verwerkingstijd die nodig is voor de articulatie van een respons. Met behulp van het gebruikte reactietijd model kunnen we schatten dat de planning van de minimale responsies gemiddeld meer dan 300 ms voor het einde van de uiting plaatsvindt.

}, author = {Wieneke Wesseling and Rob van Son} } @article {206, title = {Watskeburt? Niets! Zo praten wij gewoon}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

"Watskeburt" zingt {\textquoteright}De Jeugd Van Tegenwoordig{\textquoteright}, en "Gijwabbedoel" schreef Jan Kuitenbrouwer een tijdje geleden. Dit zijn allebei voorbeelden van (extreme) reductie in de uitspraak van een reeks woorden, zogenaamde multi-woord expressies (MWEs). Opmerkelijk genoeg is er nog weinig onderzoek gedaan naar de uitspraak(-variatie) van deze MWEs. In ons onderzoek hebben we eerst gekeken naar het voorkomen van MWEs: Welke MWEs komen voor?; Hoe frequent?; Zijn er verschillen per spreekstijl?; etc. In het Corpus Gesproken Nederlands (CGN) vinden we bijvoorbeeld {\textquoteright}pgeement{\textquoteright}, {\textquoteright}iefal{\textquoteright}, en {\textquoteright}kweenie{\textquoteright}. Vervolgens hebben we bestudeerd hoe MWEs automatisch geselecteerd kunnen worden, wat geschikte selectiecriteria zijn. Een probleem hierbij is dat er geen (goede) definitie bestaat van MWEs in relatie tot uitspraak. De resultaten laten zien dat woorden in MWEs vaak heel anders uitgesproken worden dan dezelfde woorden in andere contexten.

}, author = {Helmer Strik} } @article {196, title = {Zijn Indonesi{\"e}rs ongevoelig voor contrastaccentuering onder het woordniveau?}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het Nederlands (en andere Germaanse talen) bestaat de mogelijkheid tot het maken van een contrastaccent op een andere dan de lexicaal beklemtoonde lettergreep, zoals in de zin We eten vandaag geen KOnijn maar TOnijn. Als we zo{\textquoteright}n uiting afbreken na het contrastwoord (We eten vandaag geen KOnijn {\textellipsis}) zal een Nederlandse luisteraar weten of de spreker de zin afmaakt met {\textellipsis}maar TOnijn of met {\textellipsis} maar toNIJN. Het Indonesisch wordt wel geanalyseerd als een taal zonder klemtoon. Indonesische sprekers lijken de toonhoogtepiek in geaccentueerde woorden op alle mogelijke plaatsen te leggen, en zij hebben perceptief geen voorkeur voor een specifieke oplijning van het H-target binnen het woord. Het Indonesisch heeft dan zinsaccent maar geen woordklemtoon. Op grond daarvan voorspellen we dat Indonesi{\"e}rs die al jaren in Nederland wonen nog steeds (tamelijk) ongevoelig zullen zijn voor contrast-accentuering onder het woordniveau. Deze hypothese hebben we getoetst in een proef met Indonesische immigranten in Nederland (van wie sommigen al tussen de 10 en de 20 jaar in ons wonen) en met moedertaalluisteraars van het Nederlands als controle-groep. De resultaten bevestigen de hypothese: waar de Nederlandse luisteraars vrijwel foutloos kiezen tussen de alternatieve voortzettingen is de keuze van de Indonesische immigranten slechts marginaal boven kans.

}, author = {Vincent van Heuven and Vera Faust} } @article {330, title = {Analogical effects on past-tense formation in L1 and L2 learners of Dutch}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

There is a simple deterministic rule for past-tense formation in Dutch. If the verbal stem in the infinitive ends in an unvoiced obstruent, the simple past suffix is -te. In all other cases, it is -de. Ernestus \& Baayen (2003,2004), however, showed that adult speakers of Dutch do not simply follow this rule. They tend to construct past tense forms by analogy with phonologically similar words in the lexicon. When analogy supports the suffix prescribed by the rule (congruent verbs), adults make less mistakes in the choice of the suffix then when analogy and the rule are in conflict (incongruent verbs). In this talk, we will present a study on the production of past-tense forms by primary school children, both L1 and L2 learners. If the difference between the congruent and incongruent verbs (the congruency effect) indeed depends on patterns of analogy in the lexicon, it should become greater when a child{\textquoteright}s vocabulary becomes larger. Dutch primary school children at the end of grades 5 to 8 (after 3 to 6 years of reading) were asked to construct the past-tense forms of congruent and incongruent verbs. The experiment showed that the congruency effect is already present in grade 5. Also, the effect becomes larger over the years. Children whose native language is not Dutch show a smaller congruency effect, which forms additional support that the congruency effect depends on vocabulary size.

}, author = {Pim Mak and Mirjam Ernestus} } @article {209, title = {Articulatorische vrijheidsgraden}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het vreemde-talenonderwijs wordt niet of nauwelijks aandacht besteed aan de fonologische systemen die de verschillende talen kenmerken. Om een betere uitspraak van een vreemde taal aan te kunnen leren is enige kennis van de fonologie dringend gewenst. Wie een vreemde taal leert en zich eenmaal realiseert welke klankonderscheidingen en -regels de vreemde taal en de eigen moedertaal van elkaar onderscheiden, zou in staat moeten zijn om deze kennis te verzilveren ten faveure van een correctere uitspraak van de vreemde taal. In mijn presentatie zal ik voorbeelden geven van klankonderscheidingen en {\textquoteright}regels in verschillende Europese talen en pleiten voor de wenselijkheid van het onderscheiden van uitspraakfouten (op basis van fonologische kenmerken, die de vrijheidsgraden van de articulatie bepalen) enerzijds en uitspraakeigenaardigheden (die binnen de fonetische tolerantiezone vallen) anderzijds.

}, author = {Marc Dupuis} } @article {215, title = {Automatische detectie van uitspraakfouten: een akoestisch-fonetische aanpak}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Om feedback te kunnen geven op de uitspraak van een buitenlander die een vreemde taal leert in een Computer-Aided Language Learning (CALL) omgeving zullen uitspraakfouten automatisch gedetecteerd moeten worden. Een veel gebruikte detectietechniek is die van de "confidence measures"; deze maten worden automatisch berekend met behulp van een automatische spraakherkenner. Een van de grootste nadelen van deze techniek is dat de detectie nauwkeurigheid te laag is. Dat kan te maken hebben met het feit dat "confidence measures" voor alle klanken op dezelfde manier berekend worden; er wordt dus niet gefocused op specifieke eigenschappen van individuele uitspraakfouten.

Wij presenteren een akoestisch-fonetische aanpak waarin we wel specifieke (namelijk akoestisch-fonetische) features gebruiken om uitspraakfouten te detecteren. We zullen ons concentreren op een frequente uitspraakfout in het Nederlands: de niet-stemhebbende velaire fricatief /x/ die foutief wordt uitgesproken als een niet-stemhebbende velaire plosief /k/. Onze experimenten laten zien dat deze akoestisch-fonetische aanpak uitspraakfouten van /x/ kan detecteren met een nauwkeurigheid die hoger is dan die van de "confidence measures".

}, author = {Khiet Truong and Helmer Strik and Catia Cucchiarini and Ambra Neri} } @article {217, title = {Compensatie voor [t]-deletie in gesproken woordherkenning}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In deze studie werd onderzocht hoe luisteraars omgaan met het wegvallen van een woordfinale [t] in fonetische contexten waarin [t]-deletie optreedt. Uit een zoektocht door het Corpus Gesproken Nederlands blijkt dat woordfinale [t] vooral vaak wegvalt tussen [s] en [b], zoals bijvoorbeeld in {\textquoteright}fees[t] bezorgen{\textquoteright}. Om een gereduceerde vorm toch te herkennen als het woord {\textquoteright}feest{\textquoteright} is compensatie voor [t]-deletie nodig. Twee woordherkenningsexperimenten werden uitgevoerd om te onderzoeken of deze compensatie het woordherkenningsproces vertraagt en in hoeverre compensatie ook optreedt als het woord ook een lexicale tegenhanger heeft zonder [t], zoals bijvoorbeeld {\textquoteright}kast/kas{\textquoteright}. De resultaten laten zien dat compensatie inderdaad tijd kost: luisteraars zijn sneller in het herkennen van meer complete vormen dan gereduceerde vormen. Dit komt overeen met {\textquoteright}gradient mapping{\textquoteright} theorieen voor woordherkenning. Ten tweede blijkt dat compensatie voor [t]-deletie inderdaad verminderd wordt als er een lexicale tegenhanger zonder [t] bestaat.

}, author = {Esther Janse} } @article {219, title = {Corpusgebaseerde analyse van graden van reductie van het suffix -lijk}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In spontane spraak komen woorden eindigend op het suffix -lijk vaak in gereduceerde vorm voor (Ernestus, 2000). Zo kan het woord "mogelijk" worden uitgesproken als "mox@k" of "mok". Uit de spontane spraak van het CGN hebben we 14 woorden die eindigen op -lijk geselecteerd. Twee transcribeurs hebben de mate van reductie geclassificeerd van 946 tokens van deze woorden, geselecteerd om de effecten van Land, Sexe en Opleidingsniveau op reductie te onderzoeken (2x2x2 design). Uit de resultaten blijkt dat Vlamingen over het algemeen minder reduceren dan Nederlanders, dat mannen meer reduceren dan vrouwen en dat in Vlaanderen hoog opgeleiden het minst reduceren. Wanneer de voorspelbaarheid van het target op basis van het voorafgaande woord in de zin hoog is of het target op niet-finale positie in de zin staat wordt het meer gereduceerd. Bij drie van de 14 targetwoorden kwam reductie van de klinker in de woordiniti{\"e}le lettergreep voor. Nederlanders blijken hier meer te reduceren dan Vlamingen.

}, author = {Karen Keune and Mirjam Ernestus and Roeland van Hout and H. Baayen} } @article {221, title = {De S-factor van de TST-centrale}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Wat moeten de foneticus en de spraaktechnoloog met een centrale voor taal- en spraaktechnologie? Het antwoord is eenvoudig: er zo snel mogelijk de weg leren kennen naar spraakgerelateerde producten. De digitale weg wel te verstaan, via www.tst.inl.nl. Op dit moment beheert de TST-centrale het Neologismenbestand van het Algemeen Nederlands Woordenboek (ANW), het Corpus Gesproken Nederlands (CGN), verschillende monolinguale en bilinguale bestanden die gemaakt zijn om vertalingen te faciliteren, NL-Translex (een systeem voor automatisch vertalen), de Woordenlijst Nederlandse taal, de INL-corpora en Parole, alsmede een aantal tools. Het CGN is voor fonetici en spraaktechnologen ongetwijfeld het meest interessant omdat het tot nu toe het enige spraakproduct is. Daarom zal deze voordracht voor een groot deel bestaan uit een demonstratie van hoe door licentiehouders via onze website in het CGN gezocht kan worden. Maar het is de bedoeling dat onze catalogus voortdurend wordt uitgebreid met kwalitatief hoogstaande producten, waaronder ook spraaktools (b.v. spraakherkenners), nieuwe spraakcorpora en aanvullingen op bestaande spraakcorpora.

}, author = {Simo Goddijn} } @article {214, title = {De perceptieve ontwikkeling van een Fins duurcontrast bij volwassen Nederlanders}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Mijn promotieonderzoek richt zich op de vraag hoe de perceptie van een nieuw foneemcontrast zich ontwikkelt bij verschillende leeftijdsgroepen. We gaan hierbij uit van twee hypotheses. Hypothese I, Acquired Distinctiveness, stelt dat luisteraars verschillen binnen of tussen nieuwe categorie{\"e}n aanvankelijk slecht horen. Door training leert de luisteraar de verschillen tussen klanken die verschillend worden gecategoriseerd. Hypothese II, Acquired Similarity, stelt dat de luisteraar verschillen binnen en tussen categorie{\"e}n aanvankelijk goed kan onderscheiden. Door training blijft enkel het verschil tussen klanken die verschillend worden gecategoriseerd overeind.

Ik zal in deze presentatie de voorlopige resultaten van een trainingsstudie naar de perceptieve ontwikkeling van een Fins duurcontrast, /t-t:/, bij volwassen Nederlanders bespreken. In een pretest-posttest design wordt de foneemontwikkeling als gevolg van training bekeken. De verwachting is dat de Nederlanders beter worden in het horen van verschillen tussen categorie{\"e}n, ofwel dat ze leren volgens Acquired Distinctiveness.

}, author = {Willemijn Heeren} } @article {210, title = {De r van kinderen in grote steden}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Vanouds kende het Nederlands vooral de al dan niet getrilde tongpunt-r, wat leidde tot een redelijk homogene situatie. Rond 1900 kwam de getrilde of geschraapte huig-r op, in het zuiden in aaneengesloten gebieden en elders vooral in de grote steden. De Hollandse steden speelden hierbij een belangrijke rol. Nu is er een tweede krachtige expansie aan de gang, dit keer van de approximantische r (vaak de Gooise r genoemd). Nog sterker dan eerst lijken het de Hollandse steden te zijn die de taalverandering trekken. Althans, dat is de conclusie die we uit een eerder onderzoek in Haarlem en Nijmegen hebben getrokken. Ondertussen zijn er gegevens verzameld voor acht andere grote steden, verspreid over Nederland. In mijn lezing zal ik mij richten op de actuele toestand rondom de uitspraak van de r door kinderen in grote steden. De volgende vragen staan hierbij centraal:

  1. Waar treft men homogeniteit aan, met welke r?
  2. Waar treft men variatie aan, met welke r-en?
  3. Hoe kunnen de verschillen worden verklaard?
}, author = {Ren{\'e}e van Bezooijen and Griet Coup{\'e}} } @article {332, title = {Dutch listeners{\textquoteright} processing of word-final voicing in English}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Whereas Dutch has voiced and voiceless obstruents, only voiceless obstruents occur in word-final position. In a series of experiments we investigated Dutch listeners{\textquoteright} processing of the voice distinction in word-final position, and its use for the recognition of words in English. In a categorization experiment Dutch and English participants categorized /b/-/p/, /d/-/t/, /z/-/s/, and /v/-/f/, in nonword-initial and -final position. Dutch listeners were found to categorize voiced and voiceless obstruents in word-final position as accurately as in word-initial position, and as accurately as English listeners. To investigate to which extent Dutch listeners use this ability for the recognition of words, English words with an obstruent in word-final position were recorded in two ways: unaltered, and with final voiced consonants replaced with voiceless ones and vice versa. Thus {\textquoteright}globe{\textquoteright} became {\textquoteright}glope{\textquoteright}, and {\textquoteright}cheap{\textquoteright} became {\textquoteright}cheab{\textquoteright}. The replacement of final consonants did not result in existing words, but in so-called {\textquoteright}near-words{\textquoteright}. Real words and near-words were presented to Dutch and English participants in a categorization experiment. Dutch listeners were found to rely more on lexical cues than English listeners: Dutch listeners gave more {\textquoteright}b{\textquoteright} responses to the final consonant in {\textquoteright}glope{\textquoteright} and more {\textquoteright}p{\textquoteright} responses to {\textquoteright}cheab{\textquoteright} than English listeners. When the same items were presented in an auditory lexical decision task, Dutch listeners misjudged the near-words as real words more often than English listeners, again relying on the lexicon. To investigate how strongly near-words activate the real word, the same items were used as auditory primes in a bimodal priming experiment, with the real words as visual targets. For English listeners, near-words did not prime real words. For Dutch listeners, {\textquoteright}glope{\textquoteright} primed {\textquoteright}globe{\textquoteright} as strongly as {\textquoteright}globe{\textquoteright} did. {\textquoteright}Cheab{\textquoteright}, however, did not prime {\textquoteright}cheap{\textquoteright}. Thus Dutch listeners were tolerant of incorrect devoicing, but intolerant of incorrect voicing of word-final obstruents.

}, author = {Mirjam Broersma} } @article {329, title = {Early lexical representations: evidence from perception and production.}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Central in our investigation are the shape of early lexical representations. What do early words look like? Are they stored with detailed phonetic information, or are they more abstract and perhaps holistic at first? Although most researchers favor the idea that words are stored with phonetic detail (Werker \& Fennell 2004, Swingley 2004), the evidence so far is inconclusive.

Our research on early speech production has led us to believe that representations are not phonetically detailed at first. Rather, they start out being holistic, and become segmentalized in the course of development. Once words are segmentalized, children may generalize over the phonological characteristics of their lexical forms, which is the beginning of an abstract phonological system consisting of wellformedness or markedness constraints. Moreover, there are certain significant asymmetries with respect to place of articulation: coronal is behaving differently from other places of articulation, and hence assumed to be underspecified.

These claims have repercussions for early word perception. If words are stored as highly abstract units, then the prediction is that for word recognition detailed phonetic information is not used either. If certain features are underspecified, asymmetry in behavior is expected to show up in perception as well. To test these claims, we replicated and expanded previous research by Werker and colleagues (1997, 2001, 2004, to appear). In addition, we collected and analyzed production data and CDI scores for both production and perception. The results of our (still ongoing) investigations are highly interesting.

In a first experiment using the switch paradigm, we tested whether children prefer to listen to the switch condition when tested with newly learned words (bin or din). Like the English infants, Dutch 14 month old infants do not listen significantly longer to the new words than to the {\textquoteleft}old{\textquoteright} words, indicating that the difference between bin and din is not picked up. In a second experiment we used the switch procedure to test the difference between bon and don. In this case, infants listened significantly longer to the new forms than to the {\textquoteleft}old{\textquoteright} ones, suggesting that the bon-don contrast is perceived. It is, however, not as simple as that. In both experiments, children listened significantly longer to the new words if they are able to produce an initial labial-coronal contrast, which suggests that the child{\textquoteright}s productive lexicon indeed plays a role.

}, author = {Paula Fikkert} } @article {326, title = {Early speech development in young children with a cochlear implant}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, author = {Steven Gillis and Karen Schauwers and Paul Govaerts} } @article {222, title = {Evaluatie van spraakgestuurde informatiesystemen}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Huidige methoden voor het evalueren van dialoogsystemen geven inzicht in de prestatie ("performance") van een systeem ofwel in termen van systeemeigenschappen of in termen van kwaliteitsbeleving van de gebruiker (o.a. "user satisfaction"), maar niet beide. E{\'e}n van de weinige methoden die zowel objectieve als subjectieve gegevens in beschouwing neemt is de methode gebaseerd op het PARADISE-model (Walker et al., 1997). Door subjectieve oordelen van gebruikers (d.m.v. questionnaire) te relateren aan objectieve systeem- en interactieparameters (ge{\"e}xtraheerd uit de gelogde dialogen, o.a. taaksucces, dialoogduur, \% correcte woordherkenning) kan een kwantitatieve beschrijving van een dialoogsysteem verkregen worden. Op deze wijze krijgt men inzicht in de systeem- en interactieparameters die het meeste bijdragen aan de gebruikersbeleving. Deze informatie biedt ontwikkelaars en aanbieders direkt praktische aanwijzingen hoe ze hun spraakgestuurde diensten kunnen verbeteren. Tijdens de presentatie zal het PARADISE-model aan de hand van een voorbeeld besproken worden. Wanneer de tijd het toelaat, wordt een nieuwe taxonomie gepresenteerd die meer duidelijkheid verschaft in de relaties tussen de verschillende kwaliteitsmaten (o.a. "user satisfaction", "usability", "acceptability") die in de literatuur gehanteerd worden.

}, author = {Paula Smeele} } @article {208, title = {Fonatie}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Eerstens mijn huidige samenvatting/theorie (cf. Buuren 1983) van alle mogelijke strottenhoofd-vocalisaties (fonatie), aldus: A CONFIGURATIE. A1:REGISTER: borst...kop/mengstem. A2:KNIJPING: nul...sterk (\ B2). A3:SMORING: nul...sterk. A4:CONSTRICTIE: nul...sterk. A5:VENTRICULARITEIT: stem en/of schraping. A6:LARYNXSTAND: hoog...laag. A7:ADEMING: helder...ademig...fluisterig (\ B3). A8:HINNIKSTEM. B - GEBAAR . B1:GLOTTISSLAG. B2:TRILLING: stem/kraakstem/kraak (\ A2). B3:FRICTIE: nul (adem-,{\textquoteleft}breathed{\textquoteright})...fluister (\ A7). C - COMBINATIES van B2 en B3 alsmede van A1-A8. Tweedens wou ik e.e.a demonstreren (lijfelijk uiteraard, alsook middels audio/video), i.h.b. A1:Mengstem (Ray Charles, Jesse Jackson, e.a.), A8:Hinnikstem (Bhimsen Joshi, Nigel Rogers...), A5+B2:Dubbelstem (Adelaide Hall, Louis Armstrong...).

Ref. L. van Buuren (1983). Observations on Phonation. JIPA

}, author = {Lucas van Buuren} } @article {334, title = {From phoneme to lexicon in non-native listening}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

When phonemic contrasts of first and second languages mismatch, native phonemic categories can capture second-language input. This effect can have far-reaching consequences for understanding:

  1. Spurious word activation. Broersma (2002) showed that Dutch listeners accepted non-words such as chass and lem as English words (chess, lamb); such sequences can occur in spoken English (chastise, lemon), possibly activating more competitor words for non-native than for native listeners. (See also Broersma{\textquoteright}s abstract.).
  2. Pseudo-homophony. Homophones like [mi:t] must be disambiguated via context (let{\textquoteright}s meet, grill meat). If failure to distinguish contrasts induces homophony, then non-native listeners will have to do such disambiguation via context more often than native listeners.
  3. Temporary ambiguity. Weber and Cutler (2004) tested Dutch listeners to English in an eye-tracking experiment, and found that they fixated longer on distractor pictures with names containing vowels confusable with vowels in a target name (pencil, given target panda) than on less confusable distractors (beetle, given target bottle). English native listeners did not do this.

However, Weber and Cutler also found that the confusability was asymmetric: given pencil as target, panda did not distract more than distinct competitors. They suggested that stored representations may maintain second-language distinctions even when native phonemic categories effectively over-rule the distinctions in input processing.

A subsequent experiment tests for such asymmetry with Japanese listeners{\textquoteright} perception of English r/l contrasts. We also tested for asymmetry in non-natives{\textquoteright} pseudo-homophony, via a lexical decision study examining repetition priming. English materials, presented to Dutch and Japanese listeners, included pairs such as cattle/kettle and right/light. Dutch listeners responded significantly faster to one member of a cattle/kettle pair after having heard the other member earlier (compared with having heard a control word), suggesting that both words had been activated whichever had been heard. Japanese listeners, however, showed no such priming for cattle/kettle words, but did show repetition priming across r/l pairs (e.g. right/light).

}, author = {Anne Cutler and Andrea Weber and Takshi Otake} } @article {328, title = {Infants{\textquoteright} knowledge of phonotactics in different prosodic positions}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Dutch allows both voiced and voiceless obstruents in initial position, but only voiceless obstruents in final position. The underlying /d/ surfaces as [t] in the plural noden {\textquoteleft}emergencies{\textquoteright}, but as [t] in the singular nood {\textquoteleft}emergency{\textquoteright}. Voiceless obstruents do not undergo a similar alternation: [t] is produced in both nooten {\textquoteleft}nuts{\textquoteright} and noot {\textquoteleft}nut{\textquoteright}. To acquire knowledge of voicing neutralization, the learner needs to realize that in final position voiced stops are phonotactically illegal.

Previous research has shown that by 9-months, English-learning infants have acquired knowledge about their language specific phonotactics (e.g. Juscyzk et al., 1995). We predicted that by 9-months, Dutch-learning infants should demonstrate knowledge of voicing phonotactics. In the first studies, 9- and 11-month-old Dutch-learning infants were presented with lists of non-words ending in phonotactically legal voiceless obstruents versus phonotactically illegal voiced obstruents. Infants showed no preference for either list.

We then explored the possiblity that infants were not sensitive to the nature of the phonotactic pattern tested. While voiced stops are restricted in final position, they do occur in the language; therefore, this requires a sophisticated knowledge of phonotactics. Similarily, the voicing contrast may not be as salient as other contrasts. 9-month-old Dutch-learning infants were then presented with a more salient contrast: lists of non-words ending in native phonemes versus non-native phonemes. Infants showed no preference for either list. We then tested whether infants showed no preference for voicing or native phonotactics because contrasts occured in final position. 9-month-old Dutch-learning infants were presented with lists of non-words beginning with native phonemes versus non-native phonemes. Infants listened significantly longer to non-words begining with native phonemes phonemes. The combined results suggest that infants are not very sensitive to phonotactic patterns in final position. Moreover, the findings suggest that infants learn phonotactics in different prosodic positions at different times in development.

}, author = {Tania S. Zamuner} } @article {216, title = {Luisteraars horen /t/{\textquoteright}s die sprekers reduceren: Waarneming en productie van /t/ op het woordeinde}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een /t/ op het woordeinde wordt in continue spraak vaak niet of alleen gereduceerd uitgesproken. We hebben twee corpus studies uitgevoerd, die lieten zien dat /t/ het vaakst na /s/ en voor bilabiale medeklinkers gereduceerd wordt. Daarbij ontstaan verschillende "allofonen", die meer of minder evidentie voor de onderliggende /t/ bevatten. Het verschil tussen minimale paren als /kas/ en /kast/ komt hierdoor in het geding. Een potenti{\"e}le cue voor het verschil tussen een /st/ en een /s/ coda is echter ook de duur van de /s/, die langer is in simpele coda{\textquoteright}s.

Drie perceptie-experimenten lieten zien dat luisteraars van zowel de fonologische als ook lexicale constraints gebruik maken om te beslissen of een woord een onderliggende /t/ in de coda heeft. Ten eerste geven luisteraars vaker aan een /t/ achter /s/ dan achter /n/ te horen. Dit effect verdwijnt echter als de /n/ of /s/ lang is, wat een cue voor een simpele coda zonder /t/ is. Ten tweede zijn luisteraars ook eerder geneigd om een /t/ te horen als dit leidt tot een bestaand woord, zoals in orkes[t], in tegenstelling tot moeras[t]. Al in al blijkt dat luisteraars zowel fonologische als lexicale constraints toepassen om voor /t/-reductie te compenseren.

}, author = {Holger Mitterer and Mirjam Ernestus} } @article {211, title = {Morfologische en fonologische factoren in de verwerking van Engelse flecties}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Eerder psycholingu{\"\i}stisch onderzoek geeft aan dat er bij de analyse van Engelse onregelmatige (caught) en regelmatige (filed) vormen van de verleden tijd verschillende processen betrokken zijn. Om precies te zijn worden bij het begrijpen en produceren van regelmatige vormen processen gebruikt waarbij morfo-fonologische samenvoeging en ontleding plaatsvinden, waardoor deze vormen geanalyseerd worden als een stam plus affix (bv. {file} + {-ed}). Zulke processen worden niet toegepast in de analyse van onregelmatige vormen, die niet duidelijk een structuur met stam en affix hebben, en daarmee als volledige vorm geanalyseerd moeten worden.

Morfologische complexiteit wordt echter fonologisch ge{\"e}ncodeerd. Is het soms mogelijk dat zuiver fonologische factoren de meer complexe verwerking van de regelmatige verleden tijd bepalen, in plaats van de morfo-fonologische structuur op zich?

We onderzochten de onafhankelijke bijdrage van een aantal fonologische, morfologische en morfo-fonologische factoren in de verwerking van flecties in een perceptie-experiment waarbij proefpersonen beoordeelden of twee stimuli hetzelfde of verschillend klonken. Reactietijden bleken langzamer te zijn voor items die het kenmerkende patroon van regelmatige verleden tijdsvormen volgden {\textendash} waarbij de laatste medeklinker coronaal is en in stemhebbendheid met het voorafgaande foneem overeenkomt {\textendash} ongeacht of de items echte vervoegingen waren (bv. filed), of pseudo-vervoegde echte woorden of non-woorden (bv. mild en niled). Op vorm gematchte items zonder vervoegingspatroon, zoals start of clamp, die niet als morfologisch complexe vormen ge{\"\i}ntrepreteerd kunnen worden, hadden snellere reactietijden. Wij interpreteren dit als evidentie voor een fundamenteel morfo-fonologisch parseringsproces dat wordt toegepast op alle items die de cruciale fonologische kenmerken hebben.

Tyler, LK, Randall, B. en Marslen-Wilson, WD. (2002). Phonology and neuropsychology of the English past tense. Neuropsychologia 40, 1154-1166.

}, author = {Brechtje Post and Billi Randall and Lorraine K. Tyler and William Marslen-Wilson} } @article {220, title = {Objectivering van spraakdiagnostiek}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Binnen de fonetiek is het onderzoek naar pathologische spraak maar matig vertegenwoordigd. Dit wordt al snel gezien als iets waar logopedisten zich mee bezighouden. Metingen lijken beperkt te blijven tot fonetische transcripties, maar de kwaliteit en de betrouwbaarheid hiervan laat vaak nog veel te wensen over juist bij pathologische spraak. Binnen het UMC St Radboud wordt al jaren onderzoek gedaan naar verstoorde spraak bij zowel volwassenen als kinderen, waarbij een breed scala aan registratie- en analysemethoden wordt gebruikt om de spraakprocessen in kaart te brengen. In deze bijdrage willen we naar aanleiding van onderzoek laten zien dat het mogelijk is verschillende niveaus binnen het spraakproductieproces te onderzoeken. Onderzoek met behulp van fonetische transcripties heeft een aantal kwantitatieve maten opgeleverd, die inzicht geven in de ernst van fonologische plannings- en motorische programmeringmoeilijkheden. Akoestische en fysiologische metingen (o.a. articulatiebewegingen, EMG, electroglottografie, ademhalings-bewegingen, spraakreactietijden) geven niet alleen inzicht in globale parameters als spreeksnelheid, maar ook in specifieke kwalitatieve aspecten zoals spectrale eigenschappen van klinkers, coarticulatie, de co{\"o}rdinate van klanken en van spraakbewegingen. Daarmee wordt de bijdrage van perceptuo-motorische processen duidelijk.

}, author = {Lian Nijland and Ben Maassen and Wendy Huinck} } @article {212, title = {Over het juist waarneembare verschil in spreektempo}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Spreektempo varieert zowel tussen als binnen sprekers; deze tempoverschillen zijn communicatief van belang. Maar welke verschillen zijn hoorbaar, en welke niet? Ik zal enkele luister-experimenten bespreken, die suggereren dat het juist waarneembaar verschil zo{\textquoteright}n 5\% bedraagt. De timing van spraak is meer variabel dan die van muziek, maar desondanks is het juist waarneembaar verschil in tempo ongeveer gelijk voor muziek en voor spraak.

}, author = {Hugo Quen{\'e}} } @article {213, title = {Standaardnederlands op kruissnelheid: Spreeksnelheid in Vlaanderen en Nederland}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het kader van een onderzoek naar uitspraakvariatie in het Standaardnederlands werd spontane spraak verzameld van 80 Vlaamse en 80 Nederlandse leraren Nederlands (160 x 15 min.). Die spraak vormde de basis voor een onderzoek naar spreek- en articulatiesnelheid (SS resp. AS, beide uitgedrukt in aantal syllaben per seconde). De informanten zijn afkomstig uit verschillende regio{\textquoteright}s in Vlaanderen en Nederland. De helft van de sprekers was jonger dan 40, de andere helft ouder dan 45. Er namen even veel mannen deel als vrouwen. Om na te gaan of het tempo tijdens de opnamen constant bleef, werd elke opname opgesplitst in 10 segmenten van gelijke duur. De spreek- en articulatiesnelheid bleek uiteindelijk niet te fluctueren tijdens de opnamen. We konden dus de resultaten van de 10 segmenten samennemen. De Nederlandse leraren bleken beduidend sneller te spreken dan hun Vlaamse collega{\textquoteright}s (AS: 5,05 vs. 4,23 syll/sec, SS: 4,23 vs. 4,00 syll/sec). Verder bleek nog dat de mannen uit de steekproef sneller spraken dan de vrouwen (AS: 4,79 vs. 4,50 syll/sec, SS: 4,23 vs. 4,01 syll/sec), en dat het tempo van de jongeren wat hoger lag dan dat van de ouderen (AS: 4,78 vs. 4,52 syll/sec, SS: 4,23 vs. 4,01 syll/sec).

}, author = {Hanne Kloots and Jo Verhoeven and Guy De Pauw} } @article {326, title = {Voice and Language Discrimination by Dutch-learning Infants}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Linguists have argued that all languages belong to one of three rhythmic categories: stress-timed (e.g. English and Dutch), syllable-timed (e.g. Italian and Spanish), and mora-timed (e.g. Japanese). Acoustic studies have provided evidence for the physical reality of these three rhythmic categories, and psychological studies have demonstrated that language rhythm plays an important role in language acquisition and word segmentation.

Language discrimination studies with English-learning infants have revealed that infants younger than 2 months can hear the difference between two languages only if the two languages belong to different rhythmic classes. In other words, cross-category language pairs (e.g. Italian and Japanese) are discriminated whereas within-category language pairs (e.g. Dutch and English) are not. By 5 months, within-category discrimination is possible only if one of the within-category languages is the native language (e.g. English and Dutch). Thus, both rhythmic information as well as language familiarity play a role in early language discrimination.

In this talk, I will discuss language discrimination by Dutch-learning infants. Using the Switch paradigm, infants were habituated to three voices speaking Language 1, and tested on a fourth voice speaking Language 1 and a fifth voice speaking Language 2. In Experiment 1 (Dutch versus Japanese), infants dishabituated to Language 2 in the test phase regardless of which language they were habituated to. However, they only dishabituated to the new voice in Language 1 if Language 1 was Dutch. In Experiment 2 (Japanese versus Italian), infants once again dishabituated to Language 2 regardless of which language they were habituated to. Infants in both conditions failed to dishabituate to the new voice in Language 1. In Experiment 3, infants are being tested on two stress-timed languages: German and Dutch. Current results support the hypothesis that language rhythm and familiarity play an important role in voice and language discrimination by Dutch-learning infants.

}, author = {Elizabeth Johnson and Ellen Westrek} } @article {218, title = {Woordfrequentie en de reductie van affixen}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In dit onderzoek hebben we gekeken naar de relatie tussen woordfrequentie en de duur van de affixen ge-, ver-, ont- en -lijk in het gesproken Nederlands. Uit het subcorpus {\textquoteright}Spontane spraak{\textquoteright} van het CGN hebben we voor ieder woordtype met een van deze affixen willekeurig {\'e}{\'e}n token geselecteerd en gesegmenteerd. Uit de analyses blijkt dat bij ge-, ont-, en -lijk een hogere frequentie leidt tot kortere realisaties van het affix en/of de individuele segmenten daarin. Verder spelen spreeksnelheid, de leeftijd van de spreker en het aantal consonanten in de onset van de stam een rol. Voor ver- zijn er geen frequentie-effecten, maar wel een effect van de ratio tussen de frequentie van het hele woord en de frequentie van de stam. Deze resultaten ondersteunen theorie{\"e}n die een verband leggen tussen reductie en probabilistische variabelen zoals frequentie. Daarnaast stellen ze vraagtekens bij modellen van spraakproductie die de syllabe als eenheid van articulatie beschouwen.

}, author = {Mark Pluymaekers and Mirjam Ernestus and H. Baayen} } @article {327, title = {Word segmentation from continuous speech: an ERP study with 10-month-old infants.}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In their first year of life, before they start to speak, infants rapidly learn to deal with the sound structure of their native language. An important step in this first year of language acquisition is learning to recognize words in continuous speech (word segmentation).Behavioral studies have shown that infants learn to segment words from continuous speech between approximately 7 and 10 months of age. The predominant stress pattern of a language seems to play an important role in acquiring this skill. To study this step in language acquisition in more detail, we designed a new auditory ERP repetition paradigm. In this paradigm we presented 10-month-old infants with 20 blocks of words and sentences, while measuring EEG. Each block consisted of a Familiarization phase and a Test phase. In the Familiarization phase we presented the infants with 10 tokens of the same two-syllable word with stress on the first syllable. In the Test phase, which followed immediately after familiarization, we presented infants with eight randomized sentences of which four contained the familiarized word. The remaining four sentences contained a new two-syllable word, also with stress on the first syllable. The Test phase shows an effect of Familiarity in the form of a negative-going deflection on the familiar words as compared to the unfamiliar words in the sentences. This effect starts well before the end of the critical word. This result shows that 10-month-old infants can indeed segment words from continuous speech. Moreover, the timing of the effect shows us that they need approximately only the first half of the word to do so.

}, author = {Valesca Kooijman and Peter Hagoort and Anne Cutler} } @article {333, title = {The development of L2 categorization in multiple scenarios}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Phonemic and phonetic mismatches between the sound categories of different languages frequently lead to problems in L2 acquisition. Following the simple, and widely accepted, assumption of L1 transfer, it is predicted that we will find at least three different learning scenarios for the categorization of L2 sounds, namely starting with fewer sound categories, starting with more categories and starting with similar but not equal categories. I will present different L2 categorization cases that illustrate each of the three scenarios: The learning of the English vowels /i/ and /I/ by Spanish speakers will be shown to represent the first scenario, the second scenario will be illustrated by the learning of the Spanish vowels /i/ and /e/ by Dutch listeners, and the learning of the Canadian French vowels /ae/ and /E/ by Canadian English speakers will be shown as an example of the third scenario. For each scenario, two arguments about the staring point will be put forward. First, it is argued that the L2 starting point equals the cross-language categorization of the vowel sounds at hand (e.g. the native Spanish categorization of English /i/ and /I/ or the Dutch native categorization of Spanish /i/ and /e/). And second, it is argued that the learner is faced with a different L2 learning problem in each of the scenarios, namely learning to categorize more vowels, learning to categorize less vowels and learning to re-categorize vowels. As for solving the L2 learning problems, following the, perhaps, controversial assumption of availability of L2 development, it will be argued that the L2 learners can modify their initial L2 categorization in order to gradually approximate native categorization. Crucially, it is claimed that the learners of each scenario will adjust their L2 vowel categorization through different developmental (sequence of) strategies. The results of cross-language and L2 categorization experiments will be shown to confirm the hypothesised L2 scenarios as well as the hypothesised L2 developments.

}, author = {Paola Escudero} } @article {331, title = {The notion of language proficiency from an aural processing perspective}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Theories of first and second language acquisition must seek to explain the following two phenomena. First, whereas L1 acquisition appears to lead to full native proficiency for all learners (i.e., all mentally healthy children with normal hearing), L2 acquisition only very seldom appears to lead to native or nativelike proficiency. Second, despite the fact that L1 learners all appear to reach full native proficiency, big differences between them exist. According to Hyltenstam and Abrahamsson (2003), both biological factors (the so-called critical period) and social-psychological factors play a role in early as well as late language acquisition; however, with increasing age of onset, the impact of maturational factors diminishes, while the impact of social-psychological factors increases. Using the theory of Hyltenstam \& Abrahamsson as a starting point, I will propose that we must distinguish between a core and a non-core language proficiency. The core pertains to the recognition of high-frequency words in normal speech, is acquired via a process of implicit learning, and is attainable for all L1 and L2 learners. The non-core involves forms of explicit learning, and is therefore affected by a range of social-psychological factors (intelligence, working memory capacity, vocabulary size, education). In this talk, I will present the three hypotheses, elaborate on the underlying theoretical notions, and suggest a method of how to test them empirically.

}, author = {Jan Hulstijn} } @article {337, title = {The notion of language proficiency from an aural processing perspective}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Theories of first and second language acquisition must seek to explain the following two phenomena. First, whereas L1 acquisition appears to lead to full native proficiency for all learners (i.e., all mentally healthy children with normal hearing), L2 acquisition only very seldom appears to lead to native or nativelike proficiency. Second, despite the fact that L1 learners all appear to reach full native proficiency, big differences between them exist. According to Hyltenstam and Abrahamsson (2003), both biological factors (the so-called critical period) and social-psychological factors play a role in early as well as late language acquisition; however, with increasing age of onset, the impact of maturational factors diminishes, while the impact of social-psychological factors increases. Using the theory of Hyltenstam \& Abrahamsson as a starting point, I will propose that we must distinguish between a core and a non-core language proficiency. The core pertains to the recognition of high-frequency words in normal speech, is acquired via a process of implicit learning, and is attainable for all L1 and L2 learners. The non-core involves forms of explicit learning, and is therefore affected by a range of social-psychological factors (intelligence, working memory capacity, vocabulary size, education). In this talk, I will present the three hypotheses, elaborate on the underlying theoretical notions, and suggest a method of how to test them empirically.

}, author = {Jan Hulstijn} } @article {368, title = {Audiovisual cues to uncertainty}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Tilburg, The Netherlands}, abstract = {

Uncertainty is an inherent element of human-machine communication. Uncertainty is often not made explicit in the system{\textquoteright}s output, nor have there been many efforts to detect uncertainty in users{\textquoteright} reactions. Our work concerned with the expression of (degree of) uncertainty in spoken interactions. It focuses on the production and perception of auditory and visual cues, in isolation and in combination. The ultimate goal is to implement possible audiovisual cues to uncertainty in a synthetic talking head of an embodied conversational agent (ECA). We conjecture that a user{\textquoteright}s acceptance of incorrect system output is higher if the system made it clear in its self- presentation that it is not sure about the answer. Our approach builds on previous studies on the so-called Feeling-of-Knowing (FOK) (e.g. Smith and Clark, 1993), be it that we also include possible visual cues to FOK. Following earlier procedures, our study A consists of three parts: first, in an individually performed test, subjects are instructed to answer 40 factual questions (e.g. what is the capital of Switzerland?, who wrote Hamlet?); questions are posed by the experimentor whom the subjects cannot see, and the responses by the subject are videotaped (front view of head). After this test, the same sequence of questions is again presented to them, but now they have to express on a 7-point scale how sure they are that they would recognize the correct answer if they would have to find it in a multiple-choice test. The final test consists of this actual multiple-choice test. All utterances from the first test of Study A (800 in total) were transcribed orthographically and manually labelled regarding a number of auditive and visual features by four independent transcribers on the basis of an explicit labelling protocol, which included various double-checks. On average, subjects knew the answer to 30 of the 40 questions. When they did not know or could not remember the answer, they sometimes made a guess or gave a non- answer. It appears that their FOK scores not only correlate with their performance in the third multiple-choice test, but also with particular features of the utterances of the first test: lower scores, in line with previous results, correlate with long delay, the occurrence of filled pauses and question intonation. In addition, it appears that speakers tend to use more words, when they have a lower FOK. Regarding the visual cues, low FOK is reflected in averted gaze, more head movements, eyebrow frowning, and overall more body movement. Also, a puzzling look appears to correlate with low FOK, whereas a self-congratulatory expression is more typical for high FOK answers. The goal of our Study B is to explore whether observers of the speakers{\textquoteright} answers of Study A are able to guess these speakers{\textquoteright} FOK scores. In particular, we are interested in whether a bimodal presentation of stimuli leads to better FOK predictions than the unimodal components in isolation. To test this, we are currently preparing a perception test in which a subset of the utterances of Study A will be presented to subjects. These are instructed to guess what the speaker{\textquoteright}s FOK was when s/he gave an answer (cfr. Brennan and Williams, 1995). Stimuli will be presented in three conditions: image only, sound only, both image and sound. From the original 800 responses, we select 60 utterances, with an equal amount of answers and non- answers, and an even distribution of high and low FOK scores. While we expect that we get the best performance for bimodal stimuli, it remains an interesting empirical question whether the auditory or the visual features from the unimodal stimuli will turn out to be more informative for FOK predictions. The experiment is currently taking place. Results of this additional test will also be discussed in my talk.

}, author = {Marc Swerts} } @article {238, title = {Automatische fonetische transcripties: Wat is al mogelijk?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Fonetische transcripties zijn nodig voor vele applicaties. Het is bekend dat manuele fonetische transcripties nadelen hebben, onder andere omdat het maken ervan tijdrovend en duur is. Een mogelijk alternatief zijn automatische fonetische transcripties. Maar, in hoeverre is dat nu al mogelijk? Deze vraag krijgen we de laatste tijd steeds vaker te horen. In deze presentatie zal ik proberen een antwoord te geven op deze vraag door een overzicht te presenteren van onderzoek dat al uitgevoerd is en lopend onderzoek. het CGN aanwezig zijn: van voorgelezen spraak over spontane conversaties tot telefoonspraak.

}, author = {Helmer Strik} } @article {357, title = {Betrouwbaarheidsmaten voor automatische spraakherkenning}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Automatische SpraakHerkenning (ASH) wordt in toenemende mate als een serieuze invoermodaliteit beschouwd door ontwerpers van interactieve dialoogsystemen. Bekende voorbeelden zijn het treinreis informatiesysteem OVIS en diverse opvolgers daarvan. In Nijmegen is de laatste tien jaar stevig aan de weg getimmerd om de accuraatheid van de technologie aan te scherpen, o.a. met uitspraakvariatie modellering en vergroting van robuustheid tegen allerlei vormen van achtergrondlawaai. Desondanks komen de dialoogsystemen bij gebruikers nog steeds over als frustrerende en koppige machines die zich onbewust tonen van hun eigen feilbaarheid. En dat is terecht: spraakherkenners maken vaak fouten en dialoogmanagement systemen zouden erop toegerust moeten zijn dat {\'e}{\'e}n van hun componenten iets minder betrouwbaar presteert dan de volledige exactheid die we van computers gewend zijn.

De voor de buitenwereld soms onwaarschijnlijke fouten hebben een gemene deler in een fundamenteel ontwerpprincipe; alle state-of-the-art ASH systemen werken met statistische patroonmodellering en Bayes{\textquoteright} Maximum Likehood principe. Dit zegt zoveel dat de woordreeks die binnen het taakdomein met de grootste kans de akoestische opname gegenereerd zou hebben, wordt gekozen als herkenresultaat. Uit dit principe volgt direct dat een spraakherkenner altijd blij met een oplossing te voorschijn komt, dus ook wanneer je in het Chinees tegen OVIS zou praten{\textellipsis}

In deze lezing behandel ik een aantal betrouwbaarheidsmaten die een spraakherkenner automatisch kan uitrekenen en toevoegen aan het herkenresultaat. De maten drukken in kanstermen uit in hoeverre de dialoogmanager staat kan maken op de oplossing. Bijgevolg wordt het mogelijk dat OVIS iets minder vaak strandgasten naar Santpoort stuurt, maar in plaats daarvan zal kunnen opteren voor de vraag: {\textquotedblleft}Pardon, ik weet niet zeker of ik u goed verstaan heb; zei u nou Santpoort of Zandvoort?{\textquotedblright}

}, author = {Gies Bouwman} } @article {229, title = {De Gooise r: chique maar toch irritant?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De Gooise r - dat wil zeggen de approximantische realisatie van de /r/ in postvocale positie - lijkt zich in een rap tempo in het Nederlands te verspreiden. In Haarlem is hij onder kinderen nu de enige postvocale realisatie van de /r/, maar ook in Nijmegen heeft de helft van de kinderen hem al. Ook in de media tref je hem veelvuldig aan: tweederde van de televisiepresentatoren gebruikt hem op z{\textquoteright}n minst af en toe. Vindt men de Gooise r dan zo veel aantrekkelijker dan de tongpunt-r en de huig-r? En wat straalt de Gooise r dan uit, met wat voor persoonlijkheid worden de verschillende varianten geassocieerd? Wat weten mensen van het voorkomen van verschillende r-varianten in Nederland? Deze vragen stonden centraal in een evaluatie-onderzoek dat ik heb uitgevoerd in vier regio{\textquoteright}s: (de gebieden rondom) Hilversum, Nijmegen, Geleen en Leeuwarden. Het aantal luisteraars per plaats lag tussen de 30 en 40 personen, verdeeld over mannen en vrouwen en twee leeftijden. Er werd gebruik gemaakt van de matched guise techniek, waarbij dezelfde tekst door dezelfde spreker met verschillende combinaties van r-en werd ingesproken. Ik presenteer in mijn lezing de resultaten.

}, author = {Ren{\'e}e van Bezooijen} } @article {237, title = {De automatische generatie van foneemtranscripties en segmentaties voor het Nederlands}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In deze presentatie beschrijven we de automatische generatie van foneemtranscripties en de bijhorende foneem- en woordsegmentaties zoals die gemaakt worden voor het Vlaamse deel van het Corpus Gesproken Nederlands. Eerst beschrijven we de automatische generatie van een netwerk van alternatieve foneemtranscripties op basis van de orthografie. Uit dit netwerk selecteert de automatische spraakherkenner het akoestisch best passende pad. Vervolgens behandelen we de gebruikte algoritmes voor het maken van woord- en foneemsegmentaties. We besluiten met een gedetailleerde analyse van de verschillen tussen enerzijds de manueel geproduceerde foneemtranscripties en woordoplijningen en anderzijds de resultaten van het automatische proces. Deze evaluatie gebeurt op de uiteenlopende componenten die binnen het CGN aanwezig zijn: van voorgelezen spraak over spontane conversaties tot telefoonspraak.

}, author = {Kris Demuynck and Tom Laureys and Dirk Van Compernolle and Patrick Wambacq} } @article {361, title = {De invloed van zinscontext op gesproken taalverwerking: een ERP-studie}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

In gesproken taal worden woorden meestal verwerkt in de context van andere woorden. Het onderzoek voor mijn proefschrift was erop gericht om met behulp van hersenpotentialen (ERPs) meer inzicht te krijgen in gesproken-woordverwerking en de invloed van zinscontextuele informatie hierop. Door doelwoorden in semantisch sturende zinnen te manipuleren in semantische, dan wel syntactische zin en de consequenties hiervan te observeren in het electrofysiologische signaal (o.a. het zichtbaar worden van ERP-componenten zoals de N400, N200, LAN en P600), werden de volgende drie vraagstellingen onderzocht. I Op welk moment wordt zinscontextuele informatie gebruikt in gesproken-woordverwerking? Is dit voor, tijdens of na lexicale selectie van het gesproken woord? II Wat is de temporele relatie tussen lexicale selectie en integratie van de betekenis van een gesproken woord in een hoger-level-representatie van de voorafgaande zin? Volgen deze processen elkaar op of zit er een temporele overlap tussen? III Wat is het tijdsverloop van het gebruik van verschillende soorten zinscontextuele informatie, zoals semantische en syntactische informatie? Volgt de informatieverwerking de incrementele wijze waarop verschillende soorten informatie op verschillende momenten in het spraaksignaal beschikbaar kunnen komen, of is er specifieke syntactische informatie over de woordcategorie nodig voordat semantisch integratie plaats kan vinden?

Uit de resultaten van deze studie blijkt o.a. dat zinscontext al op ongeveer 200 ms na begin van het doelwoord een invloed uitoefent op gesproken-woordverwerking. Daarnaast blijken pogingen tot semantische integratie al plaats te vinden voordat een gesproken woord geselecteerd kan worden op basis van het akoestische signaal. Tenslotte blijkt kennis over de syntactische categorie van een woord niet nodig te zijn voordat semantische integratie plaats kan vinden. De resultaten uit mijn onderzoek kunnen het best verklaard worden door een {\textquoteleft}cascaded{\textquoteright} woordverwerkingsmodel dat uitgaat van een optimaal gebruik van contextuele informatie tijdens gesproken-woordverwerking na bottom-up activatie van een aantal lexicale items op basis van een initi{\"e}le fonologische analyse van het spraaksignaal (met o.a. parallelle verwerking van semantische en syntactische informatie en semantische integratie van gelimiteerd aantal items dat nog overeenkomt met het akoestische signaal).

}, author = {Dannie van den Brink} } @article {225, title = {De perceptieve ontwikkeling van een Brits-Engels foneemcontrast bij volwassen Nederlanders}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Mijn promotieonderzoek richt zich op de vraag hoe de perceptie van een nieuw foneemcontrast zich ontwikkelt bij verschillende leeftijdsgroepen, nl. volwassenen en kinderen in de basisschoolleeftijd. We gaan hierbij uit van twee hypotheses. De eerste hypothese, Acquired Distinctiveness, stelt dat luisteraars verschillen binnen of tussen nieuwe categorie{\"e}n aanvankelijk slecht horen. Door training leert de luisteraar de verschillen tussen klanken die verschillend worden gecategoriseerd. De tweede hypothese, Acquired Similarity, stelt dat de luisteraar verschillen binnen en tussen categorie{\"e}n voor het leren goed kan onderscheiden. Door training blijft enkel het verschil tussen klanken die verschillend worden gecategoriseerd overeind.

Het experiment, waarvan ik de opzet en de voorlopige resultaten zal bespreken, volgt het leren van het Brits-Engelse contrast, /ʃ-s/, door volwassen Nederlanders. In een pretest-posttest design wordt de foneemontwikkeling als gevolg van training bekeken. De pre- en posttest bevatten spraak van {\'e}{\'e}n spreker. Spraak van vijf andere sprekers vormt het trainingsmateriaal. Deze variatie dwingt de luisteraar te abstraheren over sprekerverschillen en robuuste categorie{\"e}n te vormen.

}, author = {Willemijn Heeren} } @article {358, title = {Defining retroflexes: an articulatory class and its phonological representation}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

The present study illustrates the insufficiency of traditional definitions of retroflexes as segments with a bent-backwards tongue tip. Instead, four articulatory characteristics are proposed, namely apicality, posteriority, a sublingual cavity, and retraction of the tongue back, the latter being highly controversial. Furthermore, retroflexes are shown to be perceptually characterized by a low third formant, and this perceptual criterion is argued to be the basis for the phonological representation of the retroflex class.

}, author = {Silke Hamann} } @article {373, title = {Gemaskeerde Cross-Modale Priming: Evidentie voor een functionele verbinding tussen Orthografie en Fonologie.}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Met dit onderzoek wilden we ingaan op de groeiende overtuiging dat orthografische en fonologische taalverwerking onafscheidelijke mentale processen vormen. In een reeks lexicale decisie experimenten onderzochten we daartoe gemaskeerde priming met identieke en pseudo-homofone primes, en met zowel visuele als auditieve targets. Reactietijden voor visuele en auditieve woordtargets werden significant versneld wanneer de kort gepresenteerde prime (53ms), identiek was aan de target. Bovendien hield deze bevinding stand, zelfs wanneer die deelnemers werden verwijderd die ten minste {\'e}{\'e}n primewoord correct konden rapporteren in een primezichtbaarheidstest. Bij een gelijke aanbiedingsprocedure, vonden we geen significante priming met fonologische primes. Deze primes produceerden wel een robuuste facilitatie bij een langere primeduur (67ms). In een reeks vervolgexperimenten, werd het algemene resultatenpatroon gerepliceerd, maar nu met een strengere maat van primezichtbaarheid. We interpreteren deze resultaten als sterke evidentie voor een functionele verbinding tussen het orthografische en fonologische verwerkingssysteem.

}, author = {Kevin Diependaele} } @article {371, title = {Hebben dyslectische lezers een specifiek probleem met het lezen van pseudowoorden?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In de onderzoeksliteratuur wordt doorgaans als een vaststaand feit aangenomen dat dyslectici een specifiek probleem hebben met het lezen van pseudowoorden (het {\textquoteright}nonword reading deficit{\textquoteright}). Deze conclusie is gebaseerd op studies waarbij dyslectische lezers vergeleken worden op het lezen van pseudowoorden met jongere normale lezers van hetzelfde leesniveau (het {\textquoteright}reading level match design{\textquoteright}). Deze conclusie strookt tevens met bevindingen waaruit telkens blijkt dat de achterstand gemeten in "didactische leeftijd equivalent scores" (DLE{\textquoteright}s) bij dyslectici groter is in het lezen van pseudowoorden dan in het lezen van echte woorden. In deze bijdrage tonen we aan dat de beide methodes een adekwate vergelijking tussen dyslectici en normale lezers onmogelijk maken, en dat ze alternatieve interpretaties in termen van normale ontwikkelingseffecten niet kunnen uitsluiten.

}, author = {Wim van den Broeck} } @article {360, title = {Het belang van de onset-rime structuur in de ontwikkeling van fonologische gevoeligheid}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Op dit moment bestaat er een algemene consensus dat de lingu{\"\i}stische eenheden onset (b.v., kl in klok) en rime (b.v., ok in klok) natuurlijke syllabeconstituenten zijn in de gesproken taal en dat ze erg saillant zijn in het klankbewustzijn van jonge kinderen. Ons recent onderzoek met Nederlandstalige kleuters en beginnende lezers stelt het belang van een vaste fonologische onset-rime structuur echter in vraag. In een segmentatietaak waarbij kinderen moesten benoemen welke klanken ze hoorden in CV- en VC-syllaben zoals /fo/ en /of/, presteerden ze veel beter met VCs dan met de omgekeerde CVs. Ze vonden het dus makkelijker een rime-eenheid op te breken (/o/-/f/) dan een CV te splitsen in een onset en een rime (/f/-/o/). Hetzelfde patroon werd gevonden in CVCs. Kinderen segmenteerden /fos/ vaker in /fo/-/s/ dan in /f/-/os/. Ondanks de consensus in de vakliteratuur, leverde deze studie dus geen evidentie op voor het belang van onset-rime eenheden in het expliciete klankbewustzijn (zie Geudens \& Sandra, 2003). In een geheugentaak waarbij kleuters en beginnende lezers reeksen syllaben moesten beluisteren en dan herhalen bleek bovendien dat rimes niet vaker werden behouden dan CVs. Bijvoorbeeld, bij het nazeggen van de pseudowoorden /top/ en /rel/ kwam de hercombinatiefout /tel/ niet vaker voor dan /tol/. Deze bevindingen riepen ook vragen op bij de rol van onset-rime constituenten in meer onbewuste, impliciete fonologische processen. Toch bleken de kinderen erg gevoelig voor {\textquotedblleft}rijm{\textquotedblright} wanneer ze moesten beslissen welke van twee woordparen het meest gelijk klonk (/sof/ en /sot/ of /sof/ en /tof/?). In een dergelijke taak verkozen ze rijmende paren met een gedeelde rime (/sof/-/tof/) boven niet-rijmende paren met een gedeelde CV (/sof/-/sot/) of een gedeeld onset-coda skelet (/sof/-/sef/).

Onze resultaten suggereren dat cohesieverschijnselen in auditieve taken geen vaste onset-rime structuur weerspiegelen en sterk fluctueren in functie van factoren zoals perceptie, articulatie, statische eigenschappen van de stimuli, ervaringen met taalspelletjes, instructie etc. In plaats van gebruik te maken van een vaste fonologische structuur, kunnen kinderen, afhankelijk van deze factoren, een andere voorkeur laten zien om bepaalde segmenten samen te houden. Gevoeligheid voor rijm hoeft niet te wijzen op een gevoeligheid voor onset-rime constituenten.

}, author = {Astrid Geudens and Dominiek Sandra} } @article {359, title = {Hoe effici{\"e}nt is spraak? Een onderzoek naar de verdeling van variatie en informatie in spraak}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Spraak is een effici{\"e}nt communicatiemiddel. In het algemeen zal een spreker niet meer moeite doen dan zij/hij nodig acht om begrepen te worden. Een groot deel van de in de literatuur beschreven variatie in uitspraak binnen sprekers, m.n., de gevolgen van klemtoon, assimilatie, coarticulatie en reductie, binnen en tussen spreekstijlen kunnen ge{\"\i}nterpreteerd worden als pogingen om de communicatie zo effici{\"e}nt mogelijk te laten verlopen. Vragen naar de mate waarin sprekers in hun uitspraak anticiperen op de reactie van de toehoorders en het verband tussen variatie in de uitpraak van woorden en hun rol bij het begrijpen van de boodschap zijn van fundamenteel belang voor de fonetiek. Er is echter relatief weinig onderzoek naar gedaan waardoor een groot deel van de systematische variatie in de spraak niet goed verklaard kan worden. Dit project onderzocht op welke manier en in welke mate sprekers hun spraakproductie aanpassen in anticipatie op het {\textquotedblleft}begrip{\textquotedblright} van de luisteraars. De onderlinge (cor-)relaties tussen boodschap en spraakgeluid zijn onderzocht om te achterhalen hoe de verschillende factoren in de structuur van de boodschap gebruikt worden voor het effici{\"e}nter maken van de spraakcommunicatie. Het blijkt dat er inderdaad een correlatie gevonden wordt tussen the redundantie van een foneem en de mate van reductie. Deze correlatie wordt gevonden op elk nivo van de uiting. Verder is de variatie in redundantie (belang) van fonemen en hun akoestische reductie gekoppeld aan dezelfde fonetische factoren.\ 

}, author = {Rob van Son} } @article {239, title = {Hoe valideer ik een spraakdatabase?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Valideren van spraakdatabases komt neer op het controleren van de kwaliteit van grote spraakbestanden aan de hand van een aantal criteria. Die criteria bestaan uit de specificaties van de database aangevuld met een aantal tolerantiemarges die aangeven hoever van het ideaal mag worden afgeweken.

SPEX heeft een langdurige ervaring met het valideren spraakdatabases. Sinds 1996 valideert SPEX wij de spraakdatabases die in vele vaak door de EC gesponsorde projecten, geproduceerd worden. Verder zijn wij het offici"ele validatiecentrum van ELRA (European Language Resources Association). In deze bijdrage ga ik in op de aspecten van een database die gevalideerd worden en de procedures die daarbij gehanteerd worden. Hierbij zal gekeken worden hoe validaties in het begin werden uitgevoerd en hoe procedures en controles zich in de loop der tijden hebben ontwikkeld tot de hedendaagse stand van zaken.

Het woordje {\textquoteright}ik{\textquoteright} in de titel heeft in eerste instantie betrekking op mijzelf, maar na afloop van de voordracht hoop ik dat ook de toehoorder geinteresseerd is geraakt in het onderwerp en er zijn/haar persoonlijke voordeel mee kan doen.

}, author = {Henk van den Heuvel} } @article {366, title = {Human Factors issues in multi-modal interaction in complex design tasks}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Tilburg, The Netherlands}, abstract = {

For human-computer interaction, the naturalness of the dialog is a paramount factor for the acceptance of dialog systems by a large public. It is generally believed that the use of multi-modal communication channels facilitates for natural interactions between a human subject and artificial collocutor. In the European-IST COMIC project (2002-2005, http://www.hcrc.ed.ac.uk/comic/), various scientific and pragmatic aspects of multi-modality are being studied through human factors research and the integration of research findings in a real-life interactive system. The two input modalities considered here are pen gestures (including pointing, handwriting, labeling and sketching) and (continuous) speech. The task of the system is to guide the unexperienced user through a wide range of design options in the highly complex professional domain of bathroom design. The University of Nijmegen is one of the COMIC-participants and focuses on the improvement of the pen and speech recognizers, the use of these recognizers in a real-time application, and the study of human-factors related to the multi-modal human-system interaction. In COMIC, human-factors experiments are carried out to obtain more insight in the complex behavior of humans in interactive design specification tasks. The task of the subjects was to specify shape, size and location of details in bathrooms by using pen input on a Wacom Cintiq 15X LCD tablet and speech through a close-talk microphone. The results of the experiments are presented in this talk. It is shown that there are behavioral differences between subjects, and that the subjects{\textquoteright} behavior is critically dependent on the exact task description. The experimental results yield more insight in the classes of speech dialog acts and pen dialog acts, and in the impact of mode combinations in interaction strategies. These experiments advance the knowledge of cognitive principles underlying the natural use of parallel modalities, and result in concrete guidelines for the design and the development of multi-modal dialog systems.

}, author = {Stephan Rossignol} } @article {230, title = {"Ik was toch wel blij dat ik van mijn hobby mijn beroep kon maken" - De uitspraak van het possessivum mijn in het Standaardnederlands}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het kader van het VNC-project Variatie in de uitspraak van het Standaardnederlands werd een sociolingu{\"\i}stisch interview afgenomen van 80 Vlaamse en 80 Nederlandse leraren Nederlands. De steekproef was gestratificeerd naar regio (4 regio{\textquoteright}s in Vlaanderen, 4 in Nederland), sekse (evenveel mannen als vrouwen) en leeftijd (de helft van de sprekers is geboren voor 1955, de andere helft na 1960). De spontane spraak die in het kader van dit project verzameld werd, vormt momenteel de basis voor onderzoek naar reductieverschijnselen in de standaardtaal. In deze presentatie brengen we verslag uit van een studie naar de uitspraak van het possessivum mijn. De 160 gesprekken bevatten in totaal 1253 realisaties van mijn. De stimuli werden gescoord door drie beoordelaars via een internetapplicatie. In de literatuur worden doorgaans twee uitspraakvarianten onderscheiden: de {\textquoteright}volle{\textquoteright} vorm mijn en de {\textquoteright}doffe{\textquoteright} vorm m{\textquoteright}n. We gaan na of dit inderdaad de enige varianten zijn die in ons corpus voorkomen. Vervolgens onderzoeken we de invloed van de variabelen land, leeftijd en sekse, en besteden daarbij ook aandacht aan factoren als aanwezigheid van klemtoon, toepassing van taalnormen en regionale herkomst van de spreker.

}, author = {Hanne Kloots and Steven Gillis and Marc Swerts} } @article {362, title = {Luistervaardigheid in een tweede taal: verstaan of begrijpen?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Een van de voorwaarden om succesvol te kunnen luisteren in een tweede taal is het kunnen begrijpen wat er gezegd wordt. Om dit begrip te bereiken is het noodzakelijk dat de (meeste) woorden die gezegd worden correct worden herkend. In het talenonderwijs wordt met name aandacht besteed aan het begrijpen van de boodschap, terwijl aan het woordelijk verstaan niet al te veel aandacht geschonken wordt. Resultaten op het luisteronderdeel van examens als het Staatsexamen NT2 laten zien dat deze stiefmoederlijk behandeling van versta-vaardigheid niet terecht is. Veel studenten zakken voor het luisteronderdeel terwijl ze wel slagen voor de andere onderdelen. In het, inmiddels afgeronde, promotieonderzoek dat gepresenteerd zal worden, werd een luistertraining ontwikkeld die volledig gericht was op het (woordelijk) verstaan van de spraak zonder gericht aandacht te schenken aan het begrijpen ervan.

Het hoofdonderzoek dat besproken zal worden, bestudeerde het relatieve effect van twee verschillende methoden om luistervaardigheid te trainen in een tweede taal:

  1. focus op verstaan
  2. focus op begrijpen

Verder zal er ingegaan worden op twee pilotstudies die voorafgaand aan de hoofdonderzoek werden uitgevoerd.

}, author = {Petra Poelmans} } @article {367, title = {More about brows}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Tilburg, The Netherlands}, abstract = {

In this talk we present a series of experiments which try to assess the usefulness of eyebrow movements for the perception of focus in two languages, namely Dutch (a Germanic language) and Italian (a Romance language). The first group of experiments is based on an analysis-by-synthesis method, where claims from the literature are directly implemented in an existing talking head (i.e., a combination of speech with computer graphics). Three aspects are investigated in these experiments: (1) what are the preferences of Dutch/Italian subjects concerning the placement of eyebrow movements, (2) do eyebrow movements influence the perceived prominence of words and (3) to what extend are eyebrow movements functional for the way Dutch/Italian subjects process incoming utterances. The advantage of the analysis-by-synthesis method is that results can immediately be implemented in synthetic characters. Nevertheless, the approach is arguably incomplete. If we also want to make claims about human communication, the analysis-by-synthesis technique should be supplemented with data-oriented approaches. To make this point more concrete we present results of an ongoing study based on analysis-by-observation, in which subjects are asked to utter nonsense words (/mamama/ and /gagaga/) with the focus on one syllable. It turns out that some subjects indeed use eyebrow movements to signal prominence, although various other audio-visual cues are relevant as well.

}, author = {Emiel Krahmer} } @article {365, title = {Multimodale en perceptieve "user interfaces"}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Tilburg, The Netherlands}, abstract = {

Door ontwikkelingen op het gebied van computer- en taal- en spraaktechnologie is de toepasbaarheid van spraak in de interface aanzienlijk toegenomen. Tegelijkertijd leiden ontwikkelingen in de informatie- en communicatietechnologie (ICT) ertoe dat de computer (of afgeleiden daarvan) in alle facetten van het dagelijks leven doordringt. Op het gebied van de aansturing van de systemen door de gebruiker is er behoefte ontstaan aan meer natuurlijke vormen van interactie ("weg van de desktop"). De combinatie van spraak met andere interactietechnologieen speelt daarbij een prominente rol. In de presentatie zal ik ingaan op factoren die aan de orde zijn bij de toepassing van spraak in de interface. Een en ander zal concreet worden gemaakt aan de hand van voorbeelden uit de literatuur en uit eigen onderzoek in het kader van twee samenwerkingsprojecten met andere universiteiten: MATIS (Multimodal Access to Transaction and Information Services) en CRIMI (Creating Robustness in Multimodal Interaction).

}, author = {Jacques Terken} } @article {226, title = {Mutual intelligibility of Chinese, Dutch, and American speakers of English}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Very little is known about the loss of intelligibility that is incurred by L2 speakers when they communicate with native L1 listeners. Even less is known about the differences in intelligibility among L2 English speakers of diverse national back-grounds, such as Chinese-accented speakers of English versus Dutch-accented speakers. The first aim of our study is to test the hypotheses that (i) Dutch English is more intelligible to native listeners of English than Chinese English, and (ii) both foreign-accented varieties are less intelligible to L1 English listeners than native English. Hypothesis (i) follows from a contrastive analysis of the sound systems of the languages involved, showing that Dutch and English are much more similar in their sound structure than Chinese and English. Our third hypothesis relates to the relative intelligibility of the three types of English for non-native listeners. Two hypotheses are plausible here: (iii) L1 English is always more intelligible to listeners of any nationality, since it optimally conforms to the norm the foreign speaker/listeners were taught to adhere to, or (iv) Dutch English is more intelligible to Dutch listeners, and Chinese English to Chinese listeners, as these varieties embody precisely the interference phenomena that the L2 speakers are used to.

We recorded a male and a female speaker of (American) English, of Dutch English and of Chinese English. Speakers were young adults, studying at the university level with no specialisation in English. Five types of English materials were recorded for each speaker: (1) vowel test: a list of word containing the 20 vowels in identical /hVd/ contexts, (2) consonant test: a list of nonsense words /aCa/ containing 24 intervocalic single consonants, (3) cluster test: a list of 20 CC or CCC clusters in /aCC(C)a/ clusters, (4) SUS-test: 30 Semantically Unpredictable Sentences with high-frequency words occurring in syntactically correct but semantically nonsense sentences, and (5) SPIN test: 50 short sentences, with a contextually predictable or unpredictable target word in final position. The entire set of materials was then presented in perceptual identification and recognition tests three groups of listeners belonging to the same population as the speakers.

For each test, hypotheses (i), (ii) and (iv) but not (iii) were supported. In our talk we will present the confusion structure in the vowel, consonant, and cluster data, and show how intelligibility at the sentence level can be predicted through regression analysis from the phoneme-identification results.

}, author = {Wang Hongyan and Vincent van Heuven} } @article {231, title = {NeXTeNS: een nieuw open source tekst-naar-spraak systeem voor het Nederlands}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

NeXTeNS staat voor {\textquoteright}Nederlandse Extensie voor Tekst naar Spraak{\textquoteright}, en is een project dat tot doel heeft om een modern tekst-naar-spraak systeem te ontwikkelen voor onderwijs- en onderzoeksdoeleinden. Het systeem draait onder verschillende besturingssystemen (MS WIndows en Linux), de programmacode is vrij beschikbaar (open source), en het is gratis te verkrijgen en te gebruiken. Eerst beargumenteren we waarom er behoefte is zo{\textquoteright}n nieuw systeem. Vervolgens presenteren we in het kort de doelstellingen, de deelnemers, de ontwikkelingsstrategie (nl. zoveel mogelijk gebruik maken van bestaande voorzieningen en programma{\textquoteright}s), en de architectuur. In de rest van dit praatje zullen we de nadruk leggen op het praktische perspectief: wat kunnen gebruikers met NeXTeNS doen? Tevens zullen we de grafische gebruikersinterface bespreken. Ter afsluiting zullen we een aantal voorbeelden van synthetische spraak laten horen.

}, author = {Erwin Marsi and Joop Kerkhoff} } @article {232, title = {Nederlandse (LVCSR) spraakherkenning/Information Retrieval}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Aan de hand van twee demonstraties wil ik laten zien hoe Nederlandse spraakherkenning ingezet kan worden voor spraak-gebaseerde retrieval. De eerste demo laat zien hoe door middel van "alignment" optimaal gebruik kan worden gemaakt van al aanwezige, niet geheel overeenkomende transcripties van spraak (zoals notulen van vergaderingen) voor het zoeken in audio/multimedia bestanden. De tweede demo toont de op de Universiteit Twente voor het Nederlands ontwikkelde spraakherkenner in actie in het nieuws domein en geeft een idee van de huidige kwaliteit van de herkenning (met groot vocabulaire) en hoe de herkenningsresultaten kunnen worden gebruikt voor het verkrijgen van aan het audiofragment gerelateerde informatie (koppeling nieuwsuitzending aan krantenmateriaal).

}, author = {Roeland J. F. Ordelman} } @article {236, title = {Over het perceptieve belang van ritme en metrum}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De seri{\"e}le volgorde van sterke en zwakke lettergrepen is van belang voor de spraakperceptie, althans in het Engels en het Nederlands. Een woord met beklemtoonde eerste lettergreep wordt sneller herkend dan een woord beginnend met een onbeklemtoonde lettergreep. Maar waardoor wordt dit effect nu eigenlijk veroorzaakt? Door de isochronie van beklemtoonde lettergrepen (ritme) in de hoorbare spraak? Of door de alternantie van sterke en zwakke lettergrepen (metrum)?

In een foneem-detectie-experiment heb ik deze ritmische en metrische factoren proberen te ontwarren. Luisteraars hoorden woordenlijstjes, waarin het doelwoord hetzij metrisch voorspelbaar was (zelfde patroon als voorgangers in lijstje), hetzij metrisch onvoorspelbaar. Bovendien was de {\textquoteleft}timing{\textquoteright} tussen woorden of ritmisch (isochronie van klemtonen), of a-ritmisch. De resulterende reactietijden laten duidelijk effect zien van ritme, maar niet van metrum. Dit resultaat suggereert dat de ritmische {\textquoteleft}timing{\textquoteright} van belang is voor de herkenning van gesproken woorden, en dat luisteraars deze ritmes gebruiken bij de herkenning van gesproken woorden.

}, author = {Hugo Quen{\'e}} } @article {224, title = {Pleidooi voor articulatorische of a-fonetiek}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De\ a-fonetiek ging kopje onder na de eerste bloeiperiode {\textpm} 2500 jaar geleden. Na een tweede bloeiperiode ({\textpm} 1870-1945), dreigt ze opnieuw kopje onder te gaan. De Indiase benadering (articulatorische {\textquoteright}yoga{\textquoteright}, introspectie, auditieve observatie) strookt niet met westerse (empirische, instrumentele, visuele) voorkeuren, c.q. de\ a-fonetiek. Een opleiding tot\ a-foneticus schijnt niet langer te bestaan. Linguisten en fonetici beschouwen nu de\ a-fonetiek als marginaal of irrelevant.

Practisch argument voor a-fonetiek. De fantastische vooruitgang sinds 1870 in de beschrijving van alle vocalisatie stelt ons in staat de uitspraak van talen (Nederlands, Engels{\textellipsis}) nauwkeurig te beschrijven en/of te doceren aan allochthonen. Maar willen we dat wel?

Theoretisch argument. Taal is een netwerk van sociaal bepaalde vorm-betekenis eenheden (Saussure). In uw menselijk brein zitten die betekenissen en (fonologische) vormen als met elkaar verbonden neuro-cognitieve patronen, zintuigelijk -vooral auditief- geleerd. Om uw taaltekens weer sociaal te gebruiken moeten zij uw motoriek (vocalisatie, gebaren) activeren. Ergo: het verschijnsel taal behelst een vicieuze cirkel: fysiologie(hersenactiviteit +motoriek)<->vorm<->betekenis<->fysiologie{\textellipsis} Ergo: a-fonetiek is een onmisbare component van taalkunde.

}, author = {Lucas van Buuren} } @article {234, title = {Prevoicing in het Nederlands}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het algemeen wordt aangenomen dat de Nederlandse plofklanken [b] en [d] aan het begin van een woord met prevoicing worden geproduceerd. Het eerste experiment van dit project laat echter zien dat stemhebbende plosieven regelmatig zonder prevoicing worden gerealiseerd. Er zijn verschillende factoren die de productie van prevoicing be{\"\i}nvloeden. In het tweede experiment wordt onderzocht welke andere potenti{\"e}le akoestische cues aanwezig zijn, die gebruikt kunnen worden bij de perceptie van het fonologische onderscheid tussen stemhebbende en stemloze plosieven. Er is gebruik gemaakt van een CART-analyse om te voorspellen welke van deze akoestische maten het meest betrouwbaar zijn. Tenslotte laat een perceptie-experiment zien welke van deze potenti{\"e}le cues daadwerkelijk worden gebruikt door luisteraars. Hieruit blijkt dat prevoicing de primaire cue is voor het onderscheid tussen stemhebbende en stemloze plofklanken, ondanks het feit dat prevoicing in het Nederlands regelmatig afwezig is.

}, author = {Petra van Alphen} } @article {364, title = {Recalibration of auditory speech by lip reading}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Tilburg, The Netherlands}, abstract = {

The kind of after-effects, indicative of crossmodal recalibration that are observed after exposure to spatially incongruent inputs from different sensory modalities have not been demonstrated so far for identity incongruence. We show that exposure to incongruent audiovisual speech (producing the well-known McGurk effect) can recalibrate auditory speech identification. Exposure to an ambiguous sound, intermediate between /aba/ and /ada/, dubbed onto vision of a face articulating either /aba/ (or /ada/), increased the proportion of /aba/ (or /ada/) responses during subsequent sound identification trials. In contrast, fewer /aba/ (or /ada/) responses occurred when a congruent non-ambiguous sound was dubbed onto the face articulating /aba/ (or /ada/), revealing selective speech adaptation. When submitted to separate forced-choice identification trials, the bimodal stimulus pairs producing these contrasting effects were identically categorized, which makes a role of post-perceptual factors in the generation of these effects unlikely.

}, author = {Jean Vroomen} } @article {235, title = {Restructuring Rhythm Patterns}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

For this experiment we wondered whether the influence of a higher speech rate leads to adjustment of the phonological structure, as it does in music, or just to {\textquoteright}phonetic compression{\textquoteright}, i.e. shortening and merging of vowels and consonants, with preservation of the phonological structure. If the rhythmic structure is adjusted, this implies that every speech rate has its own register, in terms of Optimality Theory (Prince \& Smolensky, 1993) its own ranking of constraints.

The allegro (fast) data were obtained by means of a multiple-choice quiz in which two subjects competed each other in answering simple questions as quickly as possible. Afterwards the subjects were asked to read the words in a sentence, at a moderate speech rate. The data were judged by five trained listeners, and were phonetically analysed in PRAAT.

The results showed a preference for restructured rhythms in fast speech. Particularly for the fastest speakers correspondence constraints prevailed in their andante (moderate) speech, whereas in allegro tempo markedness constraints dominated the correspondence ones.

}, author = {Maartje Schreuder and Dicky Gilbers} } @article {370, title = {Spraakperceptie- en produktie van jonge kinderen met een risico voor ontwikkelingsdyslexie}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

In deze studie werd de ontwikkeling onderzocht van de spraakperceptie- en produktie bij jonge kinderen met een genetisch risico voor dyslexie. Op de leeftijd van 3;6 jaar werd de spraakperceptie van 21 kinderen met een risico voor dyslexie bestudeerd m.b.v. het traditionele paradigma van categoriale perceptie. Het stimulusmateriaal in deze taak was een spraakcontinuum van 7 stimuli tussen de initi{\"e}le plosieven in de woorden {\textquoteright}pop{\textquoteright} en {\textquoteright}kop{\textquoteright}. De resultaten laten een consistent zwakkere performantie zien voor de risicogroep. De risicogroep kan verder verdeeld worden in een slechtere en een betere perceptiegroep.

De spraakproduktie van 23 kinderen met een risico voor dyslexie werd bestudeerd door analyse van elicitatiedata. De groep als geheel vertoont vertraagde expressieve fonologische ontwikkeling. Aan de hand van de fonologische analyse wordt een goede en slechte groep binnen de risicogroep onderscheiden.

11 van de 13 kinderen die moeite hebben met de spraakproduktietaak hebben de perceptietaak volbracht. 8 van deze 11 kinderen zaten in zowel de slechte perceptie-en produktiegroep. De overlap tussen de twee groepen is dus 8/11. Er lijkt dus een verband te zijn tussen foneemwaarneming en expressieve fonologische vaardigheden. Bovendien is het mogelijk dat spraakproblemen in de vroege ontwikkeling voorlopers zijn van dyslexie.

}, author = {Elise de Bree and Ellen Gerrits} } @article {228, title = {Sprekerherkenning door getuigen}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Naast het verrichten van vergelijkend spraakonderzoek, d.w.z. sprekerherkenning door deskundigen, wordt het Nederlands Forensisch Instituut (NFI) een enkele keer ook gevraagd een betrouwbare vorm van sprekerher-kenning door getuigen in elkaar te zetten. Als de zaak voldoet aan een aantal criteria, wordt een {\textquoteright}voice line-up{\textquoteright} geconstrueerd, waarbij de stem van een verdachte in een rijtje van soortgelijke stemmen wordt gezet en aan de getuige wordt gevraagd of hij/zij {\'e}{\'e}n van de stemmen herkent als de stem van de dader.

Om de waarde van de uitkomst van een dergelijke {\textquoteright}voice line-up{\textquoteright} zo goed mogelijk in te kunnen schatten, is het belangrijk dat de line-up aan bepaalde eisen voldoet. E{\'e}n van de eisen die gesteld wordt is dat alle stemmen in de line-up moeten voldoen aan de beschrijving die de getuige geeft van de stem van de dader. Deze beschrijving is echter over het algemeen weinig specifiek. In voorkomende gevallen wordt altijd met een vragenlijst gewerkt, waarbij de getuige enige terminologie krijgt aangereikt. Een voorbeeld van zo{\textquoteright}n vragenlijst zal tijdens de presentatie worden weergegeven. Deze is echter redelijk arbitrair tot stand gekomen. Het vinden van een eenduidige terminologie voor het beschrijven van stemmen blijft een zeer lastige zaak.

}, author = {Tina Cambier-Langeveld and Jos Vermeulen} } @article {227, title = {U verstaat (een klein beetje) Hongaars}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In vloeiende spraak komen taalspecifieke aanpassingen, zoals assimilatie, voor. Zo kan het woordje tuin met een /m/ worden uitgesproken. In hoeverre tuim als een voobeeld van tuin herkend wordt is afhankelijk van de fonologische context, met name in hoeverre die assimilatie toestaat. Zo wordt tuim door Nederlandse luisteraars als tuin herkend in tuimbank maar niet in *tuinstoel. De vraag is nu in hoeverre deze contextsensitiviteit een gevolg is van het leren van assimilatie regels, d.w.z. Nederlanders hebben geleerd dat een /m/ voor een /b/ een /n/ kan zijn? Om dit te onderzoeken hebben wij Portugese proefpersonen met Nederlandse assimilaties en Nederlandse proefpersonen met Hongaarse assimilaties geconfronteerd. Uit de resultaten blijkt dat de contextsensitiviteit bij het herkenning van assimilaties maar ten dele het gevolg is van taalspecifieke ervaring met assimilatieprocessen. Zou u dus Hongaars willen leren, zou de herkenning van geassimileerde vormenbij hoge uitzonderinggeen problemen opwerpen.

}, author = {Holger Mitterer} } @article {233, title = {Vocaalreductie in monomorfematische woorden}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In deze bijdrage presenteren we een onderzoek naar vocaalreductie in het Standaardnederlands aan de hand van data uit het Corpus Gesproken Nederlands. Onder vocaalreductie verstaan we het verkorten van een fonologisch lange klinker tot zijn korte pendant (pr[o]bleem \> pr[ɔ]leem), het verdoffen van een volle klinker tot een sjwa (m[i]nuut/ \> m[ə]nuut]) en de volledige deletie van een klinker (Int[e]resse \> int[]resse). In de fonetische en fonologische vakliteratuur zijn een aantal hypotheses geponeerd over vocaalreductie. De ontwikkeling van het Corpus Gesproken Nederlands geeft ons de mogelijkheid om een aantal van die stellingen te testen op een grote dataset.

Concreet hebben we van een subcorpus van monomorfematische woorden de brede fonetische transcriptie gealigneerd met een referentietranscriptie. Door beide transcripties te vergelijken, kunnen we variatie in de uitspraak op het spoor komen. Uit het onderzoek blijkt dat vocaalreductie be{\"\i}nvloed wordt door fonologische factoren als vocaalkwaliteit, aard van de omringende consonanten, aantal syllaben, syllabestructuur, de relatieve positie van de klemtoon en taalexterne factoren als regio, spreekstijl en woordfrequentie.

}, author = {Evie Couss{\'e} and Hanne Kloots} } @article {372, title = {Welke rol spelen orthografie en fonologie bij morfologische decompositie?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Om de rol van orthografie en fonologie bij morfologische decompositie in het Nederlands te onderzoeken, werden vier verschillende soorten meervouden met elkaar gecontrasteerd in een lexicale decisietest. De meervouden waren in groepen verdeeld op basis van de orthografische (O) en fonologische (P) overlap met hun enkelvoud: helm-helmen (O+P+), paard-paarden (O+P-), beer-beren (O-P+) en huis-huizen (O-P-). De meervoudsvormen werden voorafgegaan door een gerelateerde of een ongerelateerde gemaskeerde prime. De gerelateerde prime was telkens het enkelvoud van het target, de ongerelateerde primes waren nonwoorden die maximum {\'e}{\'e}n letter met het target gemeenschappelijk hadden.

In alle condities werden meervouden sneller herkend wanneer ze voorafgegaan werden door hun enkelvoud dan wanneer ze aangeboden werden in combinatie met een ongerelateerde prime. Het voordeel van de gerelateerde prime was het grootst wanneer de orthografische overlap tussen enkelvoud en meervoud niet compleet was: het prime-effect was in de O-condities (beer-beren en huis-huizen) significant groter dan in de O+condities (helm-helmen en paard-paarden). Bovendien werden er in de O-condities meer fouten gemaakt dan in de O+condities.

De resultaten wijzen erop dat meervouden met een onvolledige orthografische overlap met hun enkelvoud moeilijker te verwerken zijn, dan meervouden waarin alle letters van de enkelvoud behouden zijn. Deze problemen bij de verwerking worden gereduceerd als het meervoud voorafgegaan wordt door een subliminale aanbieding van het enkelvoud.

}, author = {Sarah Bernolet} } @article {404, title = {Analogische verspreiding van stoot- en sleeptoon in Limburg}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Met uitzondering van het zuidoosten van Ned.Limburg geldt in Limburg historisch gezien de regel dat TA 1 sowieso voorkomt op de oude lage lange vokalen, maar op de oude hoge lange vokalen en op de nieuwe lange vokalen alleen indien er een stemhebbende consonant + nog een vokaal op volgde, en dan nog alleen indien apocope plaatsvond. Voor alle categorie{\"e}n bestaan uitzonderingen met historisch {\textquoteright}onverwacht{\textquoteright} TA. Er bestaan verschillende aanzetten tot verzameling c.q. verklaring van deze uitzonderingen, maar nog geen helder dialectgeografisch beeld. Ik zal proberen een overzicht van de problematiek te geven (mede aan de hand van de recentelijk verschenen Fon.Atlas van Ned.Dial.) om mogelijk de richting te vinden waarin de verklaring gezocht moet worden.

}, author = {Michiel de Vaan} } @article {378, title = {Automatische classificatie van spraak door middel van articulatorisch-akoestische kenmerken}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In deze presentatie zal ik ingaan op een onderdeel van mijn proefschrift: Het gebruik van articulatorisch-akoestische kenmerken voor het classificeren van Nederlandse spraakdata.

Allereerst is onderzocht of neurale netten die getraind zijn voor het classificeren van articulatorisch-akoestische kenmerken van Engelse data ook gebruikt kunnen worden om Nederlandse data te classificeren. Neurale netten zijn voor vijf verschillende dimensies getraind, voor Nederlandse data en voor Engelse data: (1) plaats en (2) manier van articulatie, (3) stemhebbendheid, (4) ronding en (5) voor-achter articulatie. De kenmerken {\textquoteleft}ronding{\textquoteright} en {\textquoteleft}voor-achter{\textquoteright} hebben alleen betrekking op vocalen. De articulatorisch-akoestische kenmerken zijn direct afgeleid van de foontranscripties. Bijvoorbeeld de foon /b/ zou de volgende labels krijgen: (1) bilabiaal, (2) plosief, (3) +stem, (4) n.v.t., (5)n.v.t

Meer dan 80\% van de Nederlandse data (op frameniveau) werd door een voor het Nederlands getraind systeem voor alle dimensies correct geclassificeerd, behalve voor de dimensie {\textquoteright}plaats van articulatie{\textquoteright}. Als een neuraal net getraind op Engelse data voor de classificatie van de Nederlandse data gebruikt wordt, blijken de dimensies {\textquoteright}stem{\textquoteright} en {\textquoteright}manier van articulatie{\textquoteright} redelijk goed overdraagbaar te zijn van het Engels naar het Nederlands, terwijl opnieuw {\textquoteright}plaats van articulatie{\textquoteright} erg slecht geclassificeerd wordt.

Verder heb ik onderzocht hoe goed een nieuwe methode werkt waarbij manier-specifieke training van {\textquoteright}plaats van articulatie{\textquoteright} wordt uitgevoerd. De resultaten wijzen uit dat in principe substanti{\"e}le verbeteringen in de classificatie van {\textquoteright}plaats van articulatie{\textquoteright} haalbaar zijn met deze aanpak.

}, author = {Mirjam Wester} } @article {379, title = {Automatische fonetische transcriptie}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In mijn proefschrift worden twee methodes beschreven die gebruikt kunnen worden om automatische spraakherkenning te verbeteren door het modelleren van uitspraakvariatie. Een essentieel onderdeel van deze methodes is automatische fonetische transcriptie. Het gaat hierbij niet om volledige fonetische transcripties; de transcriptietaak kan het beste beschreven worden als het bepalen welke uitspraak van een aantal mogelijke uitspraken het beste past bij het akoestisch signaal. Door een grote hoeveelheid data automatisch te transcriberen kan belangrijke kwantitatieve informatie verkregen worden (zoals frequentie van voorkomen van een bepaalde uitspraakvariant).

Het eerste doel van dit onderzoek was om uit te vinden in hoeverre de automatische transcripties overeenkomen met transcripties gemaakt door ervaren transcribenten. Een tweede doel was om erachter te komen welke eigenschappen van de herkenner de kwaliteit van de automatische transcripties beinvloeden.

De resultaten laten zien dat de automatische transcripties verschillen van de transcripties die door de menselijke transcribenten zijn gemaakt. De verschillen zijn echter van dien aard dat ze acceptabel kunnen zijn, afhankelijk van het doel waar de transcripties voor gebruikt worden. Verder laten de resultaten zien dat bepaalde eigenschappen van een herkenner invloed hebben op automatische transcriptie. Het blijkt echter niet zo te zijn dat een herkenner die de minste fouten maakt in een onafhankelijke herkentaak ook de beste transcripties maakt.

}, author = {Judith Kessens} } @article {254, title = {Automatische generatie en validatie van fonetische transcripties}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Zowel in de spraaktechnologie als in meer fundamenteel fonetisch onderzoek is er op dit moment behoefte aan grote hoeveelheden fonetische transcripties van spraak. Zulke transcripties worden nu vrijwel uitsluitend met de hand gemaakt. Dit is tijdrovend, duur en vaak subjectief en onbetrouwbaar. Daarom is er behoefte aan automatische procedures voor het genereren van zo goed mogelijke fonetische transcripties. Momenteel is het echter nog niet duidelijk wanneer een fonetische transcriptie goed bruikbaar is. Dit hangt namelijk af van de toepassing waarvoor de transcriptie gebruikt moet worden.

Een nieuw project wordt voorgesteld waarin adequate fonetische transcripties automatisch worden gegenereerd en gevalideerd. Momenteel wordt getracht om automatische transcripties zoveel mogelijk te laten lijken op handmatige fonetische transcripties. Later zal in een aantal concrete toepassingen worden onderzocht of de automatische transcripties goed genoeg zijn voor het doel dat ze moeten dienen.

}, author = {Christophe Van Bael} } @article {244, title = {COMIC: een project over multimodale interactie, automatisch redeneren, en mens-machine dialogen}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het COMIC-project (www.mpi.nl/comic) bestudeert het gebruik van multimodale in/uitvoer en van automatisch redeneren in mens-machine communicatie. Het project heeft een theoretisch en praktisch doel die overigens tamelijk verweven zijn. Het praktisch doel is het creeren van een werkend prototype voor een design-systeem dat het ontwerpen van een badkamer ondersteunt. Het design van een badkamer is gekarakteriseerd door een zeer groot aantal opties waarvan de meeste alleen aan specialisten bekend zijn. De gebruiker {\textendash} die meestal geen expert is {\textendash} moet door de applicatie op een informatieve manier door een oerwoud van mogelijkheden worden geleid. Dat oerwoud van mogelijkheden wordt afgegrensd door logische, fysische en esthetische regels die binnen het applicatiedomein gelden. De input van de gebruiker is multimodaal: zowel spraak als 2-dimensionale gebaren (tekeningen, handschrift, aanwijzen enz.) worden door het systeem geinterpreteerd. De automatische spraakherkenner en automatische gebarenherkenner worden gekoppeld en gevolgd door een redeneersysteem (een {\textquoteright}intelligente{\textquoteright} dialoogmanager) dat fouten in de spraak/gebaarherkenning probeert op te lossen door gebruik te maken van de {\textquoteright}hogere-orde{\textquoteright} kennis in en over het domein. Het onderzoeksdoel is, samengevat, uit te zoeken hoe informatie uit gebaar en spraak moet worden samengebracht en geinterpreteerd, in hoeverre automatisch redeneren kan worden toegepast in een {\textquoteright}medium-complex{\textquoteright} domein, en hoe cognitieve aspecten een rol spelen in mens-machine communicatie.

}, author = {Louis ten Bosch} } @article {376, title = {Continuiteit Bewarende Signaal Bewerking (Continuity Preserving Signal Processing, CPSP)}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In mijn proefschrift heb ik een signaalanalyse ontwikkeld die geoptimaliseerd is voor onbekende signalen (d.w.z. signalen waarvan geen a priori kennis beschikbaar is). Ik ga er vanuit dat perceptief belangrijke signaalcomponenten tijdens hun bestaan een deel van het basilair membraan domineren. Door de spatiotemporele continuiteit van het basilair membraan te behouden kunnen representaties ontwikkeld worden waarmee het mogelijk is om vast te stellen welke delen van het basilair membraan door een enkele harmonische gedomineerd wordt. Van deze harmonischen is de instantane frequentie met een nauwkeurigheid van 0.5\% te schatten. Verder is het mogelijk om van een schoon signaal de meest robuuste signaalcomponenten vast te stellen en deze delen in zeer ruizige situaties (0 dB gebabbel) te identificeren en vervolgens te combineren.

}, author = {Tjeerd Andringa} } @article {405, title = {De Middelfrankische toon: Ontstaan en ontwikkeling}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

In een recente bijdrage aan de discussie over de oorsprong van de sleeptoon van het Limburgs, heb ik voorgesteld dat de sleeptoon de fonologische interpretatie is van een fonetische verlenging van korte klinkers in monosyllabische woorden die in een naburig dialect met hoger sociaal prestige een lange klinker hadden. Overname van de lange klinker was niet mogelijk, omdat dat het contrast tussen enkelvouds- en meervoudsvormen zou hebben geneutraliseerd.

Deze hypothese verklaart niet alleen het ontstaan van de toon, maar ook drie andere fonetische verschillen met de stoottoon: (1) de langere duur, (2) de geringere diftongering, en (3) de hogere klinkerkwaliteit.

De verklaring van (2) en (3) is niet evident, maar wordt verklaard door het feit dat hogere klinkers langer worden waargenomen dan lagere, en dat monoftongen als langer worden waargenomen dan diftongen. Een perceptie-experiment zal worden verslagen waarin die bewering wordt getoetst.

}, author = {Carlos Gussenhoven} } @article {247, title = {De afstanden tussen Noorse dialecten perceptief en akoestisch bepaald}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Gooskens \& Heeringa (2002) beschreven een experiment waarbij de taalkundige afstanden tussen 15 Noorse dialecten werden bepaald volgens de perceptie van de sprekers. Deze resultaten werden vergeleken met Levenshtein afstanden, afstanden die bepaald werden op basis van de trancripties van de woorden uit de tekst die ook voor het perceptie-experiment gebruikt werden. De Levenshtein- afstand bepaald hoe zo eenvoudig mogelijk de ene uitspraakvariant veranderd kan worden in de andere door elementen toe te voegen, te verwijderen of te vervangen. De afstand is gelijk aan de som van de gewichten van de gebruikte operaties. De methode is afhankelijk van de betrouwbaarheid van de transcribent.

Het doel van dit onderzoek was het vinden van een akoestische afstandsmaat tussen dialecten die de perceptieve afstanden benadert. We maakten gebruik van verschillende representaties van het akoestisch signaal: Barkfilter- spectrogrammen, cochleagrammen en formant-sporen. De elementen op basis waarvan de Levenshtein-afstand nu werd toegepast zijn de spectra of de formant-reeksen (in plaats van de transcriptie-segmenten). Het gebruik van de formant-sporen bleek afstanden te geven die de perceptieve afstanden het meest benaderen. De resultaten van de transcriptie-gebaseerde aanpak correleren echter nog steeds sterker met de perceptieve afstanden. In het akoestisch signaal bevindt zich in bepaalde mate ook spreker-afhankelijke informatie, terwijl een transcribent abstraheert van stemkwaliteit. Het gebruik van meer samples per woord (in plaats van maar een zoals in ons onderzoek) zou de accuratesse van de metingen verbeteren.

}, author = {Wilbert Heeringa and Charlotte Gooskens} } @article {248, title = {De huig-r in het Nederlands: routes en mechanismes}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Algemeen wordt aangenomen dat de oudste r in het Nederlands de tongpunt-r is. Op een bepaald moment is daar de huig-r bijgekomen. Nu komt de huig-r als dominante variant voor in een groot aantal gebieden van Nederland en Vlaanderen en als enclave temidden van tongpunt-r gebied in een aantal steden (bijvoorbeeld Gent, Den Haag en Zwolle). De huig-r is nu ook geaccepteerd binnen het Standaardnederlands. Er zijn verschillende visies op de herkomst van de huig-r: sommigen denken dat hij uit het Frans afkomstig is (waar hij in de eerste helft van de 17e eeuw ontstaan zou zijn) en anderen denken dat hij (daarnaast) een lokale oorsprong heeft. Deze twee benaderingen zal ik in mijn lezing presenteren. Daarnaast zal ik ingaan op de mogelijke verspreidingsmechanismes. Ik onderscheid daarbij: spontane genese, tweede taalverwerving, eerste taalverwerving, genetische bepaaldheid, sociale imitatie en interne taalverandering.

}, author = {Ren{\'e}e van Bezooijen} } @article {406, title = {De toonkwestie in Weert}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Tot voor kort werd ervan uitgegaan dat het intonatiesysteem van alle Limburgse dialecten gekenmerkt wordt door een lexicaal tooncontrast. Recent komt er steeds meer evidentie ter beschikking dat er nogal wat dialecten toonloos (geworden) zijn. In deze presentatie wordt het lexicaal tooncontrast in het dialect van Weert nader onderzocht aan de hand van nieuwe experimentele gegevens.ongen. Een perceptie-experiment zal worden verslagen waarin die bewering wordt getoetst.

}, author = {Jo Verhoeven} } @article {403, title = {De volgorde der gebeurtenissen in de geschiedenis van het Limburgse tooncontrast}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Oppervlakkig bekeken correleert het Limburgse sleeptoon-stoottooncontrast met de oorspronkelijke Westgermaanse klinkerhoogte en -lengte, met stemhebbendheid van de oorspronkelijk volgende consonant en met het verdwijnen van een schwa in de volgende lettergreep. Nadere beschouwing leert echter dat het verband heel precies voorspelbaar is op grond van de Westgermaanse vormen, en dat afwijkingen van het voorspelde patroon hun eigen verklaring hebben. De voorspelbaarheid leidt ertoe dat we de chronologie van de klankveranderingen eenduidig kunnen bepalen, onder de simpele gebruikelijke aanname dat onvoorwaardelijke lexicale neutralisaties nooit ongedaan gemaakt worden. Ik zal laten zien dat de meeste recente analyses over de oorzaak van het tooncontrast (d.w.z. de meeste analyses van de afgelopen 50 jaar) niet bestand zijn tegen een eenvoudig uitschrijven van alle relevante vormen (fonetisch en lexicaal) in de door deze analyses voorgestelde chronologie. Na het vaststellen van de chronologie zal ik het aldus ontstane "probleem", namelijk dat de voorgestelde tonogenese typologisch uniek en daarmee onwaarschijnlijk is, proberen te ontkrachten.

}, author = {Paul Boersma} } @article {255, title = {Evaluatie van handmatig gecorrigeerde brede fonetische transcripties in het Corpus Gesproken Nederlands}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Voor de ontwikkeling van betere automatische transcripties zijn handmatig gecorrigeerde fonetische transcripties van grote waarde. Automatisch gegenereerde transcripties zijn weliswaar maximaal consistent, maar niet altijd maximaal accuraat, om verschillende redenen. Een manier om de transcripties accurater te maken, is ze handmatig te laten corrigeren. Uit de literatuur is echter bekend dat door mensen gemaakte fonetische transcripties een fors element van subjectiviteit en inconsistentie in zich hebben. In welke mate dit geldt voor de handmatig gecorrigeerde fonetische transcripties zoals die gemaakt worden in het CGN-project, wordt onderzocht aan de hand van twee experimenten.

Als eerste wordt de accuratesse van de handmatige transcripties bepaald door de transcripties van zestien fragmenten op te lijnen met een referentietranscriptie van diezelfde fragmenten. De referentietranscriptie benadert de werkelijkheid zo dicht mogelijk en is ontstaan door consensus tussen twee ervaren fonetici voor ieder symbool. De tweede vraag die beantwoord wordt, is in welke mate de verschillende transcribenten onderling overeenstemmen.

Door bestudering van de data hopen we een goed beeld te kunnen geven van de kwaliteit van de handmatig gecorrigeerde fonetische transcripties in het kerncorpus van het CGN.

}, author = {Diana Binnenpoorte and Simo Goddijn} } @article {249, title = {Fonologie en metalingu{\"\i}stische factoren bij meervoudsvorming in het Nederlands}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Nederlands kent twee re{\"e}el productieve meervoudssuffixen: -(e)n en -s. Regels die gebaseerd zijn op de fonologische kenmerken van een woord, slagen er in het algemeen vrij goed in het meervoudssuffix te voorspellen, maar voorspellen voor leenwoorden vaak het suffix -(e)n in plaats van -s. Dat de status van een woord als leenwoord meervoudsvorming be{\"\i}nvloedt wordt o.a. beschreven in de Algemene Nederlandse Spraakkunst (1997), maar waarom sommige woorden als leenwoord worden ervaren, is echter niet duidelijk. In een experimenteel onderzoek gingen we na of de orthografie van pseudowoorden -die per definitie geen leenwoorden kunnen zijn- de status van leenwoord kan medi{\"e}ren. Deelnemers kregen vragen die een pseudowoord bevatten simultaan in gesproken en geschreven vorm aangeboden. De gesproken vorm werd constant gehouden (is een /fik/ rijk?) , maar in de geschreven vorm werd de orthografie van het pseudowoord gevarieerd (fiek - feak). Dan werd gevraagd een gesproken antwoord te produceren op basis van een zin waarin het meervoud van het pseudowoord moest ingevuld worden (ja, alle {\textendash}{\textendash} zijn rijk). We bespreken de eerste resultaten van dit onderzoek.

}, author = {Emmanuel Keuleers and Gert Durieux and Evelyn Martens} } @article {242, title = {Forensische sprekerherkenning: The True Story}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Nederlands Forensisch Instituut (NFI) te Rijswijk verricht op jaarbasis ongeveer 80 onderzoeken op het gebied van spraak. Het merendeel van deze onderzoeken betreft vergelijkend spraakonderzoek, waarbij het gaat om de vraag of spraakfragmenten van een onbekende spreker (het betwiste materiaal) al dan niet geproduceerd zijn door een bekende spreker (de verdachte). Het betwiste materiaal is meestal afkomstig van door de politie getapte telefoongesprekken.

In de schrijvende pers, in films en tv-series en ?wellicht dientengevolge? ook in fonetische kringen worden nogal eens voorstellingen van forensische sprekerherkenning gegeven die niet stroken met het onderzoek zoals dat aan het NFI uitgevoerd wordt. In deze presentatie zal daarom gepoogd worden een accuraat beeld te geven van het werk van de forensische spraakonderzoekers werkzaam bij het NFI en van de manier waarop de bevindingen gerapporteerd worden aan de opdrachtgever.

}, author = {Tina Cambier-Langeveld and Jos Vermeulen} } @article {243, title = {Gebruikersevaluatie van een multimodaal dialoogsysteem voor treinreisinformatie}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Binnen het IOP-MMI project MATIS (Multimodal Access to Transactions and Information Services) is een multimodaal dialoogsysteem gebouwd voor treinreisinformatie. Het systeem accepteert zowel gesproken invoer als invoer door middel van een pen op een scherm en geeft tevens uitvoer in gesproken vorm en via het scherm. De bruikbaarheid van het interface is ge{\"e}valueerd door middel van twee gebruikerstesten. In de eerste gebruikerstest is het multimodale interface vergeleken met twee unimodale interfaces die dezelfde informatie bieden (te weten de Reisplanner op internet en een puur gesproken dialoogsysteem). De resultaten van deze gebruikerstest laten zien dat het multimodale systeem sneller en succesvoller is dan het gesproken dialoogsysteem en dat de gebruikerstevredenheid stijgt. Vanwege de mogelijkheid tot toetsenbordinvoer was de internetversie van het systeem echter het snelste en daardoor het meest gewaardeerd. In de tweede gebruikerstest is het huidige multimodale interface, waarin de dialoog gestuurd wordt door de gesproken prompts van het systeem, vergeleken met een alternatieve implementatie waarin er door het systeem geen vragen gesteld wordt. Deze evaluatie laat zien dat een systeem waarin geen gesproken dialoog plaatsvindt sneller is, en bovendien de voorkeur heeft van gebruikers omdat het transparanter is en daardoor makkelijker te bedienen.

}, author = {Janienke Sturm} } @article {407, title = {Het verschil tussen stoot- en sleeptoon is in hoofdzaak een duurverschil}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Akoestische metingen aan de Westgermaanse klinkers /i/ en /u/ in Limburgse dorpen waar (nog ) geen diftongering heeft plaatsgevonden, toonde aan dat er twee varianten zijn van elk van die klinkers: een korte en een lange. De korte wordt meestal als {\textquoteright}stoottoon{\textquoteright} waargenomen en de lange als {\textquoteright}sleeptoon{\textquoteright}, maar van enig systematisch verschil in toonhoogteverloop is geen sprake. Echt tonale verschillen werden alleen gevonden in woorden met een {\textquoteright}oude{\textquoteright} tweeklank: zo heeft "stein" (stenen) een veel steilere daling van de grondtoon dan "stein" (steen). Tussen enkel- en meervoud van het woord voor {\textquoteright}konijn{\textquoteright} bestaat echter alleen een duurverschil in de klinker /i/, die in het meervoud een stuk korter is.

De hypothese dat klinkers onder stoottoon eerder diftongeren dan andere klinkers werd bevestigd in een apparent-time onderzoek in een aantal dorpen aan weerszijden van de diftongeringslijn. Klinkers die als stoottonig werden waargenomen bleke eerder te diftongeren dan sleeptonige klinkers. Paradoxaal genoeg betekent dit dat de korte klinkers in het diftongeringsproces voorop lopen.

}, author = {Wim Peeters and Bert Schouten} } @article {377, title = {Klemtoontoekenning in het Nederlands: 1 of 2 routes?}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Een groot deel van het debat omtrent de verwerving van klemtoonsystemen draait om de vraag of kinderen het klemtoonsysteem van hun moedertaal woord voor woord verwerven, door woorden met hun klemtoonpatroon op te slaan, of juist regels (of constraint rankings) afleiden uit het taalaanbod, en die regels productief toepassen.

In dit praatje wil ik betogen dat tenminste een aantal aspecten van de woord-voor-woord benadering noodzakelijk zijn om de wijze waarop volwassenen met onregelmatige klemtoonpatronen omgaan te verklaren. Het uitgangspunt van de discussie is een psycholinguistisch experiment dat predicties test die vanuit beide benaderingen gemaakt kunnen worden. De rest van het praatje gaat over de mogelijkheid van hybride benaderingen, en bespreekt voor- en nadelen van dergelijke modellen.

}, author = {Gert Durieux} } @article {246, title = {Meten van de auditieve emotieperceptie bij vierjarigen. Waarom en hoe?}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Meten van de auditieve emotieperceptie bij vierjarigen. Waarom en hoe? Kleuters van vier hebben over het algemeen geen moeite met praten en contact maken met hun leeftijdsgenoten op de basisschool. Er zijn echter ook kinderen die het moeilijk vinden om contact te maken, om samen te spelen en vriendjes te maken.Juist in talige sociale situaties ontstaan er conflicten of trekken kinderen zich terug.Dit zijn bekende verschijnselen in het speciaal onderwijs voor kinderen met spraak- en taalproblemen.Hierdoor kunnen de taalontwikkeling en de sociaal emotionele ontwikkeling gevaar lopen.De vraag is of het horen en begrijpen van emotie in gesproken taal moeilijkheden oplevert bij kinderen met spraak-en taalproblemen? Er is een poging gedaan om dit objectief te meten.

Een nieuwe toets is ontwikkeld omdat het huidige diagnostische instrumentarium geen onderzoeksmogelijkheden heeft voor de auditieve emotieperceptie. Met behulp van een laptop is er op scholen voor regulier basis onderwijs en speciaal onderwijs (cluster 2) een meting gedaan bij 184 kinderen . ( 100 regulier onderwijs en 84 speciaal onderwijs). De resultaten laten zien dat kinderen van vier jaar met spraak- en taalproblemen significant lager scoren op de toets dan kinderen die geen spraak- en taalproblemen hebben op die leeftijd. Natuurlijk zijn er na een eerste meting nog vragen over de validiteit en betrouwbaarheid maar het paralinguistisch aspect -auditieve emotieperceptie bij vierjarigen- verdient zeker de aandacht van het onderzoeksveld en de praktijk.

}, author = {Ilse Meezen} } @article {375, title = {Prominentie: Akoestische, lexicale en syntactische correlaten}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

In my talk both acoustical and lexical/syntactic correlates of prominence are discussed. Prominence is defined at the word level and is based on listener judgments. A selection of useful acoustic input features is tested for classification of prominent words, with the help of Feed Forward Nets. Spoken sentences from many different speakers, taken from the Dutch Polyphone corpus of telephone speech, are used. For an independent test set of 1,000 sentences about 79\% of the words are correctly classified whether or not as prominent. At the text input level we also developed an algorithm, using linguistic/syntactical features derived from text only, to predict prominence. The prediction agrees with the perceived prominence in 81\% of the cases for the independent test set. It can be concluded that, naive listeners are able to mark prominence. The results of this thesis show that acoustical and linguistic correlates of prominence can be determined automatically, and that these acoustical correlates can be used to accurately predict prominence on the basis of only 12 appropriate features. Prominence assignment of naive listeners is valuable because the determined acoustical and linguistic correlates are able to predict prominence. Agreement measures show that prominence prediction is undistinguishable from the prominence assignment of naive listeners.

}, author = {Barbertje Streefkerk} } @article {241, title = {Rhythme in het Engels en het Frans.}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In een fonologische transcriptie (incl. accent-markering) van het begin van The Story of Arthur the Rat door mijzelf ingesproken zijn de syllabeduren aangegeven volgens een viertal timing-regels. Vervolgens zijn de syllabeduren gemeten in centiseconden om te zien in hoeverre deze regels wel of niet kloppen. Hiervan wordt verslag gedaan.

In een dito transcriptie van Le Rat Arthur ingesproken door een Fran{\c c}aise heb ik de syllabeduren eerst op het oor vastgesteld, en vervolgens eveneens gemeten in centiseconden om te zien hoe (on)betrouwbaar mijn auditorische analyse was. Ook hiervan verslag. Verder nog een eerste poging tot het opstellen van accent- en timing-regels voor het Frans, en wat meer algemene opmerkingen over rhythme in beide talen. Zo mogelijk hoop ik voor 19 December ook nog iets te kunnen doen aan Arthur de Rat en Arthur die Ratte.

}, author = {Lucas van Buuren} } @article {250, title = {Subfonemische cues voor morfologische complexiteit in gesproken woordherkenning}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Recent onderzoek toont aan dat systematische verschillen in klinkerduur en intonatie door luisteraars gebruikt worden voor het oplossen van de ambigu{\"\i}teit tussen monomorfematische woorden met dezelfde onset (bijv. ham - hamster) (Davis, Marslen-Wilson \& Gaskell, 2002; Salverda, Dahan \& McQueen (2002). Deze studie laat zien dat luisteraars dergelijke subsegmentele en suprasegmentele cues ook gebruiken voor het optimaliseren van de morfologische verwerking. De details van de akoestische realisatie van de stam geeft de luisteraar informatie over de morfologische context waarin de stam voorkomt, en verminderen de competitie tussen de inflectionele varianten in het lexicon. Het is dankzij de relatief constante duur van de onset dat luisteraars - ondanks de hoge mate van temporele variabiliteit in het spraaksignaal - in staat zijn gebruik te maken van de durationale cues.

  • Davis, M.H., Marslen-Wilson, W.D. \& Gaskell, M.G. (2002). Leading up the lexical garden-path: Segmentation and ambiguity in spoken word recognition. Journal of Experimental Psychology: Human Perception and Performance, 28, 218-244.
  • Salverda, A.P., Dahan, D., \& McQueen, J.M. (2002). "ham" in "hamster": the role of segmental lengthening in the resolution of lexical embedding in speech comprehension. Submitted.
}, author = {Rachel Kemps and Mirjam Ernestus and Robert Schreuder and H. Baayen} } @article {245, title = {Uitingen van dove en horende babies}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een interessant, veelal verwaarloosd, onderwerp van onderzoek is de ontwikkeling van de klinkerruimte van dove en horende baby_s in de richting van de klinkerruimte van volwassenen. Het ligt voor de hand dat deze ontwikkelingen voor dove en horende kinderen verschillen.

Zoals bekend is het een probleem om zonder voorkennis over de identiteit van een klinker, consistent formanten te meten in uitingen met een hoge grondtoon. Wempe (2001) heeft echter een toonhoogte-gerelateerde analysemethode ontwikkeld, waarmee de spectrale omhullenden betrouwbaar bepaald kunnen worden. Hierdoor kunnen opnamen over de verschillende leeftijden van de kinderen vergeleken worden.

De Wempe-methode is toegepast op uitingen van 5 dove en 5 horende kinderen. Het audiomateriaal is in de thuissituatie opgenomen: maandelijks in de leeftijdsperiode van 5 tot 17 maanden, terwijl er ook nog een opname is gemaakt toen de kinderen 24 maanden oud waren (zie Dikkenberg-Pot \& Koopmans-van Beinum, 1997). Het gehoorverlies van de dove baby_s varieert van 93 tot meer dan 120 dB in het beste oor. In iedere opname is random een 10-minuten-sample gekozen, waarin 50 uitingen zijn geselecteerd. Het betreft dus een database van (5+5)x(13+1)x50 = 7000 uitingen.

In de uitingen worden segmenten van 25 ms geselecteerd die moeten voldoen aan twee criteria. Als eerste geldt dat het segment stemhebbend moet zijn en dat de F0 lager is dan 425 Hz. Ten tweede moet voldaan worden aan de eis dat de intensiteit tenminste 1 dB onder het maximum ligt (zodoende clipping in de opname vermijdend). Ongeveer 15\% van de uitingen uit de database voldoet niet aan deze criteria (de toonhoogte is hoger of de uiting is niet periodiek of grotendeels overstuurd).

Voor de kinderen worden spectrale representaties per opname berekend en bekeken op de veranderingen daarin. Deze spectrale representaties zijn op formanten gelijkende representaties, maar zijn bepaald door een principale componentenanalyses op spectrale omhullenden. Zowel groepsvergelijkingen als individuele veranderingen zullen worden gepresenteerd.

}, author = {Ton Wempe and Jeannette van der Stelt and Louis C.W. Pols} } @article {251, title = {Verwerking van snelle spraak}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Spraak die door sprekers snel is uitgesproken verschilt zowel segmenteel als temporeel van spraak die op normaal tempo wordt geproduceerd. Bij een snel spreektempo is {\textquoteright}gereduceerde articulatie{\textquoteright} vrijwel onvermijdelijk. Daarnaast passen sprekers een niet-lineaire manier van versnellen toe: sommige stukken worden meer verkort dan andere. In dit onderzoek werd het verwerkingsgemak van 3 snelle-spraakcondities vergeleken: (1) natuurlijk geproduceerde (perfect verstaanbare) snelle spraak; (2) kunstmatig versnelde spraak die het temporeel patroon heeft van natuurlijk snelle spraak; (3) kunstmatig lineair versnelde spraak (met dus het temporeel patroon van normaal-tempo spraak). De verwachting was dat conditie (3) het makkelijkst te verwerken zou zijn en (1) het minst omdat hoe meer een woordvorm lijkt op de {\textquoteright}canonieke vorm{\textquoteright}, des te makkelijker is het voor de luisteraar om deze te {\textquoteright}mappen{\textquoteright} op het mentale lexicon. De resultaten bevestigden deze verwachting. De menselijke niet-lineaire manier van versnellen is kennelijk niet bedoeld om het de luisteraar makkelijker te maken, maar de spreker is beperkt. Verder is de luisteraar gebaat bij een zo redundant mogelijk spraaksignaal.

}, author = {Esther Janse} } @article {252, title = {Vowel devoicing of Ainu: How it differs and not differs from vowel devoicing of Japanese}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

The vowel devoicing of (Standard) Japanese is a well-studied phenomenon in which high vowels are pronounced devoiced when flanked by voiceless obstruents: sUkiyaki, kItakaze {\textquoteright}northwind{\textquoteright} (devoiced vowels are capitalized). Less studied is the vowel devoicing of Ainu, a genetically isolated language and the geographic neighbor of the Japanese. The current research revealed that the vowel devoicing of Ainu exhibits characteristics that are unknown or rare to vowel devoicing of Japanese, in contrast with previous studies which claimed that the phonological environment of the phenomenon should not differ in both languages. Examining the sound recordings of the Saru Dialect of Ainu, I found that the speakers never devoiced vowels in the syllables tu, pi and pu (yaytupareno {\textquoteright}carefully{\textquoteright}, akohepututu {\textquoteright}to pout{\textquoteright}), while these are devoiceable syllables in Japanese: pIkupIku {\textquoteright}jerkingly{\textquoteright}, resepUshon {\textquoteright}reception{\textquoteright}. The Ainu data suggest that the vowel devoicing in this language cannot be simply due to ease of articulation (saving vocal cord vibration throughout the syllable in question), an explanation often preferred for the vowel devoicing of Japanese. This deviation suggests that vowel devoicing of Ainu might be governed by distinct mechanisms.

}, author = {Hidetoshi Shiraishi} } @article {253, title = {Wat is het beste IPA-symbool voor de u van put?}, year = {2002}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Er is nogal wat gesold met de transcriptie van de korte/ongespannen hoge geronde voor-klinker zoals die voorkomt in Nederlandse woorden als put en gul. In klassieke fonetiek-boeken wordt het symbool /{\oe}/ gebruikt. Na een recente hervorming van het International Phonetic Alphabet (IPA) heeft Gussenhoven (1999) zijn keus bepaald op het symbool /Y/. Rietveld \& van Heuven (2001: 74) menen dat deze keus niet optimaal is en gebruiken in plaats van /Y/ het symbool /ɶ/, hetzelfde symbool dat eerder al werd voorgesteld door van Reenen \& Elias (1998).

Omdat alle symbolen in het IPA nauwkeurig fonetisch gedefinieerd zijn is de symboolkeus terug te brengen tot een experimenteel aanpakbare vraag. Wij maken daarbij gebruik van de gelukkige omstandigheid dat de 28 klinkersymbolen zoals die zijn opgenomen, en daarmee fonetisch zijn gedefinieerd, in de IPA vowel chart door de IPA-organisatie zijn voorzien van geautoriseerde realisaties. De IPA geeft daartoe een cassette/CD uit waarop twee gere-nom-meerde fonetici (John Wells, Jill House) alle klinkers hebben ingesproken.

Wij hebben de twee maal 28 IPA-klinkers in de computer opgenomen, uit hun midden een maximaal stabiel deel ge{\"e}xcerpeerd, en dit {\textendash} via PSOLA-manipulatie {\textendash} voorzien van een vaste, dalende F0- en intensiteitscontour, waarbij iedere klinker een maal kort en een maal lang is gemaakt. De 112 klinkergeluiden zijn per spreker gerandomiseerd en aangeboden aan een groep Nederlandse luisteraars, die ieder klinkergeluid moesten identificeren als een van de twaalf Nederlandse volle monoftongen. De resultaten wijzen, onder andere, uit dat de IPA-klinker /ɵ/ veel sterker dan /Y/ en /{\oe}/ geassocieerd wordt met de klinker in put.

  • Gussenhoven, C. (1999) Dutch. In: Handboook of the Inter-na-tio-nal Phonetic Association, Cambridge: Cambridge University Press, 74-77.
  • Reenen, P. van \& Elias, M. (1998) Taalverschillen: een werkboek over variatie en verandering in taal. Bussum: Coutinho.
  • Rietveld, A.C.M. \& Heuven, V.J. van (2001) Algemene fonetiek. Bussum: Coutinho.
}, author = {Vincent van Heuven and Roos Genet} } @article {385, title = {Automatische spraakherkenning in omgevingen met achtergrondgeluid}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Het gebruik van telecom diensten zoals {\textquoteright}118{\textquoteright}, het nummer dat geraadpleegd kan worden om inlichtingen over telefoonnummers te verkrijgen neemt almaar toe. Daarmee wordt de behoefte groter om te trachten een deel van dergelijke diensten te automatiseren. Een essentiele stap in die automatisering is het gebruik van de computer om te herkennen wat de gebruiker heeft gezegd. Een goede prestatie van de automatische spraakherkenning is onder andere afhankelijk van de aanwezigheid van achtergrondgeluid. Wanneer er achtergrondgeluid aanwezig is tijdens de herkenning, dan {\textquoteright}hoort{\textquoteright} de herkenner in feite de combinatie van het achtergrondgeluid en de spraakgeluiden. Wanneer het achtergrondgeluid tevoren bekend is, dan kunnen een of meer modellen getraind worden die de herkenner helpen om spraak en achtergrondgeluid van elkaar te onderscheiden. Maar als het achtergrondgeluid onvoorspelbaar is (wat in de praktijk van mobiele telefonie erg vaak voorkomt), dan is er een onbekende verstoring in de waarnemingen aanwezig. Omdat de spraakklankmodellen die de herkenner gebruikt getraind zijn met spraak zonder die onbekende verstoring, ontstaat er een discrepantie tussen de opnamecondities tijdens training en de opnamecondities tijdens gebruik van de modellen.

In het kader van het Europese onderzoeksproject SMADA (Speech-driven Multi-modal Automatic Directory Assistance) is onder andere onderzoek verricht naar combinaties van verschillende signaalbewerkingstechnieken om de uitvoer van een automatische spraakherkenner minder gevoelig voor achtergrondgeluiden te maken. Daarbij zijn verschillende soorten van achtergrondgeluid bestudeerd. De resultaten van deze studie laten zien wat de mogelijkheden en beperkingen zijn van de verschillende methodes die getest zijn om de discrepantie tussen opnamecondities tijdens training en testen te verkleinen.

}, author = {Johan de Veth} } @article {391, title = {De fonetische component in de drie grote regionale dialectwoordenboeken voor het zuidelijke Nederlands}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Mijn lezing handelt over de manier waarop de dialectische fonetica gerepresenteerd wordt in de drie grote regionale dialectwoordenboeken voor het zuidelijke Nederlands: Woordenboek van de Vlaamse Dialecten (WVD), Woordenboek van de Brabantse Dialecten (WBD) en Woordenboek van de Limburgse Dialecten (WLD), die resp. aan de universiteit Gent (WVD, vanaf 1972) en aan de universiteiten van Nijmegen (WBD, WLD, vanaf 1960) en Leuven (deelredactie voor WBD en WLD vanaf 1995) worden samengesteld. Volgende punten worden aangesneden:

a) de manier waarop in de woordenboeken een dialectische fonetische realisatie naar een {\textquoteright}Nederlandse{\textquoteright} trefwoordvorm wordt getransformeerd.

b) de onderscheiden manieren waarop de drie woordenboeken de dialectische fonetica in het fonetische gedeelte (wetenschappelijk apparaat of materiaalbasis geheten) van de woordenboeken proberen weer te geven. Meer bepaald wordt ingegaan op de initi{\"e}le opties en de evoluties daarna.

c) het experiment i.v.m. het samenvoegen van de drie woordenboeken in een zgn. {\textquoteright}Digitale Woordatlas van de zuidelijk-Nederlandse Dialecten{\textquoteright} (zie http://allserv.rug.ac.be/\ jvkeymeu/cyberlemmata). Hierbij wordt ingegaan op de problemen in verband met het samenvoegen van het materiaal uit de drie woordenboeken en worden hypertext-woordenboekartikelen gepresenteerd.

}, author = {Jacques Van Keymeulen} } @article {398, title = {De onderliggende stemspecificatie van woord-finale obstruenten}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

De uitspraak van woord-finale obstruenten als stemhebbend of stemloos is volledig voorspelbaar in het Nederlands: woord-finale obstruenten zijn stemhebbend voor stemhebbende stops en stemloos in alle andere posities. De ONDERLIGGENDE stem-specificatie van de obstruenten is daarentegen distinctief, en volgens de fonologische theorie dus niet voorspelbaar. Inspectie van CELEX leert dat de onderliggende stemhebbendheid van eenwoord-finale obstruent in veel gevallen wel te voorspellen is, en wel op basis van de exacte eigenschappen van de obstruent en de voorafgaande segmenten. De vraag is nu of deze relatie tussen de rijm van een woord en de onderliggende stem-specificatie van de finale obstruent behoort tot de fonologische kennis van een spreker.

Om hier inzicht in te krijgen hebben we een experiment gedraaid waarbij de deelnemers een pseudowerkwoord in de eerste persoon enkelvoud hoorden, en moesten aangeven of de verledentijdsvorm gevormd moest worden met het suffix "de" of "te". Het blijkt dat proefpersonen vaker het suffix "te" gebruiken (en dus vaker een finale obstruent als onderliggend stemloos interpreteren), als er relatief meer woorden met dezelfde rijm eindigen op een onderliggend stemloze dan op een onderliggend stemhebbende obstruent. De relatie gevonden in CELEX blijkt dus tot de kennis van de spreker te behoren, of in ieder geval voor hem afleidbaar te zijn. Op het moment draaien we een experiment waarbij we onderzoeken of deze kennis de interpretatie van de finale obstruenten van bestaande obstruenten beinvloedt. Dit lijkt het geval te zijn.

}, author = {Mirjam Ernestus and H. Baayen} } @article {260, title = {De prosodische realisatie van hi{\"e}rarchische and relationele structuur in teksten}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De alineastructuur is een van de structuurkenmerken van een tekst die door prosodie wordt gemarkeerd, o.a. met lange pauzes tussen alinea{\textquoteright}s en een groter toonhoogtebereik aan het begin van een alinea. In dit onderzoek wordt aangetoond dat ook b{\'\i}nnen alinea{\textquoteright}s bepaalde tekststructurele kenmerken prosodisch gemarkeerd worden. Voor de identificatie van die tekststructurele kenmerken baseren we ons op een tekstanalytisch model, Rhetorical Structure Theory. Het model levert informatie op over drie aspecten van tekststructuur:

  • segmentatie: hi{\"e}rarchische indeling van teksteenheden in niveaus
  • nucleariteit: belangrijkheid van een segment binnen een teksteenheid
  • coherentierelaties: inhoudelijke relaties tussen teksteenheden, zoals elaboratie, oorzaak, achtergrond, conditie, motivatie

Pauzeduur voorafgaand aan een teksteenheid, toonhoogtebereik en spreektempo zijn de prosodische kenmerken die in het onderzoek betrokken zijn. Het onderzoek is uitgevoerd op de voorgelezen versies van twintig lange nieuwsberichten. Naarmate een teksteenheid dieper ingebed is in de tekst pauzeert een spreker korter en spreekt hij/zij op lagere toon. Een nucleaire teksteenheid wordt voorafgegaan door een langere pauze en hij wordt op hogere toon en in een langzamer tempo uitgesproken dan een niet-nucleaire teksteenheid. De aard van de coherentierelaties heeft ook een effect op prosodie. Sommige verschillen in prosodische realisering lijken interpreteerbaar in termen van klassen waarin de relaties kunnen worden ingedeeld, bijv. causale relaties versus niet-causale relaties.

}, author = {Hanny den Ouden} } @article {395, title = {De relatie tussen leesprestatie en het nazeggen van pseudowoorden. Een vergelijking tussen goede en zwakke lezers}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Kinderen met voor hun leeftijd (gem. 10;1) lage lees- en spellingscores en kinderen met normale lees- en spellingscores voor hun leeftijd (gem. 7;11) kregen de opdracht pseudowoorden na te zeggen. De pseudowoorden waren van uiteenlopende lengte (een tot en met vier syllaben) en verschilden in de frequentie waarmee hun lettergrepen in het Nederlands voorkomen. De twee groepen verschilden in hun nazegprestaties en er werd een effect van woordlengte en syllabefrequentie op de nazegscores gevonden, maar er was geen interactie tussen groep en woordkenmerken. Foutenanalyse naar de plaats en het type van de foutief gereproduceerde spraakklanken en naar de kenmerken van de spraakproducten liet ook geen verschil tussen de proefpersoongroepen zien. Deze resultaten zijn in strijd met enkele gangbare hypothesen.

}, author = {W. Van Bon and Robert Schreuder} } @article {267, title = {De uitspraak van de Nederlandse ei bij avant-gardistische mannen en vrouwen: een akoestische studie}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Volgens Stroop (1999; www.hum.uva.nl/poldernederlands) ontwikkelt zich een nieuwe vorm van het Nederlands bij hoogopgeleide, vooruitstrevende vrouwen in heel Nederland. Dit zgn. Poldernederlands wordt met name gekenmerkt door verlaging ("verwijding") van de diftongen ei, ui en au. We testen deze sociofonetische claim door een jaar lang (alle) gasten (16 mannen, 16 vrouwen) van hetzelfde vooruitstrevende televisieprogramma op band op te nemen en uit de opnames per spreker at random 10 beklemtoonde tokens van de klinker ei te selecteren, evenals 5 vergelijkbare tokens van de ie en 5 van de aa. Klinkerduur en formanten (F1...F2) zijn gemeten, de laatste op 1/4 en op 3/4 van de duur van de ei, en op het temporeel midden bij ie en aa. Relatieve klinkerwijdte werd uitgedrukt als een percentage van de spectrale - twee-dimensionele - afstand in Bark tussen ie (0\%) en aa (100\%). Grootte van de verglijding werd op analoge wijze relatief uitgedrukt. De sprekers werden per sekse verdeeld in een sterk- en een zwakverlagende helft. Bij de sterk-verlagende groep vertoonden de vrouwen inderdaad significant lagere ei-inzetten dan de mannen. Bij de zwak-verlagende helft van de sprekers was er geen effect. Bij alle sprekers was de duur van de ei gelijk aan die van de aa. We interpreteren dit resultaat als steun voor de sociolinguistische claim van Stroop: vrouwen lopen bij deze taalverandering voor op de mannen. Het is niet zo dat de ei verandert in een aai (dus wei wordt niet waai): de diftong wordt alleen lager en niet sterker of langer.

}, author = {Loulou Edelman and Vincent van Heuven and Ren{\'e}e van Bezooijen} } @article {382, title = {Een ASR benadering van psycholinguistische modellen voor woordherkenning}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

E{\'e}n van de meest invloedrijke modellen voor de simulatie en verklaring van menselijke spraakperceptie is het Shortlist model. Woordherkenning in Shortlist komt tot stand door de invoer strikt bottom-up te matchen met een intern lexicon. Hoewel Shortlist een groot aantal belangrijke effecten die in psycholingu{\"\i}stische experimenten zijn vastgesteld kan reproduceren, bevat het model enkele simplificaties waarvan het bekend is dat ze onrealistisch zijn.

Mensen herkennen woorden op basis van het spraakgeluid. Echter, Shortlist kan alleen woorden herkennen als de input van het model uit een reeks van discrete foneemsymbolen bestaat. Dit betekent dat een eerder proces het continue spraaksignaal om moet zetten in een rij van foneemsymbolen. Dit is de eerste belangrijke simplificatie.

Een tweede tekortkoming, die hiermee samenhangt, is dat de identiteit van de fonemen niet per s{\'e} correct hoeft te zijn, maar het aantal wel. Als het aantal fonemen fout is, heeft Shortlist de grootste moeite om een match te maken tussen de input foneemreeks en de foneemrepresentaties van de woorden in het lexicon.

Dit onderzoek stelt zich tot doel de symbolische input van Shortlist te vervangen door een interface dat een akoestisch signaal omzet in een reeks fonemen. Deze presentatie gaat in op het onderzoek dat tot nu toe gedaan is om het akoestische signaal om te zetten in een rij van fonemen, waarvan het aantal (zo veel mogelijk) overeenkomt met het aantal fonemen in de interne foneemrepresentatie van het woord in het lexicon van Shortlist.

}, author = {Odette Scharenborg} } @article {383, title = {An Experimental Neurolinguistic Approach Question Intonation in Standard Chinese}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Introduction

The present investigation is inspired by {\textquoteright}Phonetic Correlates of Statement versus Question Intonation in Dutch{\textquoteright} ( Van Heuven, V. \& J. Hann, 2000). The production data from one of my patients {\textendash} Aphasian-7 suggest that the sentence intonations, statement (S) vs question (Q), were severely impaired in Broca{\textquoteright}s aphasic speech. However, the data from other patients with left-hemisphere brain damage seem less severely impaired.

Issues

Question arises as how the S/Q intonation are impaired in Aphasian-7{\textquoteright}s speech, or what phonetic correlates that matter in S/Q intonation in Chinese, and whether there are systematic impairment in S/Q intonation after left brain damage, or if it is possible to locate the prosodic features used in sentence production of Chinese in the brain.

Significance

It is said Standard Chinese employs a number of sentence-final question particles, has no specific question intonation, but may raise pitch for questions [1,2]. The present research will throw light on the unsettle problem whether Chinese has specific question intonation or not, what is the primary prosodic cue which Chinese employs in Q intonation. From my previous study, evidence show that segmental phonemes and lexical tones are realized in the different part of the brain, which happens to be consistent with autosegmental theory. Following these data, I would like to know if lexical tones and sentence intonations are realized in different parts of the brain or not, which bears to the prosodic hierarchy since fundamental frequency has be used both on lexical level and sentence level in Chinese.

}, author = {Jie Liang} } @article {401, title = {Fonologisch bewustzijn en de rol van fonologische categorie{\"e}n bij de verwerking van spraak}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Fonologische categorie{\"e}n, zoals morae in het Japans of klemtooneenheden in het Engels, spelen een rol bij de perceptie van gesproken taal. Deze lezing zal de aard van deze rol en de relatie ervan tot het fonologisch bewustzijn belichten, in het bijzonder voor het Japans. Drie types evidentie zullen besproken worden:

  1. diverse traditionele types van woordspelingen en woordspelletjes,
  2. studies van gesproken woordherkenning in context en
  3. de resultaten van een nieuwe taak, waarin luisteraars echte woorden reconstrueerden vanuit gesproken input met distorties van {\'e}{\'e}n enkele CV-mora (bv. panorama uit panozama).

Het patroon van resultaten laat zien dat de mora bijzonder toegankelijk is in het fonologisch bewustzijn van Japanse luisteraars maar toch geen rol speelt bij de vroege verwerking van gesproken woorden. Toch spelen ritmische categorie{\"e}n een rol tijdens de verwerking - ze leggen niet enkel beperkingen op aan de initi{\"e}le lexicale activatie maar tevens aan de erop volgende processen van spraaksegmentatie en de selectie tussen woordkandidaten.

}, author = {Anne Cutler} } @article {262, title = {Hebben Nederlandse kinderen een voorkeur voor trocha{\"\i}sche productievormen?}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Jonge kinderen kunnen meersyllabische woorden nog niet op een getrouwe manier reproduceren. Vaak worden meersyllabische woorden getrunceerd: er worden syllabes weggelaten. Volgens de huidige theorie{\"e}n (Fikkert, 1994; Wijnen, Krikhaar \& den Os, 1994) heeft dit te maken met een ritmische voorkeur voor trocha{\"\i}sche woorden. Woorden die niet in een trocha{\"\i}sch ritme passen, worden getrunceerd. In deze paper evalueren we deze verklaring aan de hand van twee kindertaalcorpora (Gillis, 1984; Fikkert, 1994; Levelt, 1994). We testen 3 predicties. (1) Jambische woorden worden vaker getrunceerd dan trocha{\"\i}sche woorden. (2) Getrunceerde producties hebben een trocha{\"\i}sch ritme. (3) De segmentele structuur van de target woorden is niet relevant. Twee van de drie predicties worden tegengesproken door de data. We bespreken de gevolgen hiervan voor de huidige theorie.

  • Fikkert, P. (1994). On the acquisition of prosodic structure. Rijksuniversiteit Leiden.
  • Gillis, S. (1984). De verwerving van talige referentie. Universitaire Instelling Antwerpen.
  • Levelt, C. C. (1994). On the acquisition of place. The Hague: Holland Academic Graphics.
  • Wijnen, F., Krikhaar, E. \& Den Os, E. (1994). The (non)realization of unstressed elements in children{\textquoteright}s utterances: Evidence for a rhythmic constraint. Journal of Child Language, 21(1), 59-83.
}, author = {Helena Taelman and Steven Gillis} } @article {386, title = {Het IFA corpus}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Het IFA corpus is een middelgroot corpus van ongeveer 50.000 woorden met de hand gelabelde en gesegmenteerde spraak (in totaal ongeveer 5 1/2 uur spraak). De spraak stamt van 8 sprekers, 4 mannen en 4 vrouwen, die ieder meer dan een uur ingesproken hebben in 8 verschillende spreekstijlen, van informeel (spontaan) tot voorgelezen onzinwoordjes. Het gehele corpus is toegankelijk via: http://www.fon.hum.uva.nl/IFAcorpus. Het corpus is beschikbaar voor iedereen onder de GNU General Public License (dwz., Open Source).

}, author = {Rob van Son} } @article {271, title = {Het gebruik van cooccurrence values gebaseerd op het WWW voor het voorspellen van prosodische frasering.}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Cooccurrence values geven aan wat de waarschijnlijkheid is dat twee woorden naast elkaar voorkomen. Onze hypothese is dat een hoge cooccurrence value aangeeft dat twee woorden sterk met elkaar zijn verbonden en dat er daarom geen frasegrens op een juncture tussen de woorden mag worden geplaatst. Bekende methoden voor het bepalen van cooccurrence values zijn mutual information, chi-square en log likelihood. In recent onderzoek (Volk, 2000) is gebruik gemaakt van het WWW als corpus voor het berekenen van cooccurrence values voor het Duits. Het voordeel van het gebruik van het WWW als corpus is dat het het grootste beschikbare corpus is. In het hier besproken onderzoek hebben we deze methode toegepast voor het Nederlands. We bespreken verschillende methoden voor het berekenen van de cooccurrence relatie en de toepasbaarheid van deze methoden voor het voorspellen van prosodische frasegrenzen.

}, author = {Olga van Herwijnen} } @article {265, title = {Het gebruik van spectrogramvergelijking in de meting van dialectafstanden}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Voor de bepaling van dialectafstanden is de Levenshtein afstand een bruikbare metriek (Kessler (1995) en Nerbonne et al. (1999)). Bij deze metriek is de woordafstand gelijk aan het minimale aantal operaties (klanken toevoegen, verwijderen, vervangen of {\textquoteright}matchen{\textquoteright}) waarmee de uitspraak in het ene dialect kan worden veranderd in de uitspraak van het andere dialect. Een match heeft gewicht 0, de overige operaties gewicht 1. De som van de gewichten is de woordafstand, de som van de woordafstanden de dialectafstand. Bij gebruik van een featuresysteem wordt met de mate van verwantschap tussen klanken rekening gehouden. Betere dialectclassificaties worden echter verkregen door klankafstan- den te bepalen als de Euclidische afstand tussen de spectra van de spectrogrammen met een Bark-schaal. I.t.t. een featurebeschrijving is een spectrogram DIRECT gebaseerd op daadwerkelijke metingen. {\textquoteright}Stilte{\textquoteright} kan nu ook goed gedefinieerd worden, nodig voor de graduele gewichten voor toevoegen en verwijderen.

}, author = {Wilbert Heeringa} } @article {397, title = {Hoeveel "teit" kost fonologie? De rol van sublexicale fonologie bij visuele lexicale decisie}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

In twee lexicale-decisie experimenten hebben we pseudohomofonen zoals TEIT (klinkt als TIJD) met verschillende instructies aangeboden en daardoor gemanipuleerd hoezeer lezers het herkennen van woorden op fonologische informatie moesten baseren. In Experiment 1 moesten de proefpersonen pseudohomofonen net als andere niet-woorden (zoals TEIP) afwijzen. In Experiment 2 moesten ze beoordelen of een letterreeks klinkt als een woord en dus pseudohomofonen accepteren. Het was een beetje moeilijker om een pseudohomofoon af te wijzen dan andere niet-woorden. Om een pseudohomofoon als woord te accepteren was echter tien keer zo moeilijk. Deze asymmetrie impliceert dat lexicale beslissingen voornamelijk op orthografische informatie gebaseerd worden en de fonologische informatie in deze taak een marginale betekenis heeft. In de experimenten werden woorden met een consistent of een inconsistent mapping tussen letters en klanken aangeboden. Inonsistente woorden (zoals JEEP) werden even snel en even accuraat aanvaard als consistente woorden (zoals ROEP). Dit was het geval in beide lexicale-decisie experimenten, terwijl in een benoemingstaak (Experiment 3) fonologische consistentie een sterk effect op leestijden en fouten had. Bij elkaar gaven de data geen ondersteuning aan een sterke rol van sublexicale fonologie bij lexicale decisies. De resultaten spreken er voor dat fonologische informatie weliswaar automatisch verwerkt wordt, maar te laat beschikbaar is om in lexicale beslissingen een grote rol te spelen.

}, author = {H. Martensen and Erwin Marsi and T. Dijkstra} } @article {381, title = {Intonatie modellering voor meerdere talen en verschillende tekst-types}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Om een intonatiemodel voor meerdere talen te ontwikkelen werd eerder al met een datagedreven methode ge{\"e}xperimenteerd. Deze methode bestaat eruit vijf pitch waarden per syllabe te voorspellen aan de hand van een set features die afgeleid wordt uit de orthografie. Hiervoor wordt een recurrent neuraal netwerk (RNN) gebruikt.

De methode is met succes toegepast om intonatiecontouren van ge{\"\i}soleerde zinnen in zes verschillende talen te voorspellen. E{\'e}n van de doelen van dit project was te experimenteren met grote tekstdocumenten van verschillende teksttypes. De ontwikkelde methode is daarom in de eerste plaats aangepast om met grote tekstdocumenten om te gaan. Vervolgens is er voor drie talen (Engels, Nederlands en Frans) ge{\"e}xperimenteerd met modellen die enkel getraind zijn op {\'e}{\'e}n teksttype, en modellen die getraind zijn op data van meerdere teksttypes. Voor elke taal werden tests uitgevoerd voor vier verschillende teksttypes, namelijk instructies, nieuws, verhalen en technische teksten.

Een tweede uitbreiding ten opzichte van intonatiemodellering voor ge{\"\i}soleerde zinnen, is het gebruik van HTML-features. In tegenstelling tot ge{\"\i}soleerde zinnen, zijn de tekstdocumenten afkomstig van het internet. Onderzoek moest uitwijzen of het gebruik van HTML-features, die iets zeggen over de structuur van een tekst (vb. eerste woord in paragraaf), of die aangeven of een woord bijvoorbeeld "bold" of "italic" geschreven is, het eindresultaat positief be{\"\i}nvloedt.

In de presentatie zal uitleg gegeven worden over de opzet van de verschillende experimenten en de daaruit volgende resultaten.

}, author = {Jeska Buhmann} } @article {259, title = {Intonatie, partikels en de interpretatie van nederlandse v1-zinnen}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Afhankelijk van hun intonatie kunnen sommige Nederlandse (bij)zinnen met de persoonsvorm op de eerste plaats (V1) ge{\"\i}nterpreteerd worden {\'o}f als bevel (Koopt u dit boek!) {\'o}f als vraag (Koopt u dit boek?) {\'o}f als voorwaardelijke bijzin (Koopt u dit boek, dan ...). Hoe groter de eindstijging, des te groter de kans op de vraag-interpretatie. Bevat de uiting echter een woord dat een van de interpretaties belemmert, dan voorspellen we interactie met de intonatie. De eindstijging van V1-uitingen werd systematisch gevarieerd in drie soorten V1-uitingen: zonder partikel, met (accentloos) wel (Koopt u dit boek wel?) en met (accentloos) maar (Koopt u dit boek maar!). Luisteraars beslissen of de stimulus een bevel, conditional of vraag is. We voorspellen een categoriale boundary shift weg van het vraag-extreem in zinnen met maar (blokkeert vraag-interpretatie) en weg van het bevel-extreem in zinnen met wel (blokkeert bevel-interpretatie). Indien dit resultaat gevonden zou worden hebben we een prosodische pendant van het "Bill Ganong III effect" (Ganong, W.F. III: Phonetic categorization in auditory word perception. Journal of Experimental Psychology: Human Perception and Performance, 6, 1980: 110-125).

}, author = {Vincent van Heuven and Robert S. Kirsner} } @article {396, title = {Klemtoon, regels en lexicon: Een psycholingu{\"\i}stische benadering}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Binnen de literatuur omtrent de verwerving van het Nederlands klemtoonsysteem bestaat discussie over de vraag of dit proces regel-gebaseerd verloopt of veeleer lexicaal. In dit praatje leveren we een bijdrage tot deze discussie door te kijken naar het eindpunt van het proces, nl. de volwassen toestand.

We introduceren twee voorleestaken waarin volwassen moedertaalsprekers een aantal Nederlands-lijkende pseudo-woorden moeten beklemtonen. De stimuli werden gevarieerd op het aantal beschikbare lexicale buren en de (on)regelmatigheid van de klemtoonpatronen daarvan. We presenteren de resultaten van beide experimenten en bespreken de implicaties ervan voor hypotheses over een onderliggend verwerkingsmodel.

}, author = {Gert Durieux and Walter Daelemans and S. Frisson and Steven Gillis and Dominiek Sandra and Helena Taelman} } @article {264, title = {One-to-multiple vowel mapping in the perception of Dutch learners of Spanish}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

We show that second-language perception can be problematic if an L2 phoneme has multiple correspondents in the native language. As an example, we tested the perception of Spanish vowels by Dutch learners of Spanish. It turns out that the average learner indeed shows poorer identification performance for short front vowels (of which Spanish has two and Dutch has three) than for short back vowels (of which both languages have two), which is the exact reverse of what L1 Spanish listeners do. The learners have different perception strategies according to the language that they think they hear: when having to identify the vowels in Spanish CVC contexts by using Dutch vowel categories, they use the extra L1 category (/I/) much less than if they think that the language is Spanish rather than Dutch. This difference between the two modes of perception turns out to correlate strongly with the subjects{\textquoteright} performance on an identification task with Spanish response categories. This suggests that learners try to solve the problem of the extra category by gradually removing it from their perception.

}, author = {Paola Escudero and Paul Boersma} } @article {384, title = {Onset-selectie in getrunceerde kinderuitingen}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Amsterdam, The Netherlands}, abstract = {

Kenmerkend voor vroege kindertaalverwerving (rond 2 jaar) is het trunceren van polysyllabische woorden: woorden worden korter uitgesproken dan volwassenen zouden doen. Kinderen lijken met name een voorkeur te hebben voor de beklemtoonde en woordfinale lettergrepen, bijv. away -\> [we], olifant -\> [olfAnt], animal -\> [nimU] (Smith 1973, Fikkert 1994, Pater 1997). Dit proces blijkt een aantal uitermate intrigerende aspecten te hebben. Mijn onderzoek richt zich op verkortingen die (vanuit de optiek van het kind) discontinue selecties zijn uit de volwassen vorm. Er zijn data te vinden waarbij de onset-rijm combinaties van de behouden lettergrepen niet per se opeenvolgend zijn in de volwassen vorm, bijv. konijn -\> [kEIn], waar /k/ de voorkeur krijgt over /n/ in onset positie, ondanks het feit dat /k/ in de onbeklemtoonde lettergreep zit. Het doel van dit project is te onderzoeken welke factoren onset-selectie in truncaties be{\"\i}nvloeden.

Voorgaande studies duiden op de volgende factoren: (1) sonoriteitshi{\"e}rarchie: evenals in consonantcluster reductie, vertonen kinderen een voorkeur voor een zo min mogelijk sonore consonant in onset positie, d.w.z., stop \>\> fricatief \>\> nasaal \>\> liquidae \>\> verglijder; (2) plaats van articulatie: labiale en dorsale consonanten hebben de voorkeur boven coronale klanken in de onset; en (3) prominentie: in principe blijven alle segmenten van de beklemtoonde en meest-rechtse lettergrepen behouden, afhankelijk van sonoriteit en plaats van naburige onsets.

Op basis van deze observaties is een verzameling onzin woorden ontworpen waarin sonoriteit, plaats, en prominentie gecontroleerd worden. In een experiment zal aan kinderen vanaf [1;10] deze nonsens woorden worden aangeleerd, in de hoop dat zij vervolgens in hun output zoveel mogelijk truncaties produceren. (Bestaande twee- en driesyllabische woorden zullen als controlewoorden worden toegevoegd). In dit praatje wil ik de pilot resultaten voorleggen en bespreken.

}, author = {Brigit van der Pas} } @article {258, title = {Perceptie van spraakmelodie bij tracheo-oesofageale sprekers en fluisterende laryngeale sprekers}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Tracheo-esofageale (TE) stemgeving is een manier van stemgeven na laryngectomie (chirurgisch verwijderen van het strottenhoofd). Bij TE-sprekers is een ventiel geplaatst dat de luchtpijp (trachea) verbindt met de slokdarm (oesofagus). Pulmonale lucht wordt zodoende in de slokdarm geblazen en brengt het slijmvlies in de slokdarm in trilling ("stem"-geving). Bij een aantal van deze TE-sprekers zijn fundamentele frequentie en harmonischen niet meetbaar, terwijl luisteraars wel pitch-accenten waarnemen (vorig onderzoek). Duur of intensiteitscues bleken geen rol te spelen. Van fluisterspraak is bekend dat luisteraars "hoog" of "laag" gefluisterde klinkers en zelfs lexicale toon kunnen identificeren. In het huidige onderzoek wordt perceptie van spraakmelodie in beide groepen systematisch onderzocht. Het eerste experiment liet zien dat luisteraars spraakmelodie wel konden detecteren. Het tweede experiment wees uit dat luisteraars vaak de melodie, zoals bedoeld door de luisteraar, herkenden (dus niet lingu{\"\i}stisch irrelevante akoestische informatie als spraakmelodie interpreteerden). Het derde experiment onderzocht of expert-luisteraars de intonatiepatronen konden identificeren. In het praatje zullen de methoden en resultaten van de drie experimenten besproken worden.

}, author = {Maya van Rossum} } @article {268, title = {Plaatsnaamherkenning en het trainen van akoestische modellen}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Bij het trainen van akoestische modellen ten behoeve van automatische spraakherkenning (ASR) geldt, dat hoe meer het trainingscorpus overeenkomst vertoont met de herkentaak, hoe beter de spraakherkenner zal presteren. KPN wilde binnen de dienst 118, de dienst inlichtingen telefoonnummers binnenland, het transcriberen van de plaatsnamen automatiseren met behulp van ASR. Het bovenstaande betekent dat hiervoor modellen getraind zouden moeten worden met een trainingscorpus bestaande uit plaatsnamen. Het probleem hierbij is echter, dat de hoeveelheid trainingsmateriaal te weinig van de minder frequente fonemen bevat. Het gebruikelijke alternatief is in dit geval het trainen van generieke modellen met een trainingscorpus bestaande uit fonetisch rijke zinnen. Dit zijn zinnen waarbij er opzettelijk voor gezorgd is, dat de minder frequente fonemen in voldoende mate vertegenwoordigd zijn. In dit onderzoek is onderzocht of applicatiewoorden, achternamen en straatnamen een zinvolle toevoeging aan het corpus met plaatsnamen vormen. Hierdoor zouden betere herkenresultaten bij de herkenning van spontaan (uitgesproken) plaatsnamen behaald moeten worden. Dit is het geval gebleken. Dit onderzoek is verricht in het kader van een stage bij KPN Research in het kader van een afstudeerproject bij de leerstoelgroep Fonetische Wetenschappen van de Universiteit van Amsterdam

}, author = {Daniel Salomons} } @article {399, title = {Subsyllabische eenheden in het fonologisch bewustzijn: Maken jonge kinderen spontaan gebruik van onset en rime?}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Met behulp van een reeks auditieve taken zoals analyse en substitutie onderzochten we (1) de vaardigheden van kleuters om CV-syllaben (/ka:/) en VC-syllaben (/a:k/) te manipuleren en (2) de relatie tussen deze vaardigheden en later leessucces. De kleuters presteerden beter op VC-syllaben. Deze resultaten gaan in tegen de predicties van de fonologische onset-rime theorie die stelt dat onsets (b.v.., /spl/ in split) en rimes (b.v.., /it/ in split) functionele eenheden zijn in het fonologisch bewustzijn van jonge kinderen, mogelijk omwille van het saillante karakter van rijm (zie Goswami \&er; Bryant, 1990; Schreuder \& Van Bon, 1989; Treiman, 1989; Trommelen, 1984). Binnen deze theorie zou het opbreken van CVs, m.a.w. het opsplitsen van onset en rime, makkelijker moeten zijn dan het opbreken van VCs, omdat je daar de fonologische rime stuk moet maken. Experimenten met meer dan 200 jonge kinderen toonden echter het tegendeel aan. Bovendien demonstreren ze dat perceptuele en articulatorische factoren een belangrijke rol spelen bij het ontdekken van klanken maar dat het omgaan met klanken niet noodzakelijk foneembewustzijn impliceert. Dat blijkt heel duidelijk uit de samenhang tussen CV- en VC-prestaties enerzijds en latere leesscores anderzijds. Correlaties met die leesscores op genormeerde leestoetsen tonen aan dat enkel prestaties in de CV-conditie de latere leesontwikkeling voorspellen. Deze bevindingen kunnen vertaald worden in suggesties voor het leesonderwijs: de natuurlijke ontwikkeling van klankbewustzijn, het opzet van diagnostische tests en instructiemateriaal.

}, author = {Astrid Geudens and Dominiek Sandra} } @article {266, title = {Taalcontacten in het russische noorden}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Doel van dit project is een onderzoek naar het taalcontact in Noord-Rusland tussen het Russisch en de daar gesproken inheemse talen Nenets en Komi, twee Oeralische talen. Het onderzoeksgebied wordt gevormd door de Nenets Autonome Okrug en aangrenzende streken. In dit gebied zijn de bewoners vaak twee- of drietalig en zijn er wederzijdse taalinvloeden te constateren. In dit onderzoek wordt een taalcorpus voor het aldaar gesproken Russisch, Nenets en Komi met informanten uit verschillende generaties aangelegd dat het uitgangspunt zal vormen voor verdere analyse. De contactverschijnselen worden door middel van een contrastieve fonetisch-fonologische veldwerkstudie in kaart gebracht. Hierbij worden zowel segmentele als suprasegmentele fonetische eigenschappen onderzocht. Naast een synchroon perspectief heeft het onderzoek een diachrone component door taalbeschrijvingen uit historische bronnen en oude opnames in geluidsarchieven in St. Petersburg te vergelijken met de resultaten van hedendaags veldwerk. Naast een bijdrage tot het oplossen van fonetische kwesties op het gebied van de Oeralistiek en Slavistiek (zoals het probleem van de glottisslag in het Nenets) zal hierdoor meer inzicht worden verkregen in wetmatigheden bij processen van taalverandering en taalcontact. We zullen de eerste resultaten van ons veldwerk presenteren: een databank van spraakmateriaal Russisch en Nenets die ook zal worden gebruikt voor de didactiek van deze minderheidstaal.

}, author = {Markus Bergmann} } @article {269, title = {Transcriptie van zinsprominentie, klankverlenging en prosodische grenzen door absolute beginners.}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Delen van het Corpus Gesproken Nederlands moeten worden verrijkt met een prosodische annotatie. In een pilootstudie gaan we na hoe goed na{\"\i}eve (d.w.z. zonder prosodisch-fonetische scholing) transcribenten in staat zijn om, aan de hand van een schriftelijk instructieprotocol en na een relatief korte oefenfase met feedback, te komen tot consistente transcriptie van (i) zinsprominenties (wel/niet geaccentueerde syllabe), (ii) van prosodische grenzen (zwaar, licht, geen) en (iii) van opvallende klankverlenging (wel, niet). Vier Vlaamse (Antwerpen, Gent) en vier Nederlandse (Utrecht, Leiden) na{\"\i}eve transcribenten annoteerden ieder dezelfde Vlaamse, resp. Nederlandse spraakfragmenten, met per transcribent in totaal 45 minuten spraakgeluid, over een periode van ca. 6 weken. We presenteren een overzicht van de resultaten, met de nadruk op de mate van overeenstemming tussen de vier transcibenten per prosodisch verschijnsel per taalvari{\"e}teit. Aan de hand van de bevindingen kan worden beslist of en voor welke taken inschakeling van (goedkope) na{\"\i}eve transcribenten een voor het onderzoeksveld voldoende bruikbare prosodische annotatie oplevert.

}, author = {Jeska Buhmann and Johanneke Caspers and Vincent van Heuven and Heleen Hoekstra and Jean-Pierre Martens and Marc Swerts} } @article {389, title = {Uitspraak en woordenboek}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

De maker van een uitspraakwoordenboek krijgt te maken met de volgende vragen: Waarom pakt een native speaker een uitspraakwoordenboek? Bijvoorbeeld om voor eens en altijd te weten te komen hoe een bepaald woord nu eigenlijk uitgesproken wordt. De gebruiker verwacht dus dat het woordenboek voorschrijft. De taalkundige die het woordenboek maakt wil en kan echter slechts beschrijven. Hoe gaan we om met variatie? Van een groot aantal woorden zijn er evenveel uitspraken als mensen die het uitspreken. Aangezien een woordenboek per definitie een groot aantal woorden bevat is het ondoenlijk om alle varianten op te tekenen. Het woordenboek zou te dik en onleesbaar worden. Bovendien ontbreekt de benodigde kennis. Hoe maak je de transcriptie van 230.000 woorden? Hoewel de tijd dat woordenboekmakers met de hand transcripties maakten voorbij is en onze transcripties grotendeels automatisch aangemaakt zijn, is altijd handmatige controle nodig. Een van de grootste problemen daarbij is het bewaren van de consistentie: als croissant een variant krijgt, dan moet chocoladecroissant dat ook krijgen.

}, author = {Jos{\'e}e Heemskerk} } @article {270, title = {Universality and Language-dependence of Intonational Meaning}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Two contradictory views in previous studies have been identified on the nature of intonational meaning across languages (Ladd 1981): The Strong Universalist Hypothesis and The Nuclear Tone Hypothesis. The two views differ, among other things, in their claim on whether intonational meaning is innately specified, i.e. in accordance with the natural physiological states of speaker, and hence universal. Because of the obvious drawbacks of both views, in the present project, we have adoped the conception recently proposed by Gussenhoven. That is, intonational meaning is universal and language-specific at the same time; universal and language-specific meanings of intonation are derived from two different language components, namely, the phonetic implementation module and intonatonal lexicon, i.e., the set of morphemes invested with intonational meaning. Our aim in this project is to provide empirical evidence for the universality and the language-dependence of intonational meaning by studying the use of three biologically determined codes, the Frequency Code (Ohala 1983, 1984, 1994), the Effort Code and the Production Code (Gussenhoven forthcoming) in human vocal communication.

In the present talk, I will give an overview of the project design and then consider findings from two cross-language perception experiments. The two experiments are concerned with the use of the Frequency Code, which is based on the fact that a larger larynx predicts low-pitched voice. The informational interpretation of the Frequency Code is that high pitch signals questions and low pitch signals statements. From an affective point of view, high pitch signals politeness, friendliness, uncertainty and submissiveness while low pitch signals self-confidence, assertiveness and dominance. Findings from the two experiments support the universality of intonational meanings derived from the Frequency Code and shed light on a new type of language-dependence of intonational meaning.

}, author = {Aoju Chen} } @article {390, title = {Van transcriptie naar spraak}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Het lastige van fonetische transcripties is dat bijna niemand ze goed kan interpreteren. Een voordeel van een woordenboek op cdrom of internet is dan ook dat de uitspraak van woorden hoorbaar gemaakt kan worden. Dit kan door voor alle trefwoorden opnamen van een echte spreker te maken, een andere mogelijkheid is het gebruik van synthetische spraak. Een belangrijk voordeel van synthetische spraak is dat een formele relatie gelegd wordt tussen transcriptie en uitspraak, die bovendien geparametriseerd kan worden. Een voorbeeld is de meervouds-"n" die in trancripties van Van Dale een speciale code krijgt. De synthesemodule kan hem volledig realiseren (nadrukkelijk, zoniet hypercorrect), weglaten (vlot, of wellicht enigszins plat), of subtiel aanduiden (een "n" met een duur van 15 ms wordt niet als zodanig waargenomen, maar het nasaliserend effect op de voorafgaande schwa is wel goed hoorbaar). In mijn lezing geef ik overzicht van de vertaling van transcriptie naar spraak aan de hand van een aantal fonologisch/fonetische verschijnselen.

}, author = {Arthur Dirksen} } @article {257, title = {Verschil in spraakkwaliteit tussen natuurlijke en synthetische spraak bij normaal en snel tempo}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Dit onderzoek werd opgezet om het verschil in spraakkwaliteit te meten tussen synthetische en natuurlijke spraak, bij normaal tempo en na matige versnelling. Eerder onderzoek heeft laten zien dat verstaanbaarheid en verwerkingsgemak van snelle spraak verhoogd worden door segmentele redundantie. Difonen zijn segmenteel redundante stukjes spraak: alles is oorspronkelijk beklemtoond en nauwkeurig uitgesproken. Hoewel deze segmentele redundantie bij normaal tempo misschien onnatuurlijk klinkt, zou het een voordeel kunnen zijn wanneer synthetische spraak versneld wordt. Op basis hiervan werd verwacht dat het kwaliteitsverschil tussen synthetische difoonspraak en natuurlijke spraak kleiner wordt nadat beide typen spraak versneld zijn. Foneemdetectietijd werd gebruikt als maat van verwerkingsgemak van de spraak en daarmee als maat van de spraakkwaliteit. De hypothese dat het verschil in spraakkwaliteit tussen synthetische en natuurlijke spraak kleiner wordt na versnelling werd niet bevestigd door de resultaten: het kwaliteitsverschil tussen de twee typen spraak was op beide tempo{\textquoteright}s gelijk. Enkele mogelijke verklaringen zullen besproken worden.

}, author = {Esther Janse} } @article {263, title = {Verstaan of Begrijpen? Welke strategie heeft het grootste effect op algemene luistervaardigheid?}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het reguliere taalonderwijs wordt luistervaardigheid vooral geoefend door het trainen van begrijpvaardigheid. Aan het trainen van zogenaamd lagere-orde vaardigheden als bijvoorbeeld woordherkenning wordt nauwelijks aandacht besteed. De resultaten van het Staatsexamen NT2 II laten zien dat deze klassieke manier van luistertraining geen optimaal resultaat oplevert (Kerkhoff 1997). Doel van het gepresenteerde onderzoek is na te gaan of een betere luistervaardigheid verkregen kan worden door het trainen van lagere-orde verstavaardigheid in plaats van het trainen van hogere-orde begrijpvaardigheid. Twee experimentele groepen volgden een luistertraining met de nadruk op verstaan dan wel begrijpen. Aan de hand van een voor- en nameting werd het effect van de training gemeten. Een controlegroep nam deel aan de meetmomenten maar werd uitgesloten van de luistertraining.

  • Kerkhoff, A (1997). Mededelingen uit de staatsexamencommissie Nederlands als tweede taal. LES, 87, 26-27
}, author = {Petra Poelmans} } @article {261, title = {Waar komen syllaben vandaan?}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Syllaben zijn lingu{\"\i}stische basiseenheden die kinderen al heel vroeg kennen. Jonge kinderen kunnen woorden in lettergrepen splitsen, hoewel er geen perceptuele of akoestische eigenschappen zijn die lettergreepgrenzen aanduiden. Wij suggereren de hypothese dat kinderen hun kennis over woordgrenzen gebruiken om syllabengrenzen te voorspellen. Een bijkomende vraag is of de kinderen hun kennis over woordgrenzen halen uit woorden van de input, van de intake, of van hun eigen output. Als case-study namen we de resultaten van experimenten door Gillis \& De Schutter (1996) met vijf- en zesjarigen die Nederlandse bisyllabische monomorfemen met {\'e}{\'e}n intervocalische consonant in lettergrepen splitsten. Woordgrensprobabiliteiten werden statistisch berekend in kindertaalcorpora en gebruikt om syllabengrenzen te voorspellen. Het syllabificatiegedrag van de vijf- en zesjarigen kon gesimuleerd worden door gebruik te maken van woordgrensprobabiliteiten van inhoudswoorden uit de input of de intake van kindertaalcorpora, gerepresenteerd in foneemcategorie{\"e}n. Dezelfde resultaten werden verkregen voor drie verschillende kindertaalcorpora.

}, author = {Evelyn Martens and Walter Daelemans and Steven Gillis and Helena Taelman} } @article {388, title = {Wat hebben de lexicograaf en de foneticus elkaar te vertellen?}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

De foneticus en de lexicograaf spraken tot voor kort nooit met elkaar. Immers, er lijkt nauwelijks relatie te zijn tussen beider werelden. Door de moderne technologie, internationale ontwikkelingen en in ons taalgebied het project Corpus Gesproken Nederlands (CGN) komt daarin verandering. Dit thema werk ik uit als lexicograaf (met een ver verleden als foneticus). Het accent valt op de vraag hoe het CGN te gebruiken is in de lexicografische praktijk: hoe fungeert het als corpus bij de lexicografische bewerking en welk belang heeft het voor de inhoud van woordenboeken (en computationele lexica). Hierbij komen verschillen aan de orde tussen geschreven taal en gesproken taal en tussen het Nederlands en het Vlaams. Vervolgens wordt een toekomstige potenti{\"e}le rol voor het CGN geschetst in het kader van het INL-project Ge{\"\i}ntegreerde Taalbank. In de discussie kunnen de fonetici mij wellicht vertellen wat zij van de lexicograaf verwachten.

}, author = {Truus Kruyt} } @article {392, title = {Woordvormen en uitspraak}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Om te voorkomen dat papieren woordenboeken te dik worden, worden bij elk trefwoord maar een paar verbogen of vervoegde vormen (expansies) gegeven, en zelfs die paar vormen worden wel eens weggelaten. Zo worden verkleinvormen weggelaten als ze worden gevormd door toevoeging van -je (bokje), als ze ongebruikelijk zijn (citadelletje) of als het trefwoord een samenstelling is (moesappeltje). Voor een gebruiker van een woordenboek is deze onvolledigheid onhandig en soms zelfs misleidend. Voor lexicografen is het ook handiger om een volledige lijst van expansies te hebben, want dat maakt het makkelijk om te controleren of aangetroffen nieuwe vormen horen bij reeds bestaande trefwoorden. Toen het maken van woordenboeken voor een belangrijk deel geautomatiseerd werd en er ook elektronische woordenboeken (met minder ruimtebeperkingen) kwamen, werd het mogelijk om gebruikers en lexicografen tegemoet te komen: alle expansies van trefwoorden kunnen nu met behulp van taalregels automatisch afgeleid worden. Hiervoor moest de uitspraak van trefwoorden een centrale rol krijgen: op grond van de spelling alleen kunnen de expansies niet goed berekend worden, zoals bijvoorbeeld blijkt uit het verschil tussen maken-gemaakt en faken-gefaket, en tussen hotel-hotelletje en schotel-schoteltje. Na het berekenen van alle vormen werd er door middel van parameters aangegeven welke vormen werkelijk bestaan, zodat voorkomen kan worden dat bijvoorbeeld *wij regenen in een elektronisch woordenboek terechtkomt.

}, author = {Anneke Nunn} } @article {400, title = {Worden fonologische representaties van ambigue woorden bepaald door hun orthografische representaties? Een vergelijking van de effecten van vocaalinsertie en vocaaldeletie bij syllabe-beslissingstaken in het Frans en het Nederlands }, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Antwerpen, Belgium}, abstract = {

Deze cross-lingu{\"\i}stische studie bestudeert de effecten van orthografische kennis op de vorming van fonologische woordstructuren. Zowel in het Frans als in het Nederlands komt vocaalinsertie vaak voor (b.v., /cirqu{\textquoteright}/ - /cirqu@/ in het Frans; /vork/ - /vor@k/ in het Nederlands). In het Frans worden de ingelaste vocalen ook gerepresenteerd in de orthografische vorm ("cirque"), in het Nederlands echter niet ("vork"). Vocaaldeletie is in beide talen optioneel bij driesyllabische woorden (b.v., /maint{\textquoteright}nant/ in het Frans, /wand{\textquoteright}len/ in het Nederlands). Hoewel de gedeleerde vocalen systematisch gerepresenteerd worden in de orthografische vorm ("maintenant", "wandelen"), komt vocaaldeletie in het Frans toch veel vaker voor dan vocaalinsertie, maar is het minder frequent dan vocaalinsertie in het Nederlands.

Fonologische (syllabische) beslissingstaken met zulke woorden werden vergeleken bij Nederlandstalige en Franstalige kleuters en volwassenen (getest in de moedertaal). De resultaten tonen aan dat de Nederlandstalige kleuters meer bisyllabische antwoorden gaven bij woorden met vocaalinsertie (/vor@k/) dan bij woorden die geen middenste vocaal bevatten (/wand{\textquoteright}len/), terwijl Franstalige kleuters het omgekeerde resultatenpatroon vertoonden. Dit suggereert dat de vorming van fonologische woordstructuren bij afwezigheid van orthografische kennis (kleuters), be-nvloed wordt door de frequentie waarin epenthesis en deletie in het taalaanbod voorkomt. Dergelijke antwoorden kwamen niet voor in de twee groepen van expert-lezers. Zoals we konden voorspellen op basis van de verschillende orthografische representaties van vocaalinsertie in de twee talen, wekten woorden met ingelaste vocalen monosyllabische antwoorden op in het Nederlands, maar wekten ze bisyllabische antwoorden op in het Frans. Daarenboven gaven beide groepen een meerderheid van trisyllabische antwoorden voor stimuli die geen middenste vocaal bevatten.

Deze uitgesproken verschillen tussen volwassenen en kleuters bevestigen de invloed van orthografische woordrepresentaties op de bewuste analyse van de overeenkomstige fonologische vormen. Deze bevindingen over vocaalinsertie suggereren dat de orthografie verschillende representaties van complexe coda{\textquoteright}s zou kunnen oproepen in de twee talen.

}, author = {V. Goetry and R. Kolinsky and P. Mousty} } @article {393, title = {Zoeken met behulp van uitspraak}, year = {2001}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Iemand die een woord wil opzoeken in een woordenboek, weet lang niet altijd hoe het geschreven moet worden. Omdat een woordenboek is georganiseerd op de spelling van woorden, wordt het dan moeilijk om het bedoelde woord te vinden. In een elektronisch woordenboek is hier iets aan te doen door de gebruiker in staat te stellen om het woord fout in te typen en dan door te verwijzen naar goed gespelde woorden. Bij de Elektronische Grote Van Dale is gebruik gemaakt van de functionaliteit van de Van Dale Spellingcorrector om dit {\textquoteright}bij benadering zoeken{\textquoteright} mogelijk te maken. De spellingchecker is gespecialiseerd in het zoeken van goede spellingen bij foute spellingen, waarbij uitspraak een belangrijke rol speelt. Ten eerste wordt uitspraak gebruikt om de klankgebaseerde spelling van woorden te voorspellen (bv. *sjieke is een mogelijke spelfout van chique). Ten tweede kan voorspeld worden waar problemen in woorden zitten omdat er iets vreemds met de uitspraak aan de hand is. Een voorbeeld is het woord balustrade waar de onbeklemtoonde a een spellingprobleem (verdubbelen of niet) bij de l veroorzaakt.

}, author = {Janneke Froon} } @article {320, title = {Aandacht voor formanttransities}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Tallal en Stark (1981) tonen aan dat kinderen met ernstige taal- en spraakpro- blemen moeite hebben om CV-syllabes waarbij de consonant een plofklank is, van elkaar te onderscheiden. Volgens Tallal hebben de kinderen een centraal auditief verwerkingsprobleem, waardoor ze moeite hebben met snelle formanttransities. Tallal et al. (1996) en Merzenich et al. (1996) beschrijven een algoritme waarin spraak wordt vertraagd en snelle formanttransities tot 20dB versterkt worden. Bij dit algoritme zijn allerlei computerspelletjes ontwikkeld, gericht op het uitbreiden van metalingu{\"\i}stisch bewustzijn. Deze spelletjes zijn verzameld in de uitgave Fast ForWord. Kinderen werden tot 60 uur getraind met deze spelletjes. De spraak was gemanipuleerd met het algoritme. De kinderen uit deze experimenten toonden een grote vooruitgang, o.a. op discriminatievaardigheden. In geen van de eerdere experimenten van Tallal of Merzenich zijn de verschillende componenten van het algoritme afzonderlijk getest. Tevens is nooit aangetoond welke onderde- len van Fast ForWord voor de grote vooruitgang zorgen. De spraakmanipulatie is slechts een onderdeel van dit programma. In de lezing van vandaag beschrijf ik twee experimenten. Het eerste experiment gaat de invloed van de onderdelen van het spraakmanipulatie-algoritme na op de discriminatievaardigheden van kleuters met en zonder ernstige taal- en spraakproblemen. De kleuters kregen discrimina- tie-oefeningen met normale spraak, vertraagde spraak, spraak waarbij snelle formanttransities versterkt was en een combinatie van vertraagde en versterkte spraak. Er deden 45 kleuters mee aan het experiment. In het tweede experiment werden kleuters met ernstige taal- en spraakproblemen getraind met een computer- programma dat gericht is op de ontwikkeling van metalingu{\"\i}stisch bewustzijn. De kinderen werden verdeeld in drie groepen van elk 12 kinderen. Een groep kreeg training met normale spraak, een groep met gemanipuleerde spraak en een groep (de controlegroep) kreeg woordenschattraining. Voor- en natesten werden gebruikt om leereffecten zichtbaar te maken.

  • Merzenich, M. M., Jenkins, W. M., Johnston, P., Schreiner, C., Miller, S. L., \& Tallal, P. (1996). Temporal processing deficits of language-learning impaired children ameliorated by training. Science, 271(5245), 77-81.
  • Tallal, P., \& Stark, R. E. (1981). Speech acoustic cue discrimination abilities of normally developing and language-impaired children. Journal of the Acoustical Society of America, 69, 568-574.
  • Tallal, P., Miller, S. L., Bedi, G., Wang, X., Nagarajan, S. S., \& et al. (1996). Language comprehension in language-learning impaired children improved with acoustically modified speech. Science, 271(5245), 81-84.
}, author = {Eliane Segers} } @article {410, title = {Akoestische en Lexicale/Syntactische Correlaten van Prominentie}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Op grond van 1244 zinnen is de relatie bepaald tussen lexicale/syntactische informatie en prominentie oordelen van na{\"\i}ve luisteraars. Als verwacht zijn bijvoorbeeld de functiewoorden niet of nauwelijks als prominent waargenomen, en de inhoudswoorden meestal als wel prominent. De verschillende woordklassen laten zich globaal ordenen in een glijdende schaal van niet prominent tot meest prominent. Verder is er een samenhang gevonden tussen aantal lettergrepen en prominentie, positie van inhoudswoorden in de zin en prominentie, en combinaties van bepaalde woordklassen en een bepaald prominentie patroon. De gevonden patronen hebben geleid tot een algoritme dat prominentie automatisch voorspelt. Dit algoritme is getest met een onafhankelijke test set van 1000 zinnen uit het zelfde bestand. Voor deze test set is de prominentie voor 75\% van de prominente woorden correct voorspeldt. Het ontwikkelde algoritme is van belang voor de spraaksynthese met name voor de verbetering van de intonatie. In mijn onderzoek wordt ook aandacht besteed aan de akoestische correlaten van prominentie zoals toonhoogte, luidheid en duur verschillen. Akoestische correlaten zouden vooral van belang kunnen zijn voor de spraakherkenning, maar ik zal hier waarschijnlijk uit tijdsgebrek niet verder op in kunnen gaan.

}, author = {Barbertje Streefkerk} } @article {277, title = {Als muziek in de oren: baby{\textquoteright}s en hun moeders}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

We weten tegenwoordig weer dat de spraakontwikkeling van een baby al voor de geboorte begint. De buikbaby herkent stemmen van ouders, broertjes en zusjes, en van andere bekenden. Je kunt je nog-niet-geboren baby best al wel voorlezen. Na de geboorte hebben die vertrouwde geluiden duidelijk de voorkeur van de baby. Zo klein als ze zijn blijken ze ook al kenmerken van hun moedertaal in het geheugen te hebben opgeslagen. Ze verkiezen de moedertaal boven een vreemde taal, ze verkiezen eerder gehoorde zinnen boven onbekende, en met bekende woorden kan je langer hun aandacht vasthouden dan met onbekende woorden. Communicatie tussen moeder en baby vormt de basis voor het leren spreken van kinderen. Spraakproductie is een ingewikkeld bewegingsproces van stem en articulatie. Maar baby{\textquoteright}s blijken dat leerproces systematisch aan te pakken. In deze presentatie zullen we ingaan op de "muziek in de duetten van baby{\textquoteright}s en hun moeders".

}, author = {Hester Rozendaal and Jeannette van der Stelt} } @article {412, title = {Automatische aanmaak van lexica voor spraakherkenning}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

De huidige systemen voor de herkenning van spraak vertrouwen op een aantal kennisbronnen om hun taak uit te voeren. E{\'e}n van die kennisbronnen is het zogenaamde lexicon: dit bevat informatie over de uitspraak van de woorden die de herkenner kan herkennen. Omwille van de eenvoud wordt vaak slechts {\'e}{\'e}n enkele uitspraak per woord opgenomen. Deze benadering strookt helemaal niet met de werkelijkheid en kan leiden tot herkenningsfouten. Het lijkt dan ook logisch om uitspraakvarianten van de woorden in het lexicon op te nemen. Twee vragen dringen zich op: hoe kunnen we die varianten bepalen, en hoe kunnen we ze integreren in het herkenningsproces? Het antwoord op beide vragen wordt gegeven door een nieuwe methode, die uitspraakregels automatisch afleidt uit spraakdata en deze toepast op een referentielexicon om woordmodellen met uitspraakvarianten te produceren. De uitspraakregels volgen uit een vergelijking van "hoe heeft de spreker de woorden werkelijk uitgesproken" en "hoe zal hij ze naar verwachting uitspreken". Door de kennis uit spraakdata te puren, kan niet alleen kwalitatieve maar ook kwantitatieve informatie over de uitspraakvariaties verzameld worden. Dit alles resulteert in een uiterst flexibele, geheel automatische methode die het aantal woordfouten van een herkenner met 10 {\`a} 20\% (relatief) kan terugdringen.

}, author = {Nick Cremelie} } @article {279, title = {Automatische sprekerherkenning}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Met behulp van berekeningstechnieken op basis van covariantiematrices (Bimbot et al, 1995) is het mogelijk om onafhankelijk van de inhoud, een spreker te herkennen aan de hand van een fragment spraak. De herkenning vergelijkt het onbekende fragment met een reeks eerder verzamelde en (met de hand) ge{\"\i}dentificeerde fragmenten en kiest hieruit het meest gelijkende. Het criterium wordt berekend uit de "afstand" tussen de covariantiematrices van de bekende fragmenten en het onbekende fragment.

De automatische sprekerherkenning werkt het beste op spraakmateriaal van hoge kwaliteit: bij 400 bekende sprekers wordt een nieuw fragment van {\'e}{\'e}n van hen in circa 95\% van de gevallen correct herkend. Voor spraakmateriaal met telefoonbandbreedte en achtergrondruis zakt deze score naar circa 60\%.

Multimedia-demonstratie op draagbare PC is beschikbaar.

Literatuur

  • Bimbot, F., Magrin-Chagnolleau, I., en Mathan, L.(1995).
  • Second-order statistical measure for text-independent speaker identification. Speech Communication 17 177-192.
}, author = {Ronald van Buuren} } @article {409, title = {Computermodellen voor klemtoonsystemen}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Klemtoonsystemen zijn uitvoerig bestudeerd binnen de metrische fonologie, wat aanleiding heeft gegeven tot diverse, typologisch goed onderbouwde theorieen over wat een mogelijk klemtoonsysteem uitmaakt. Deze parametrische theorieen hebben ook het denken over de verwerving van klemtoonsystemen diepgaand beinvloed, en vormen het verklarend kader voor een aantal experimentele en longitudinale verwervingsstudies.

In dit praatje wil ik ingaan op wat computermodellen ons kunnen leren over (de verwerving van) klemtoonsystemen. Als uitgangspunt zal ik YOUPIE voorstellen, Dresher en Kaye{\textquoteright}s implementatie van een parametrische theorie. Na een uiteenzetting over de systeemarchitectuur zal ik een uitvoerige empirische test bespreken, die de mogelijkheden en beperkingen van het systeem aangeeft. Vervolgens worden de resultaten vergeleken met die van een data-gedreven systeem, dat totaal andere architecturale kenmerken vertoont. Beide systemen worden tenslotte bekeken in het licht van het theoretisch onderscheid tussen {\textquoteright}core grammar{\textquoteright} en {\textquoteright}periferie{\textquoteright}, en getoetst aan resultaten uit de taalverwervingsliteratuur en gegevens over klemtoontoekenning bij pseudo-woorden.

}, author = {Gert Durieux} } @article {274, title = {De fonetiek van de gebiedende wijs}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het Nederlands (als veel andere talen) heeft syntactische constructies om aan te geven dat een zin een mededeling, een vraag, en bevel of een uitroep is. Deze constructies signaleren de bedoeling van de spreker alleen effectief als zij worden gesproken met de bijpassende prosodie, in het bijzonder intonatie. Na onderzoek naar de fonetiek van de vraag (van Heuven \& Haan, LIN-2000) onderzoeken we nu de fonetische correlaten van de imperatief. Vier mannen en vier vrouwen spraken ieder twee korte en twee langere zinnen, twee keer als mededeelzin (b.v. Ik neem de trein naar Leiden) en twee keer als imperatief (Neem de trein naar Leiden!), en bovendien alles {\'e}{\'e}n keer neutraal, een tweede keer op vriendelijke toon, en een derde keer streng/autoritair. Duuropbouw, toonhoogteverloop en de luidheidscontour werden statistisch geanalyseerd. Imperatieven schuiven langs schaal van {\textquoteright}vriendelijk{\textquoteright} naar {\textquoteright}streng{\textquoteright} op naar {\textquoteright}streng{\textquoteright}; zij doen dat in elke van de drie spreekwijzen. Wij concluderen, in tegenstelling tot Quittart (1925), dat er geen specifieke imperatiefmelodie bestaat; er is {\textquoteright}slechts{\textquoteright} sprake van een paralinguistisch verschijnsel.

}, author = {Marlon de Graaf and Vincent van Heuven} } @article {275, title = {De prosodische realisering van drie tekststructurele kenmerken: alinea-indeling, importantie en redundantie}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In dit onderzoek staat de prosodische realisering van twee aspecten van tekststructuur centraal: de lineaire structuur, d.w.z. de opeenvolging van diverse tekstgedeelten van een tekst, en de hierarchische structuur, d.w.z. de mate van belangrijkheid van de tekstgedeelten ten opzichte van elkaar. In dit onderzoek hebben we een relatief eenvoudige procedure gebruikt om de beide aspecten van tekststructuur te identificeren. Van vier, oorspronkelijk voor de radio uitgesproken teksten (nieuwsberichten en commentaren op de actualiteiten) werden de geschreven versies voorgelegd aan 52 studenten en hen werd gevraagd aan te geven:

  • waar alineagrenzen optraden (alinea-indeling),
  • welke zinnen belangrijk waren voor de samenhang van de tekst (importantie),
  • welke zinnen onbelangrijk waren voor de samenhang van de tekst (redundantie).

Van de gesproken teksten werden pauzeduren tussen de zinnen, F0 maxima en articulatiesnelheid per zin gemeten. De lineaire opeenvolging van alinea{\textquoteright}s in de teksten werd gemarkeerd door zowel pauzeduur (F (3,117)=21.64, p\<.001) als het F0 maximum (F (3,117) =4.11, p\<.01). De hierarchische structuur werd op twee manieren gemarkeerd: importantie door pauzeduur (F (3,98) =2.89, p\<.05) en redundantie door het F0 maximum (F (3,101) =3.73, p\<.025). De drie aspecten van tekststructuur hadden geen effect op articulatiesnelheid.

}, author = {Hanny den Ouden} } @article {320, title = {De spraakperceptie van kin-de-ren en v-o-l-w-a-ss-e-n-e-n}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Kinderen nemen spraak waar door, net als volwassenen, verschillende akoestische kenmerken van het spraakgeluid te integreren tot spraakklanken (Morrongiello et al, 1984). De manier waarop deze integratie verloopt is bij kinderen echter anders. Volgens Nittrouer et al. (o.a. 1987) is er een kleiner effect van spectraal statische informatie (fricatiefruis) op de foneemclassificatie van kinderen dan op de classificatie van volwassenen. Echter, voor spectraal dynamische informatie (formanttransities) is het effect omgekeerd: minder invloed op de classificatie van volwassenen dan op de classificatie van kinde- ren. Als kinderen ouder worden verschuiven de resultaten in de richting van die van de volwassenen. Het verschil in weging van statische en dynamische akoesti- sche informatie door kinderen en volwassenen noemt Nittrouer de "Developmental Weighting Shift". Volgens het Developmental Weighting Shift model betekenen de resultaten dat jonge kinderen zich in eerste instantie meer richten op akoesti- sche informatie op lettergreepniveau, terwijl de perceptie van volwassenen zich focust op informatie op klankniveau (o.a. Nittrouer, 1992). Jonge kinderen kunnen volstaan met een globale luisterstrategie om woorden te herkennen, omdat hun lexicon nog beperkt is. Als het lexicon groter wordt zal er een analytische luisterstrategie geleerd moeten worden (Nittrouer, 1992; Jusczyk, 1997). Het huidige onderzoek had als doel de resultaten van Nittrouer te repliceren en uit te breiden met een plosief-contrast. De classificatie van /sjok-sok/ en /pop-ko- p/ werd getest bij kinderen van 4, 6 en 9 jaar en bij volwassenen. De resultaten worden besproken in het kader van de normale spraakontwikkeling en ontwikke- lingsdyslexie.

}, author = {Ellen Gerrits} } @article {413, title = {De stemhebbendheid van woord-finale obstruenten in het Nederlands}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Uit de literatuur is bekend dat de stemhebbendheid waarmee een woord-finale obstruent in het Nederlands wordt uitgesproken bepaald wordt door het type segment dat aan de obstruent vooraf gaat, het type segment dat volgt, de aan/afwezigheid van klemtoon en de sexe en stemming van de spreker. Ik beargumenteer dat de beschreven observaties het best verklaard kunnen worden onder de aanname dat woord-finale obstruenten stemhebbend worden uitgesproken als een stemhebbende realisatie gemakkelijker is dan een stemloze en als stemloos als een stemloze realisatie het gemakkelijkst is.

Deze analyse doet het een aantal voorspellingen. Het voorspelt o.a. dat intervocale woord-finale obstruenten in woord-combinaties als "weet ik", "moet het", en "met een" stemhebbend kunnen worden uitgesproken. Een aantal van de voorspellingen zijn getest op basis van een corpus bestaande uit 12 uur spontane spraak gerealiseerd door 16 mannelijke proefpersonen uit het Westen van het land. Het blijkt dat de data uit het corpus de hypotheses bevestigen of in ieder geval niet falsificeren.

De data laten ook zien dat de perceptie van intervocale stops als stemhebbend of stemloos in informeel Nederlands sterk gecorreleerd is met de lengte van de stops en dat de relatie tussen waargenomen [stem] en stopduur afhankelijk is van de hoogte van de voorafgaande klinker.

}, author = {Mirjam Ernestus} } @article {320, title = {Dyslexie: een fonetisch probleem?}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Het nationale onderzoekprogramma Dyslexie (NWO Kennis Verrijkt) is ontwikkeld in het kader van het meerjarenplan 1997-2001. Omdat het niet zonder meer voor iedereen duidelijk is wat fonetiek te maken heeft met dyslexie in het algemeen en wat in het bijzonder de rol is van fonetici binnen het onderzoekprogramma Dyslexie, zal een algemeen overzicht gegeven worden van de opzet van het programma en de activiteiten tot nu toe. Daarbij zal vooral ingegaan worden op die aspecten van het programma waar fonetici met hun onderzoek een bijdrage (kunnen) leveren.

}, author = {Florien J. van Beinum} } @article {320, title = {Dyslexie en discriminatie van frequentieveranderingen in spraak: een adaptief resonantiemodel met neurotransmittermetabolisme}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, abstract = {

Ontwikkelingsdyslexie is een taalstoornis die vaak samengaat met problemen met foneemsegmentatie. Deze problemen zouden kunnen worden veroorzaakt door een spraakperceptiestoornis. In minstens zes onderzoeken is gebleken dat dyslectici een afwijkend patroon laten zien in de discriminatie en identificatie van medeklinker-klinkerparen zoals /ba/-/da/. De vroege ontwikkeling van spraakdis- criminatie is inmiddels onderwerp van onderzoek in ontwikkelingsstudies waarin wordt gezocht naar vroege predictoren voor dyslexie (NWO-programma Dyslexie, 1996; Leppanen \& Lyytinen, 1997; Molfese \& Molfese, 1997; Richardson, 1998). Voor het NWO-programma Dyslexie is een stimulusset voor het Nederlandse taalgebied ontwikkeld (Schwippert, 1998; Koopmans-van Beinum, Schwippert \& Kuijpers, 1998). Qua fysiologie zijn er aanwijzingen voor afwijkingen in het brein van dyslectici op corticaal en subcorticaal niveau (thalamus). In dit verband is van belang dat bij autopsieen afwijkende neuronenconcentraties gevonden zijn in de bovenste lagen van de cortex: zogenaamde ectopieen. Met behulp van dynamische modellen van interacterende groepen neuronen kan fysiolo- gie aan gedrag worden gerelateerd. Een model van dit type, dat is toegesneden op discriminatie bij spraakperceptie (Grossberg, Boardman \& Cohen, 1997) kan de gevonden verschillen tussen dyslectici en controleproefpersonen in een aantal onderzoeken op dit gebied reproduceren door de modelparameter voor neurotrans- mittermetabolisme per groep verschillend in te stellen. Een verschillend neurotransmittermetabolisme bij dyslectici kan het gevolg zijn van ectopieen. Zowel verschillen in gedragsdata als opgwekte potentialen lenen zich voor deze benadering.

  • Grossberg, S., Boardman, I. \& Cohen, M. (1997) Neural dynamics of variable rate speech categorization. Journal of Experimental Psychology: Human Perception and Performance, 23, 418-503.
  • Koopmans-van Beinum, F.J., Schwippert, C.E. \& Kuijpers, C.T.L. (1999) Speech perception in dyslexia: measurements from birth onwards. In: Proceedings of the 5th international conference on spoken language processing. Sydney.
  • Netherlands Organization for Scientific Research (NWO) (1996) Identifying the Core Features of Developmental Dyslexia: A Multidisciplinary Approach.
  • Leppanen, P.H.T. \& Lyytinen, H. (1997) Auditory event related potentials in the study of developmental language-related disorders. Audiology Neuro-Otology, 2, 308-340.
  • Molfese, D.L. \& Molfese, V.J. (1997) Discrimination at five years of age using event-related potentials recorded at birth. Developmental Neuropsychology, 13, 135-156.
  • Schwippert, C.E. (1998) Categorical perception in dyslexic and normal-reading adults. Institute of Phonetic Sciences. University of Amsterdam. Report 135.
}, author = {Pieter Been} } @article {278, title = {Een datagebaseerde methode voor het modelleren van uitspraakvariatie voor automatische spraakherkenning}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In mijn promotieonderzoek modelleer ik uitspraakvariatie in het Nederlands met als doel het verbeteren van de prestaties van automatische spraakherkenners. Tot nu toe heb ik uitspraakvariatie gemodelleerd die beschreven is in de literatuur. Deze methode van modelleren van uitspraakvariatie wordt ook wel "kennis-gebaseerd" genoemd. Het probleem met kennis-gebaseerde methoden is dat niet alle uitspraakvariatie is onderzocht en beschreven in de literatuur. Dit geldt met name voor minder voorbereide, oftewel spontane spraak, en dit is nu juist het soort spraak die huidige herkenners moeten kunnen herkennen. Om deze reden wil ik een andere methode gebruiken om informatie te verkrijgen over uitspraakvariatie. Deze methode heet ook wel "data-gebaseerd" omdat een grote hoeveelheid spraakdata geanalyseerd wordt om informatie over uitspraakvariatie te verkrijgen. Het doel van dit onderzoek is het bepalen of de voorgestelde "datagebaseerde" methode geschikt is voor het modelleren van uitspraakvariatie in automatische spraakherkenners. Hiertoe zijn "datagebaseerde" uitspraakregels opgesteld die de uitspraakvariatie in het spraakmateriaal beschrijven. Met deze regels zijn varianten gegenereerd die gebruikt zijn tijdens het herkenproces. De resultaten van herkenexperimenten met deze varianten en meer details over de methode zullen tijdens de presentatie gegeven worden.

}, author = {Judith Kessens and Helmer Strik and Catia Cucchiarini} } @article {286, title = {Fluency Spraaksynthese (Demonstratie)}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Fluency, sinds november 1999 onderdeel van Van Dale, maakt tekst-naar-spraaksoftware voor het Nederlands. Bezoek onze stand voor een demonstratie van onder andere:

  • onze nieuwe vrouwenstemmen
  • de Fluency E-maillezer 2.0
  • de Grote Van Dale op cdrom met Fluency-uitspraak
}, author = {Dick van Bergem and Arthur Dirksen and Ludmila Menert} } @article {284, title = {Het stem-tijd continu{\"u}m}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Met fonetografie kunnen we de stem in kaart brengen. Toch doet het platte vlak met assen voor toonhoogte en geluidsdruk onrecht aan de complexiteit van de stemgeving. Zelfs als we met behulp van kleuring informatie over jitter en spectrale helling weergeven geeft de representatie alleen een gemiddeld beeld. Omdat (pathologische) stemkwaliteit zich ook en misschien vooral uit in (beperkingen van) de dynamische mogelijkheden van de stem zou de factor tijd in fonetografieregistratie een belangrijke rol moeten krijgen. In de nieuwste fonetograaf versie worden nu alle directe meetresultaten bewaard. We hebben dan een {\textquoteright}spoor{\textquoteright} van akoestische stemkwaliteitsparameters in de tijd. Daardoor is mogelijk om de tijdsdimensie in stemgeving post-hoc te bestuderen. Die tijdsafhankelijkheid is gebruikt om onderzoek te doen naar

a) het herkennen van fonetogrammen met Hidden Markov Modellen,

b) het spoor van overgang van stemregister (stembreuk) in het fonetogram, en

c) aspecten van de start van fonatie ten opzichte van stationaire fonatie (lopend onderzoek).

}, author = {Gerrit Bloothooft and Peter Pabon and Guus de Krom} } @article {282, title = {Hierarchische categorisatie van gecoarticuleerde fonemen}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het probleem hoe luisteraars gecoarticuleerde fonemen categoriseren wordt in deze studie geanalyseerd vanuit het perspectief dat luisteraars statistische patroonherkenners zijn. Hierarchische categorisatie-strategieen - waarin de herkenning van een foneem wordt beinvloed door die van een aangrenzend foneem - worden voorgesteld als een efficiente manier om met een aantal akoestische effecten van coarticulatie om te gaan. Vervolgens wordt een experiment besproken waarin de voorgestelde strategieen worden getoetst voor de productie en perceptie van fricatief-klinker syllaben. Op basis van de distributies van akoestische cues in een set van gesproken syllaben /si Si sy Sy/, waar assimilatie plaatsvindt van de klinkerronding naar de fricatief, wordt voorspeld dat de categorisatie van de fricatief afhankelijk is van de waargenomen klinker. Deze voorspelling wordt bevestigd in een luisterexperiment, waarin luisteraars synthetische fricatief-klinker syllaben afkomstig uit een tweedimensionaal stimulus continuum categoriseerden.

}, author = {Roel Smits} } @article {280, title = {Leereffecten bij het beluisteren van synthetische spraak}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Mensen die voor het eerst met synthetische spraak worden geconfronteerd hebben vaak problemen om te verstaan wat er wordt gezegd. Dit staat in schril contrast met het vermogen van onderzoekers op het vlak van spraaksynthese, die de synthetische spraak doorgaans goed kunnen verstaan. Er is dus sprake van een leerproces. In de voordracht presenteren we de resultaten van twee experimenten waarin we hebben geprobeerd zicht te krijgen op de aard van de kennis die luisteraars opdoen tijdens blootstelling aan synthetische spraak. In het eerste experiment werd onderzocht of de opgedane kennis overdraagbaar is: als een luisteraar wordt getraind met een specifieke soort synthese, kan hij dan van de opgedane kennis gebruik maken als hij naderhand een andere soort spraaksynthese te horen krijgt? Een tweede experiment ging over de vraag wat precies de aard is van de opgedane kennis over fonetische eigenschappen van de synthetische spraak.

}, author = {Martine van Zundert and Jacques Terken} } @article {273, title = {Melodische karakteristieken van backchannels in Nederlandse taakgeori{\"e}nteerde dialogen}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In natuurlijke conversatie komen regelmatig "backchannels" voor: korte optionele uitingen als {\textquoteright}hmhmm{\textquoteright} en {\textquoteright}ja{\textquoteright}, die worden gebruikt door luisteraars om aan te geven dat de boodschap van de huidige spreker tot zover duidelijk is en dat de spreker verder kan gaan. Mijn onderzoeksvraag luidde of backchannels zichzelf melodisch onderscheiden van lexicaal identieke uitingen met een andere functie, zoals bijvoorbeeld het - niet-optionele - antwoord op een ja/nee-vraag. Beide typen uitingen werden opgespoord in een corpus taakgeori{\"e}nteerde dialogen ("Map-task"-dialogen), waarna het toonhoogteverloop werd getranscribeerd in het ToDI-systeem ("Transcription of Dutch Intonation"). Resultaten laten zien dat ca. 70\% van de backchannels gemarkeerd wordt met een niet-prominente lage toon gevolgd door een hoge grenstoon (getranscribeerd als {\textquoteright}LH\%{\textquoteright}), terwijl ruim 60\% van de niet-backchannels een toonhoogteaccent krijgt. Dit betekent dat er in het onderzochte materiaal een neiging bestaat om backchannels melodisch te onderscheiden van lexicaal identieke niet-backchannels.

}, author = {Johanneke Caspers} } @article {283, title = {Non-native spraakcommunicatie}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De effectiviteit van spraakcommunicatie wordt soms verminderd doordat {\'e}{\'e}n of meer partijen in een conversatie tweede-taaleffecten vertonen. Zij hebben de gebruikte taal op latere leeftijd geleerd, hetgeen een effect heeft op de spraakverstaanbaarheid. Met behulp van verschillende soorten experimenten (verstaanbaarheid van zinnen en nonsenswoorden, letter-guessing) is gezocht naar een kwantitatieve inschatting van de omvang van zulke effecten op de spraakverstaanbaarheid. Hierbij is zowel gekeken naar tweede-taaleffecten bij het spreken ("buitenlands" accent) als het luisteren, in het Nederlands, Duits en Engels.

Op grond van de resultaten blijkt het mogelijk non-native verstaanbaarheidseffecten te vergelijken met andere bronnen van verstaanbaarheidsvermindering, zoals omgevingsgeluid en nagalm; dergelijke kennis kan worden benut bij systeemontwerp van bijvoorbeeld toespreekinstallaties. De relatie tussen "proficiency" en verstaanbaarheid komt eveneens duidelijk naar voren.

Literatuur

  • Wijngaarden, S.J. van. (2000) Speech intelligibility of native and non-native Dutch speech. Accepted for publication in Speech Communication.
  • Wijngaarden, S.J. van. \& Steeneken, H.J.M. (2000) The intelligibility of German and English speech to Dutch listeners. Proceedings ICSLP2000, Beijing, pp III-929-934.
}, author = {Sander van Wijngaarden} } @article {414, title = {Segmentele en prosodische verbeteringen aan spraakgeneratie}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Deze presentatie geeft een overzicht van mijn promotieonderzoek. Het doel van het onderzoek was om de segmentele en prosodische kwaliteit van spraaksynthese te verbeteren. Hiervoor zijn twee methoden van spraakgeneratie vergeleken: fraseconcatenatie en difoonsynthese. Fraseconcatenatie levert zeer natuurlijke spraak op wanneer rekening wordt gehouden met de gewenste prosodie en de context waarin de eenheden worden opgenomen. Het is echter niet zo flexibel. Difoonsynthese biedt maximale flexibiliteit maar laat qua natuurlijkheid nog wat te wensen over.

In het vervolg van dit onderzoek is gekeken naar twee problemen die de kwaliteit van difoonsynthese beinvloeden. Het eerste probleem is van segmentele aard en betreft het voorkomen van hoorbare discontinuiteiten op difoongrenzen. Er is een vergelijking gemaakt tussen scores van luisteraars en een aantal objectieve spectrale afstandsmaten, om een maat te vinden die hoorbare discontinuiteiten kan voorspellen. Het tweede probleem is prosodisch van aard en betreft het voorspellen van segmentele duren. Met een relatief klein corpus van 297 zinnen, is een nieuwe duurmodule ontwikkeld, die gebruik maakt van de sums-of-products aanpak van van Santen. De nieuwe module presteert iets beter dan de oude regel-gebaseerde module.

}, author = {Esther Klabbers} } @article {320, title = {Spraakontwikkeling bij kinderen met een genetisch risico op dyslexie}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Leiden, The Netherlands}, author = {Cecile Kuijpers} } @article {285, title = {Verbeterde toegang tot het TIMIT-spraakcorpus}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het TIMIT-spraakcorpus op CDROM is een Amerikaans spraakbestand dat bestaat uit 6300 zinnen uitgesproken door 630 verschillende sprekers. Ongeveer 70\% van de sprekers is man en 30\% is vrouw. De sprekers stammen uit de 8 belangrijkste dialectregios van de Verenigde Staten. Alle 6300 zinnen zijn gelabeld op zinsnivo, woordnivo en foneemnivo. Voor elk van de 6300 uitgesproken zinnetje staat de informatie in 4 aparte bestanden op de CDROM:

  • een bestand met de audio,
  • een bestand met de tekst van de zin met begin- en eindtijd,
  • een bestand met de woorden met begin- en eindtijd en
  • een bestand met de phonemen met begin- en eindtijd.

Om de toegang tot de informatie in deze 4x6300 bestanden te verbeteren, hebben we alle, bijna 250.000, fonemen van dit corpus met additionele informatie in een database gezet. In de database zijn van elk foneem een groot aantal gegevens verzameld, waaronder de duur van het foneem, het foneemtype, de foneemcontext, woord- en zinsinformatie, klemtooninformatie en sprekerinformatie. Om het ruwe materiaal te kunnen lezen hebben we verder het computerprogramma praat zo aangepast dat de audio- en labelbestanden van de CDROM gelezen kunnen worden.

}, author = {David Weenink} } @article {281, title = {Verstaanbaarheid na sterke tijdscompressie: natuurlijke vs. synthetische spraak}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Uit eerder onderzoek is gebleken dat, bij een gelijk spreektempo, de verstaanbaarheid van snel uitgesproken spraak slechter is dan die van achteraf versnelde spraak. Een woorddetectie-onderzoek van Quene \& Krull (1999) liet zien dat luisteraars sneller een ongeassimileerd woord konden detecteren in snelle spraak dan een geassimileerd woord, hoewel de geassimileerde vorm natuurlijker was gegeven de spreeksnelheid. Hieruit zou men kunnen afleiden dat woordherkenning en verstaanbaarheid in snelle spraak geholpen worden door meer segmentele redundantie. Als verstaanbaarheid van snelle spraak gebaat is bij segmentele redundantie zou het zo kunnen zijn dat difoonspraak, opgebouwd uit segmenteel redundante bouwstenen, beter bestand is tegen tijdscompressie dan natuurlijke spraak. Om deze hypothese te toetsen werd de verstaanbaarheid van versnelde Fluent Dutch-spraak vergeleken met die van de versnelde natuurlijke spraak van de inspreker van de difonen. Tegengesteld aan de hypothese bleek natuurlijke spraak na sterke versnelling beter verstaanbaar te zijn dan synthetische spraak. Enkele mogelijke verklaringen zullen besproken worden.

}, author = {Esther Janse and Fiona Sely and Eva Sittig} } @article {276, title = {Vorm en betekenis van rhythme}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Citaat:

"All languages have their distinctive rhythms

Poetic rhythm is a heightening and an exploitation of the rhythm of a particular language. To be able to speak English, therefore, is to be familiar with the rhythms that English poetry uses."

(Derek Attridge, Poetic Rhythm, Cambridge, 1995, p4).

In April 2000 hield ik een voordracht voor de British Association of Academic Phoneticians getiteld Teaching Rules for English Rhythm. Hierin werden zowel de (fonetische) vorm als de betekenis van het rhythme van de Engelse spreektaal behandeld. Het stuk is te vinden op mijn website(-in-aanbouw) www.linguavox.nl. Afhankelijk van de beschikbare spreektijd wil ik gaarne de hoofdpunten daarin nogmaals ter discussie stellen, en verder enkele stappen zetten in de richting van een rhythmische beschrijving van het Nederlands, het verband tussen spreektaal-, vers- en zang-rhythme, en een theorie over rhythme in het algemeen.

}, author = {Lucas van Buuren} } @article {411, title = {Wat zijn de intonatiecontouren van het Frans?}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Hoewel er tamelijk veel onderzoek is gedaan naar de intonatie van het Frans, is men het er niet over eens welke veranderingen in toonhoogte een contrast opleveren. Om vast te stellen wat het inventaris van contrasterende contouren in het Frans is, heb ik experimenteel onderzocht (a) welke vorm veranderingen in toonhoogte kunnen aannemen en (b) waar deze veranderingen voorkomen. Het resultaat is een beschrijving van de tonale structuur van het Frans en de oplijning van deze structuur met de segmentele structuur. In de tonale analyse beperkt een inventaris van twee accenten en vijf grenstonen het aantal contrasterende vormen dat gegenereerd kan worden. De beschrijving van de oplijning tussen de tonale en de segmentele structuur geeft aan welke beklemtoonde lettergrepen een accent kunnen krijgen, en waar de accenten met grenstonen gecombineerd kunnen worden. Hiermee doet het model duidelijke voorspellingen over wat wel en wat niet mogelijk is in het Frans, en dat kan getoetst worden.

}, author = {Brechtje Post} } @article {288, title = {10:00 Automatische evaluatie van vloeiendheid in voorgelezen en spontane spraak}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het kader van ons onderzoek naar de automatische evaluatie van spreekvaardigheid Nederlands als tweede taal (NT2) zijn verschillende experimenten uitgevoerd waarbij verschillende aspecten van spraakkwaliteit zowel door een Continue-Spraakherkenner (CSH) als door menselijke beoordelaars zijn gescoord [zie o.a., 1, 2].

In deze lezing zullen we rapporteren over twee experimenten, eentje met voorgelezen en eentje met spontane spraak, waarbij de spraak van twee groepen van 60 NT2-leerders op het aspect vloeiendheid door mensen en machine is ge{\"e}valueerd. Bij beide experimenten zijn de scores van de CSH vergeleken met de scores die door menselijke beoordelaars zijn toegekend. Vervolgens zijn de data voor voorgelezen spraak vergeleken met die voor spontane spraak. De resultaten laten zien dat automatische scoring van vloeiendheid mogelijk is, hoewel niet alle automatische maten die geschikt blijken te zijn voor voorgelezen spraak even geschikt zijn voor het scoren van vloeiendheid in spontane spraak. Mogelijke verklaringen voor deze bevindingen zullen worden besproken alsmede suggesties voor verder onderzoek.

  1. C. Cucchiarini, H. Strik \& L. Boves (2000) Quantitative assessment of second language learners{\textquoteright} fluency by means of automatic speech recognition technology, Journal of the Acoustical Society of America, January 2000.
  2. C. Cucchiarini, H. Strik \& L. Boves (2000) Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech, Speech Communication.
}, author = {Catia Cucchiarini and Helmer Strik} } @article {290, title = {ASH en dialectafstanden}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De huidige commerciele spraakherkenningssystemen komen tot een herkenning van 80 tot 95 procent voor dicteertoepassingen na een spreker-adaptatiefase op ruwweg 10-20 minuten spraak van een testspreker. Deze sprekeradaptatie kleurt het spreker-onafhankelijke akoestisch model bij op basis van de spraakkarakteristieken van de testspreker. In het algemeen wordt het testresultaat voor die spreker aanzienlijk verbeterd, zoals bijvoorbeeld in het geval dat die spreker een accent heeft of dialectisch spreekt.

In dit praatje passeren de volgende punten de revue:

(a) het verschil in herkenning voor en na adaptatie

(b) de {\textquoteright}akoestische{\textquoteright} afstand tussen twee dialecten

(c) fonologische observaties van Nerbonne en Heeringa voor dialect-afstanden.

De meeste data zullen gebaseerd zijn op het Nederlands.

}, author = {Louis ten Bosch} } @article {293, title = {Akoestische parameters versus fonetische kenmerken voor ASH}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In automatische spraakherkenning (ASH) worden als akoestische parameters meestal cepstrale parameters gebruikt. Deze cepstrale parameters zijn door ons afgebeeld op 2 sets van fonetische kenmerken, resp. gebaseerd op de kenmerken van IPA (International Phonetic Association) en op die van SPE (Sound Pattern of English).

Door de akoestische parameters op fonetische kenmerken af te beelden is het mogelijk de linguistische informatie in het signaal explicieter te modelleren [1,2]. De resultaten van onze experimenten laten zien dat hierdoor ook de foneemidentificatie verbeterd van 15,6\% correct voor cepstrale parameters, naar 42,3\% respectievelijk 31,7\% voor IPA- en SPE-gebaseerde kenmerken. Bovendien zijn de verwisselingen tussen fonemen fonetisch gezien in het algemeen minder ernstig wanneer fonetische kenmerken gebruikt worden.

  1. J. Koreman, B. Andreeva, W.J. Barry (1998) Do phonetic features help to improve consonant identification in ASR? Proc. ICSLP-98, Sydney.
  2. J. Koreman, B. Andreeva, H. Strik (1999) Acoustic parameters versus phonetic features in ASR. Proceedings of the 14th International Congress of Phonetic Sciences, San Francisco, USA, pp. 719-722.
}, author = {Helmer Strik and Jacques Koreman and Bistra Andreeva} } @article {297, title = {De invloed van de auditieve perceptie op de spraakgeluiden van dove en horende kinderen van 2,5 tot 18 maanden oud}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Om de invloed van de auditieve perceptie op de spraakproduktie van jonge kinderen te onderzoeken zijn de spraakgeluiden van dove en horende kinderen van 2,5 tot 18 maanden oud longitudinaal onderzocht (in samenwerking met C. Clement). Eerst is elke uiting geclassificeerd aan de hand van drie mogelijke typen articulatie en vijf mogelijke typen fonatie gebaseerd op een sensomotorische benadering van de geluidsprodukties van jonge kinderen (Koopmans-van Beinum en Van der Stelt, 1986). Vervolgens zijn alle uitingen met articulatie ingedeeld in drie mogelijke plaatsen van articulatie en zeven mogelijke manieren van articulatie. De resultaten van het onderzoek laten zien dat het gebrek aan auditieve feedback een duidelijke rol gaat spelen vanaf de leeftijd van 6 maanden. V{\'o}{\'o}r deze leeftijd lijkt de spraakproduktie vooral anatomisch en fysiologisch bepaald, hoewel ook dan al verschillen tussen dove en horende kinderen kunnen worden aangetoond.

}, author = {Ineke van den Dikkenberg-Pot} } @article {301, title = {De relatie tussen waargenomen prominentie en woordklassen}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Op grond van 1244 losse zinnen uit kranten, bestaande uit 13091 woorden, is de relatie bepaald tussen woordklassen en prominentie oordelen. De zinnen zijn door verschillende mensen uit heel Nederland voorgelezen. Tien {\textquoteright}na{\"\i}eve{\textquoteright} luisteraars kregen de taak de met nadruk uitgesproken woorden te markeren. Als verwacht zijn de functiewoorden niet of nauwelijks als prominent waargenomen, en de inhoudswoorden als prominent. De verschillende woordklassen laten zich globaal ordenen in een glijdende schaal van niet prominent tot meest prominent. De resultaten vragen echter om een meer specifieke analyse. Naast een indeling in woordklassen, zijn er lexicale items, zoals bepaalde partikels, die zich anders gedragen dan items uit dezelfde woordklasse. Ook is het duidelijk dat woordvolgorde en ritmische alternantie een cruciale rol spelen bij de distributie van prominentie. De gevonden patronen hebben geleid tot een algoritme dat prominentie automatisch voorspelt. Dit algoritme kan van nut zijn binnen de spraaksynthese en de spraakherkenning.

}, author = {Barbertje Streefkerk and Karijn Helsloot} } @article {298, title = {Genuscongruentie en de auditieve verwerking van samengestelde nomina}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Er is nog maar weinig bekend van de herkenning van gesproken samenstellingen. We ondernemen een verkenning voor het Nederlands. Stimulus woorden zijn samenstellingen die bestaan uit twee eenlettergrepige nomina. In de helft van de samenstellingen zijn beide leden van hetzelfde genus; dit zijn zgn. homogene samenstellingen: beide leden zijn "zijdig" (lidwoord is "de") of beide zijn onzijdig (lidwoord is "het"). Iedere homogene samenstelling wordt gematcht door een heterogene samenstelling, waarin het tweede lid vervangen is door een alternatief nomen met tegengesteld genus. Iedere samenstelling is - geblokt over groepen proefpersonen - aangeboden in drie condities:

  1. in combinatie met een passend lidwoord (b.v. "het zijspoor, de zijkant"),
  2. in combinatie met een neutraal lidwoord "een zijspoor/een zijkant", en
  3. in combinatie met een conflicterend lidwoord "de zijspoor/het zijkant".

De diverse samenstelling/ lidwoordcondities zijn geblokt aangeboden aan 6 x 4 luisteraars in een lexicale decisietaak ("is dit een bestaand Nederlands woord of niet?"). Percentage correcte beslissingen en de bijbehorende reactietijden zijn gemeten. De resulaten laten zien dat correcte lexicale decisies het snelst zijn wanneer het lidwoord congrueert met beide leden van de samenstelling (en dus ook met het genus van de samenstelling als geheel). De traagste reactietijd wordt gevonden als het lidwoord strijdig is met het genus van beide leden van de samenstelling. Een conflict tussen lidwoord en alleen het eerste lid van de samenstelling is destructiever dan een conflict met alleen het tweede lid (en dus ook met de samenstelling als geheel). Dit effect is totaal onverwacht: Nederlandse luisteraars zouden geleerd moeten hebben dat een lidwoord niet hoeft te kloppen met het eerstvolgende nomen, zeker niet in een proefsituatie met louter samenstellingen waarin altijd nog een tweede nomen volgt. Kennelijk luistert de Nederlander niet verder dan zijn neus lang is.

}, author = {Leo Koolen and Vincent van Heuven and Wied Ruijssenaars} } @article {292, title = {Het automatisch verkrijgen en verifi{\"e}ren van hypothesen over uitspraakvariatie met behulp van automatische spraakherkenning}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het modelleren van uitspraakvariatie kan de prestaties van automatische spraakherkenners verbeteren [1]. In [1] hebben wij gebruik gemaakt van fonologische kennis om uitspraakvariatie te beschrijven. Fonologische kennis heeft echter twee nadelen: 1) veel van de resultaten zijn op laboratorium spraak gebaseerd, waardoor ze misschien niet gelden voor andere soorten spraak zoals bv. spontane spraak en 2) de kennis over uitspraakvariatie is niet volledig.

Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon. Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven. Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.

De methode die wij gebruiken werkt als volgt. Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden. Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie. Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63\% [2]. De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn. Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.

  1. Judith M. Kessens, Mirjam Wester \& Helmer Strik (1999). Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation, Speech Communication, 29 (2-4), 193-207.
  2. Mirjam Wester, Judith M. Kessens and Helmer Strik. (1998). Two automatic approaches for analyzing the frequency of connected speech processes in Dutch, Proceedings International Conference on Spoken Language Processing and Student Day, Vol. 7, pp. 3351-3356
}, author = {Judith Kessens and Mirjam Wester and Helmer Strik} } @article {294, title = {Het modelleren van uitspraakvariatie in een Nederlandse spraakherkenner}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.

Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:

  1. Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.
  2. Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.
  3. Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.

In deze methode kunnen stap 2 en 3 iteratief herhaald worden.

Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75\%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12\% (9\% relatief). Voor meer details zie [2].

  1. H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini \& L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
  2. Judith M. Kessens, Mirjam Wester \& Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.
}, author = {Judith Kessens and Mirjam Wester and Helmer Strik} } @article {305, title = {Perspectieven van het fonetogram (Demonstratie)}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het fonetogram: registratie en visualisatie van stemomvang en stemkwaliteit. Een demonstratie tijdens een fase waarin we hard werken om (1) een complete gegevensopslag (incl. audio) te realiseren in verband met hergebruik van de opnamen als inzichten in bijvoorbeeld akoestische stemparameters wijzigen, (2) een eenvoudige PC versie te realiseren die in de logopedische praktijk te gebruiken is, (3) gegevenspresentatie te verbeteren door toepassing van mediaanwaarden en door (slim) te middelen over grotere grondfrequentie/SPL eenheden, (4) technieken te ontwikkelen om fonetogrammen met elkaar te vergelijken, (5) niet-akoestische parameters toe te voegen, bijvoorbeeld uit het electroglottogram.

}, author = {Gerrit Bloothooft and Peter Pabon} } @article {295, title = {Postvocale /r/-deletie bestaat: veslag van een ondezoek}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

De deletie van postvocale /r/ (voor een consonant) in het Nederlands is een weinig onderzocht, maar een inmiddels zeer manifest verschijnsel. Uit eigen ervaring kunnen we vertellen dat sommige mensen niet meer weten of {\textquoteright}Spijkenisse{\textquoteright} en {\textquoteright}slabbetje{\textquoteright} met of zonder /r/ (voor resp. de {\textquoteright}n{\textquoteright} en de {\textquoteright}t{\textquoteright}) geschreven moeten worden. Sterker nog, we zijn zelfs het woord {\textquoteright}slabber{\textquoteright} tegengekomen als hypercorrecte afleiding van het meer gangbare diminutief {\textquoteright}slabbetje{\textquoteright}.

Naar aanleiding van dit soort observaties hebben we onderzocht of de deletie van postvocale /r/ inderdaad optreedt, en zo ja of ze wordt beinvloed door de volgende factoren:

  • type van de voorafgaande vocaal (vol of schwa)
  • lengte van de voorafgaande vocaal (kort of lang)
  • (lexicale) klemtoon van de voorafgaande vocaal (+ of -)

Het spraakmateriaal bestond uit 450 woorden uit spontaan gesproken zinnen, afkomstig van treininformatiedialogen. Deze woorden werden zowel door geoefende menselijke transcribenten als door een automatische spraakherkenner beoordeeld op de aanwezigheid van /r/. In alle categorieen werden gevallen van /r/-deletie geconstateerd. Bovendien trad /r/-deletie het frequentst op wanneer de voorafgaande vocaal een schwa was.

In de voordracht zullen gedetailleerde resultaten worden gepresenteerd en tevens plannen voor toekomstig onderzoek worden ontvouwd.

}, author = {Henk van den Heuvel and Catia Cucchiarini} } @article {304, title = {Spengi spraaksynthese software (Demonstratie)}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Spengi (SPeech ENGine) is de benaming voor het spraaksynthesesysteem dat op het IPO is ontwikkeld en nog steeds in ontwikkeling is. Spengi is een Phonetics-to-Speech engine, en verwacht dus een fonetische transcriptie als invoer. De synthese is gebaseerd op difonen en de kwaliteit van de spraak is state-of-the-art, mede door goede prosodische beregeling en geavanceerd gebruik van PSOLA technieken.

Er zijn momenteel drie difoondatabases beschikbaar: een vrouwenstem en een mannenstem voor het Nederlands en een vrouwenstem voor het Brits-Engels.

Spengi is beschikbaar als een API en kan daardoor makkelijk in bijvoorbeeld een C-programma geintegreerd worden. Verder zijn er twee front-end applicaties beschikbaar voor demonstratie- en onderzoeksdoeleinden: Ipologue is een conventioneel command-line programma (DOS en UNIX); Calipso is een Windows programma. Beide applicaties zullen op deze dag gedemonstreerd worden.

Beide applicaties kunnen gebruik maken van grafeem-foneemomzetters die ontwikkeld zijn aan de KUN en aan de KUB. Calipso is verder nauw geintegreerd met het signaalbewerkingsprogramma GIPOS.

}, author = {Jan-Roelof de Pijper} } @article {300, title = {Temporele structuur bij normaal en snel spreektempo}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

E{\'e}n van de redenen voor de slechte verstaanbaarheid van versnelde spraak zou kunnen zijn dat de timing van lineair versnelde spraak afwijkt van de timing van snel uitgesproken spraak.

Bij dit onderzoek stonden de volgende vragen centraal: *Hoe verandert de duur van beklemtoonde en onbeklemtoonde klinkers bij hoger spreektempo? *Welke rol speelt zinsaccent hierbij?

In het Engels blijken beklemtoonde klinkers relatief minder verkort te worden bij hoger spreektempo dan onbeklemtoonde klinkers (van Santen 1994). In dit experiment werd onderzocht of dit voor het Nederlands ook geldt. De resultaten lieten zien dat de duurratio{\'\i}s beklemtoonde/onbeklemtoonde klinker aanzienlijk groter werden als gevolg van sneller spreektempo. Het effect van zinsaccent op de klinkerduren wordt kleiner bij hoger spreektempo.

Hieruit blijkt dat de temporele structuur bij sneller spreektempo inderdaad sterk afwijkt van die bij normaal tempo.

}, author = {Esther Janse} } @article {303, title = {Toonhoogtebewegingen en beurtwisselingen}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Welke rol speelt spraakmelodie in het beurtwisselingssysteem? Zijn er aanwijzingen te vinden dat sprekers een accentverlenende stijging gevolgd door vlakke hoge intonatie kunnen gebruiken om aan te geven dat ze hun beurt willen behouden? Om o.a. deze vraag te kunnen beantwoorden is een verzameling zogenaamde MapTask-dialogen opgenomen (gestuurde, maar spontane conversatie). Voorlopig is naast een conversatie-analyse (cf. Couper-Kuhlen \& Selting 1996) een analyse in {\textquoteleft}conversational games{\textquoteright} voorzien (cf. Kowtko, Isard \& Doherty 1993). Het materiaal wordt opgesplitst in eenheden begrensd door pauzes langer dan 100 ms; op elke grens wordt bepaald of er al dan niet een beurtwisseling optreedt. De vorm van het {\textquoteleft}mogelijk laatste accent{\textquoteright} (cf. Selting 1996) zal worden beschreven (m.b.v. ToDI). De verwachting is dat een stijgend {\textquoteleft}mogelijk laatste accent{\textquoteright} gevolgd door vlakke hoge intonatie tot aan de grens over het algemeen niet gevolgd zal worden door een beurtwisseling.

}, author = {Johanneke Caspers} } @article {291, title = {Transcriptie van spontane spraak: een vergelijking tussen mens en machine}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het onderzoek dat gepresenteerd zal worden heeft uiteindelijk tot doel om te bepalen in hoeverre een automatische spraakherkenner gebruikt kan worden om automatisch fonetische transcripties te maken. Het doel van het experiment dat gepresenteerd wordt is om te bepalen of de spraakherkenner gebruikt zou kunnen worden om automatisch uitspraakvarianten te selecteren. Voor dit experiment is spontane spraak gebruikt, die geselecteerd werd uit conversaties tussen mens en machine via de telefoon. Hiertoe zijn voor 379 woorden (uit 186 uitingen) automatisch uitspraakvarianten gegenereerd, m.b.v. vijf frequent voorkomende, fonologische regels voor het Nederlands die betrekking hebben op deleties en inserties van fonen.

De spraakherkenner en 9 ervaren luisteraars voerden dezelfde taak uit, nl. bepalen welke transcriptie het beste past bij de uitspraak van het woord.

De resultaten laten zien dat het gemiddelde percentage overeenstemming tussen de oordelen van de luisteraars 82\% was. Het gemiddelde percentage overstemming tussen luisteraars en machine was 5\% lager, namelijk 77\%. Meer gedetailleerde analyses zullen gepresenteerd worden (zie verder [1] en [2]).

  1. J.M. Kessens, M. Wester, C. Cucchiarini \& H. Strik, "The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine", Proc. International Conference on Spoken Language Processing, Vol. 6, pp. 2715-2718.
  2. M. Wester \& J.M. Kessens "Comparison between Expert Listeners and Continuous Speech Recognizers in selecting Pronunciation Variants", Proceedings of the 14th International Congress of Phonetic Sciences, San Fransisco, USA, august 1999, pp. 723-726.
}, author = {Judith Kessens and Mirjam Wester and Catia Cucchiarini and Helmer Strik} } @article {289, title = {Verbetering van consonantidentificatie door het gebruik van klinkertransities in ASH}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In de automatische spraakherkenning (ASH) wordt coarticulatie doorgaans behandeld als een ongewenste bron van variatie en wordt vergeten dat ze tegelijkertijd een bron van informatie is. Zo is uit perceptie-experimenten [1] bekend dat klinkertransities belangrijke informatie over de identiteit van de aangrenzende medeklinker bevatten. Toevoeging van klinkertransities leidt in een automatisch consonantidentificatiesysteem tot een toename in de correcte identificatie van medeklinkers met ruim 2 procentpunten; de identificatie van de articulatieplaats wordt zelfs met bijna 20 procentpunten verbeterd [2].

Desondanks leidt de toevoeging van klinkertransities in een consonantidentificatiesysteem waarin akoestische parameters op fonetische kenmerken worden afgebeeld niet tot een noemenswaardige verbetering van de (al hoge) consonantidentificatie. Ook het selectieve gebruik van de transities levert niet het gewenste resultaat op. De meest voor de hand liggende reden is dat de afbeelding van akoestische parameters op fonetische kenmerken de informatie in de transities niet op de juiste manier gebruikt.

  1. Delattre, P., A. Liberman, F. Cooper (1955). "Acoustic loci and transitional cues for consonants," JASA 27(4), 769-773.
  2. Koreman, J., W.J. Barry en B. Andreeva (1998). "Exploiting transitions and focussing on linguistic properties for ASR," Proc. ICSLP{\textquoteright}98, Sydney.
}, author = {Jacques Koreman and Attilio Erriquez} } @article {299, title = {Verbetering van difoonsynthese door het toevoegen van context-afhankelijke difonen}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Een bekend probleem bij difoonsynthese is het voorkomen van hoorbare discontinuiteiten op difoongrenzen. Formantsprongen op de overgangen suggereren dat het probleem wordt veroorzaakt door spectrale verschillen. In klinkers is het probleem het grootst. In een voorgaand experiment (Klabbers \& Veldhuis 1998) zijn de resultaten van een luisterexperiment gecorreleerd met een aantal spectrale afstandsmaten, om een objectieve afstandsmaat te vinden die het best de hoorbare discontinuiteiten voorspelt. De Kullback-Leibler afstandsmaat (KL), afkomstig uit de statistiek, kwam daarbij als beste uit de bus. Daarna is de difoondatabase uitgebreid met context-afhankelijke difonen. Om het aantal extra difonen te beperken is de KL-afstand gebruikt om difonen die spectraal dicht bij elkaar liggen te clusteren. Daardoor is het niet nodig om alle mogelijke difooncombinaties op te nemen maar kan worden volstaan met een kleinere set. Een tweede luisterexperiment heeft aangetoond dat het aantal hoorbare discontinuiteiten significant is verminderd.

}, author = {Esther Klabbers and Raymond Veldhuis} } @article {302, title = {Wanneer en waaraan horen we of een spraakuiting een vraag is?}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Declaratieve vragen zoals "Marina wil haar mandoline verkopen?" verschillen van lexicosyntactisch identieke mededeelzinnen: (i) het accent op het subject is kleiner, (ii) dat op het object is groter, (iii) er is geen toonhoogte-downtrend, en (iv) er is een zinsfinale toonstijging [van Heuven et al., Proc. ESCA Workshop on Prosody \& Dialog, 1998]. We vermoeden dus dat het mededeel/vraagonderscheid al voor het zinseinde te horen is. We onderzoeken nu de perceptieve relevantie van (i) t/m (iv). We varieren accent op het subject, evenals dat op het object (beide 0, 3, 6, 9 semi-toon); downtrend is -6, -3, 0 en +3 st/s) en er is wel/geen eindstijging (8 st). In experiment I is elk van de toonpatronen aangeboden in vier "gates": (a) "Marina", (b) "Marina wil haar mando", (c) "Marina wil haar mandoline", (d) "Marina wil haar mandoline verko". Twintig luisteraars beslisten of ze het begin van een vraag of van een mededeling hoorden. In experiment II werd de hele zin aangeboden (128 versies); luisteraars beslisten daar of de uiting een vraag of een mededeling was, en hoe duidelijk het zinstype hoor-baar was (0..10-schaal). Resultaten presenteren we tijdens onze lezing.

}, author = {Vincent van Heuven and Judith Haan} } @article {296, title = {/t/-deletie in het Nederlands: wat zegt de spraakherkenner ervan?}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Recent is er binnen A2RT een tool ontwikkeld voor automatische transcriptie, die ongeveer net zo goed presteert als een menselijke transcribent als het gaat om het selecteren van uitspraakvarianten [1]. Met behulp van deze tool, is het voorkomen van /t/-deletie in het Nederlands onderzocht.

In het VIOS materiaal (mens-machine interacties via de telefoon [2]) komt 75.442 maal een /t/ voor. Daarvan worden er 9.690 gedeleerd (12.8\%). Een voorbeeld van een frequent voorkomend woord is: "hoeft". Het komt 802 keer voor in het materiaal en in 428 van de gevallen wordt de /t/ gedeleerd (53.4\%). In het VIOS materiaal is echter geen informatie over de sprekers voorhanden. Dit is wel het geval voor het Polyphone corpus (o.a. sexe, regio, leeftijd), en daarom wordt dezelfde procedure uitgevoerd op het Polyphone corpus.

Analyses van de resultaten zullen gepresenteerd worden. Een vergelijking zal ook gemaakt worden met de bevindingen van Ton Goeman [3].

  1. Judith M. Kessens, Mirjam Wester, Catia Cucchiarini, \& Helmer Strik (1998) The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine, Proceedings International Conference on Spoken Language Processing, Sydney, Vol. 6, pp. 2715-2718.
  2. H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini \& L. Boves (1997) A spoken dialogue system for the Dutch public transport information service, Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
  3. Ton Goeman (1999) T-deletie in Nederlandse dialecten, proefschrift VU, Amsterdam.
}, author = {Mirjam Wester and Helmer Strik} }