Ondubbelzinnig taal- en computerlinguïstiek

In de taalkunde is ondubbelzinnigheid het proces om te bepalen welke zin van een woord in een bepaalde context wordt gebruikt. Ook bekend als lexicale ondubbelzinnigheid.

In de computerlinguïstiek wordt dit discriminerende proces genoemd word-sense disambiguation (WSD).

Voorbeelden en observaties

"Het gebeurt zo dat onze communicatie, in verschillende talen, dezelfde woordvorm gebruikt om verschillende dingen in individuele communicatieve transacties te betekenen. Het gevolg is dat men in een bepaalde transactie de beoogde betekenis van een gegeven woord onder zijn potentieel geassocieerde zintuigen onduidelijkheden voortkomend uit dergelijke meervoudige vormbetekenende associaties bevinden zich op het lexicale niveau, ze moeten vaak worden opgelost door middel van een grotere context uit het discours dat het woord insluit. Vandaar dat de verschillende zintuigen van het woord 'service' alleen uit elkaar konden worden gehouden als men verder kon kijken dan het woord zelf, zoals 'de service van de speler bij Wimbledon' in tegenstelling tot 'de bediening van de ober in Sheraton'. Dit proces van het identificeren van woordbetekenissen in een discours staat algemeen bekend als woordzin ondubbelzinnig (WSD). "(Oi Yee Kwong, Nieuwe perspectieven op computationele en cognitieve strategieën voor het onduidelijk maken van Word Sense. Springer, 2013)

Lexical Disambiguation and Word-Sense Disambiguation (WSD)

"Lexical ondubbelzinnig in zijn breedste definitie is niets minder dan het bepalen van de betekenis van elk woord in context, wat een grotendeels onbewust proces bij mensen lijkt te zijn. Als een computationeel probleem wordt het vaak beschreven als 'AI-compleet', dat wil zeggen een probleem waarvan de oplossing een oplossing veronderstelt voor een volledig begrip van de natuurlijke taal of gezond verstand (Ide en Véronis 1998).

"Op het gebied van computerlinguïstiek wordt het probleem over het algemeen word sense disambiguation (WSD) genoemd en wordt het gedefinieerd als het probleem van het computationeel bepalen welke 'sense' van een woord wordt geactiveerd door het gebruik van het woord in een bepaalde context. WSD is in wezen een taak van classificatie: woordzintuigen zijn de klassen, de context levert het bewijs en elk voorkomen van een woord wordt toegewezen aan een of meer van de mogelijke klassen op basis van het bewijs. Dit is de traditionele en gemeenschappelijke karakterisering van WSD die ziet het als een expliciet proces van ondubbelzinnigheid met betrekking tot een vaste inventaris van woordzintuigen. Woorden worden verondersteld een eindige en discrete set zintuigen te hebben uit een woordenboek, een lexicale kennisbasis of een ontologie (in het laatste geval komen zintuigen overeen met concepten dat een woord lexicaliseert.) Toepassingsspecifieke inventarissen kunnen ook worden gebruikt. Bijvoorbeeld, in een machine translation (MT) setting, kan men woordvertalingen behandelen als woordzintuigen, een benadering die beco is ming steeds haalbaarder vanwege de beschikbaarheid van grote meertalige parallelle corpora die als trainingsgegevens kunnen dienen. De vaste inventaris van traditionele WSD vermindert de complexiteit van het probleem, maar er bestaan alternatieve velden ... "(Eneko Agirre en Philip Edmonds," Inleiding. " Word Sense Disambiguation: Algorithms and Applications. Springer, 2007)

Homonymie en ondubbelzinnigheid

"Lexical ondubbelzinnig is met name geschikt voor gevallen van homonymie, bijvoorbeeld een geval van bas moet worden toegewezen aan een van de lexicale basgitaren₁ of bas₂, afhankelijk van de beoogde betekenis.

"Lexicale ondubbelzinnigheid impliceert een cognitieve keuze en is een taak die begripsprocessen remt. Het moet worden onderscheiden van processen die leiden tot een differentiatie van woordzintuigen. De eerste taak wordt tamelijk betrouwbaar uitgevoerd, ook zonder veel contextuele informatie, terwijl de tweede niet is (vgl. Veronis 1998, 2001) Er is ook aangetoond dat homonieme woorden, die ondubbelzinnig zijn, lexicale toegang vertragen, terwijl polysemische woorden, die een veelvoud van woordzintuigen activeren, lexicale toegang versnellen (Rodd ea 2002).

"Zowel de productieve aanpassing van semantische waarden als de eenvoudige keuze tussen lexicaal verschillende items hebben echter gemeen dat ze aanvullende niet-lexicale informatie vereisen." (Peter Bosch, "Productivity, Polysemy, and Predicate Indexicality." Logica, taal en berekening: 6e internationale Tbilisi-symposium over logica, taal en berekening, ed. door Balder D. ten Cate en Henk W. Zeevat. Springer, 2007)

Lexical Category Disambiguation and the Principle of Likelihood

"Corley en Crocker (2000) presenteren een breed dekkend model van lexicale categorie ondubbelzinnig gebaseerd op de Beginsel van waarschijnlijkheid. Concreet suggereren ze dat voor een zin die uit woorden bestaat w₀... w_n, de zinsverwerker neemt de meest waarschijnlijke deel van de spraakvolgorde aan t₀... t_n. Meer specifiek maakt hun model gebruik van twee eenvoudige kansen: (ik) de voorwaardelijke kans op woord w_ik gegeven een bepaald deel van meningsuiting t_ik, en (ii) de waarschijnlijkheid van t_ik gezien het vorige deel van de spraak t_i-1. Aangezien elk woord van de zin wordt aangetroffen, kent het systeem het die woordsoort toe t_ik, die het product van deze twee kansen maximaliseert. Dit model speelt in op het inzicht dat veel syntactische dubbelzinnigheden een lexicale basis hebben (MacDonald et al., 1994), zoals in (3):

(3) De magazijnprijzen / -merken zijn goedkoper dan de rest.

"Deze zinnen zijn tijdelijk dubbelzinnig tussen een lezing waarin prijzen of merken is het hoofdwerkwoord of onderdeel van een samengesteld zelfstandig naamwoord. Na te zijn getraind op een groot corpus, voorspelt het model het meest waarschijnlijke deel van de spraak voor prijzen, correct verklaren voor het feit dat mensen het begrijpen prijs als een zelfstandig naamwoord maar merken als werkwoord (zie Crocker & Corley, 2002, en daarin geciteerde referenties). Het model verklaart niet alleen een reeks ondubbelzinnige voorkeuren die zijn geworteld in lexicale categorie-ambiguïteit, het verklaart ook waarom mensen over het algemeen zeer nauwkeurig zijn in het oplossen van dergelijke dubbelzinnigheden. "(Matthew W. Crocker," Rationele modellen van begrip: Prestatiesparadox. " Eenentwintigste-eeuwse psycholinguïstiek: vier hoekstenen, ed. van Anne Cutler. Lawrence Erlbaum, 2005)

Geesteswetenschappen