Automatic Compound Processing
Project information
Abstract: 

In many human language technology applications (e.g. machine translators, spelling checkers), it often happens that concatenatively written compounds (e.g. “skrywerspen”/”schrijverspen” ‘writer’s pen’) are processed incorrectly. From a technological perspective, these segmentation problems are particularly problematic, since concatenative compounding is a highly productive process in many languages, including Dutch and Afrikaans. Although a compound splitter has already been developed for Afrikaans, the reported accuracy of circa 90% could be improved, and the annotation protocol needs to be revised. More importantly, no stand-alone compound splitter for Dutch is available. In subproject 1, we will therefore attempt to develop robust compound splitters for both Afrikaans and Dutch through a combination of technology recycling and data pooling, as well as experimentation with sequence classification.

In addition to segmentation, another subpart of this project will  focus on the semantic analysis of compounds – i.e. to determine that “boekrak” construes ‘case for books’, while “houtrak” means ‘case made of wood’. For more advanced HLT applications like information extraction, question answering and machine translation systems, proper semantic analysis of compounds is required. Internationally, research on automatic compound analysis has focused almost exclusively on English.
An attempt will  be made to postulate a cross-lingual annotation scheme compatible with the work of Ó Séaghdha (2008). Since no semantic analyser exists for either languages, in subproject 2 we will then develop first-generation analysers for Afrikaans and Dutch simultaneously, using bootstrapping and data pooling. We will start with techniques that work well for English (based on distributional semantics and machine learning). We will try to improve these techniques and adapt them to the specific requirements of Afrikaans and Dutch.

Abstract Dutch: 

In verschillende taaltechnologische toepassingen (zoals automatische vertalers of spellingcontrole) gebeurt het dat geconcateneerde samenstellingen (vb.: "schrijverspen/skrywerspen") niet correct verwerkt worden. Vanuit een technologisch standpunt zijn deze segmentatieproblemen problematisch, gezien de productiviteit van het concatenatief samenstellen in vele talen, onder andere in het Nederlands en Afrikaans. Er is wel een samenstellingopsplitser beschikbaar voor Afrikaans, maar de accuraatheid van 90% is nog voor verbetering vatbaar en ook het annotatieprotocol kan een herwerking gebruiken. Belangrijker is dat er voor het Nederlands nog geen alleenstaande samenstellingopsplitser bestaat. In subproject 1 zullen we dus proberen een robuuste samenstellingopslitser te ontwikkelen voor zowel Afrikaans als Nederlands door een combinatie van technologiehergebruik en data pooling, alsook door experimentatie met sequentieclassificatie.

Naast segmentatie wordt ook semantische analyse van samenstellingen behandeld in ons project. Het doel is te kunnen vaststellen dat "boekrak" een 'rek met boeken' is, terwijl "houtrak" een 'rek gemaakt van hout' is. Voor geavanceerde taaltechnologische toepassingen zoals informatie-extractie, vraag-antwoordsystemen en automatische vertaalsystemen is een degelijke semantische analyse van de compounds vereist. Op internationaal vlak is er slechts voor Engels zulk onderzoek al verricht.
Ons project poogt een cross-linguaal annotatieschema te postuleren dat compatibel is met het werk van Ó Séaghdha (2008). Aangezien er voor onze beide talen geen semantische analyseerders bestaan, zullen we in subproject 2 een eerste generatie van zulke systemen voor Nederlands en Afrikaans ontwikkelen door middel van bootstrapping en data pooling. We zullen starten met technieken die goed werken voor het Engels (gebaseerd op distributionele semantiek en machine learning). Er zal getracht worden deze technieken te verbeteren en aan te passen aan de specifieke vereisten van Afrikaans en Nederlands.

 

Project Leader(s): 
Walter Daelemans
External Collaborator(s): 

CTexT, North-West University, Potchefstroom, South Africa (Gerhard van Huyssteen)

TiCC, Tilburg University, The Netherlands (Menno Van Zaanen)

Period: 
01/07/2012 - 31/12/2013
Sponsor(s): 

Dutch Language Union - Nederlandse Taalunie (Belgium, The Netherlands)

Department of Arts and Culture (South Africa)

Syndicate content