Project information

The aim of this project is to develop an exemplar-based model of human sentence parsing that is capable of identifying the relations between the different words of a sentence in a psychologically adequate manner. Exemplar-based models of language processing (Daelemans & Van den Bosch, 2005) explicitly store every language experience in memory. New linguistic tasks are solved in analogy with these stored experiences. This approach can form an alternative to formal-symbolic and connectionist models, and it can provide new theoretical insights about the role of statistical and non-structural aspects of language in the acquisition and processing of what is traditionally known as syntax.

In this model, the parsing of a sentence is conceived as an incremental process of probabilistic predictions about the next parser state. The model bases its predictions on comparisons between the current state of the parser and parser states in its memory. These memory representations are induced from a training treebank. The parser states essentially consist of the structures of (partially) analyzed sentences. Sentence structure is described in terms of dependencies between the words of a sentence. The memory representations not only contain information about these dependencies, but also about the form, the semantics and the order of the words. Latent Semantic Analysis (LSA, Landauer et al, 2007) is used to induce the lexical-semantic features, while the comparisons between the current parser state and the parser states in memory are carried out with the exemplar-based algorithms of the Tilburg Memory Based Learner (TiMBL, Daelemans et al, 2007). The output of a successful parsing process is a dependency structure and a sequence of transition probabilities between the different parser states. These transition probabilities represent the dynamic profile of the local processing difficulties in the sentence.

For the evaluation of the model, its behavior will be compared with standard effects from the experimental literature on human sentence parsing, by having it assign probabilities to the different processing steps in the parsing of structurally non-ambiguous and temporarily structurally ambiguous sentences (so-called garden path sentences). The model will also be used to generate new stimuli that guarantee an optimal evaluation. The probability sequences that the model assigns to these stimuli will then be tested against data from planned self-paced reading and eye-tracking experiments.


Daelemans, W., & Van den Bosch, A. (2005). Memory-based language processing. Cambridge: Cambridge University Press.

Daelemans, W., Zavrel, J., Van der Sloot, K., and Van den Bosch, A. (2007). TiMBL: Tilburg Memory Based Learner, version 6.1, reference guide. ILK Research Group Technical Report Series no. 07-07.

Landauer, T.K., McNamara, D.S., Dennis, S., Kintsch, W (2007). Handbook of Latent Semantix Analysis. Mawhah, NJ & London: Lawrence Erlbaum.

Abstract Dutch: 

Dit project onderzoekt de mogelijkheid om een exemplaargebaseerd model van menselijke zinsverwerking te ontwikkelen, dat in staat is om de relaties tussen de verschillende woorden van een zin op een psychologisch adequate manier te identificeren. Deze benadering kan een cognitief plausibel alternatief vormen voor formeel-symbolische en connectionistische modellen, en kan nieuwe theoretische inzichten opleveren over de rol van statistische en niet-structurele aspecten van taal bij de verwerving en verwerking van wat traditioneel syntaxis wordt genoemd.

De verwerking van een zin wordt in dit model opgevat als een continu anticipatieproces. Het model baseert deze anticipaties op een vergelijking tussen de reeds verwerkte woorden van de zin en expliciet in het geheugen opgeslagen representaties van woordsequenties uit het trainingcorpus. Een dergelijke geheugenrepresentatie bevat informatie over de vorm, de volgorde, en de semantiek van de betrokken woorden, en hun onderlinge afstand in de gerepresenteerde zin. Op basis van de overeenkomst van de reeds verwerkte woordreeks met de woordreeksen in het geheugen, maakt het model een probabilistische voorspelling over het vervolg van de zin. Het eindresultaat van een succesvol verwerkingsproces is een reeks van overgangsprobabiliteiten tussen de voorspellende en de voorspelde woorden en woordsequenties in de zin, die het dynamische profiel van de lokale verwerkingsmoeilijkheden in die zin weergeeft.

Het model wordt getoetst aan standaardeffecten uit de experimentele literatuur over menselijke zinsverwerking door het incrementeel probabiliteiten te laten toekennen aan de woorden van structureel niet-ambigue en tijdelijk structureel ambigue zinnen. Aan de hand van het model worden nieuwe stimuli gegenereerd die een optimale toetsing kunnen garanderen. De voorspelde probabiliteiten worden vervolgens getoetst aan data uit geplande experimenten met self-paced reading en eye-tracking.

Project Leader(s): 
Dominiek Sandra
Walter Daelemans
01/10/2007 - 30/09/2011

Research Foundation Flanders - FWO

Syndicate content