Programme

Programme for Friday below.

Download the Book of Abstracts

Thursday 5 February 2015

12:00 - 13:00 Registration (Ground floor of R-building, Rodestraat 14)
CLIN 25th Anniversary Academic Event (in R.014)
13:00 - 13:05 Welkomstwoord
Walter Daelemans
13:05 - 13:30 25 jaar CLIN [slides]
Gertjan van Noord
Het Verleden
Voorzitter: Anton Nijholt
13:30 - 13:50 Het Rosetta-project
Jan Landsbergen (Universiteit Utrecht)
In de periode 1980-1992 is op het Philips Natuurkundig Laboratorium onderzoek gedaan aan machinaal vertalen: het Rosetta-project. Aanvankelijk was dit een kleinschalige onderzoeksactiviteit, in 1985 werd het een vrij groot project, in samenwerking met de Universiteit Utrecht. Ik zal de geschiedenis van Rosetta in vogelvlucht beschrijven en al doende proberen een antwoord te geven op vragen als de volgende:
- Waardoor raakte ik geïnteresseerd in machinaal vertalen?
- Waarom financierde Philips dit project?
- Wat waren de doelstellingen?
- Wat waren de belangrijkste hinderpalen?
- Waarom is het project in 1992 beëindigd?
- Wat heeft het project opgeleverd?
13:50 - 14:10 Hoe het allemaal begon
Luc Steels (AI Lab VUB, ICREA Barcelona)
Vlaanderen en Nederland waren vrijwel brakke grond voor computertaalkunde in het begin van de jaren zeventig. Ik wil vertellen over hoe de eerste kiemen konden beginnen bloeien, welke problemen werden aangepakt en met welke (povere) computerinfrastructuur er toen moest worden gewerkt. Maar uit die eerste kiemen zijn geweldige dingen voortgekomen - zoals de CLIN duidelijk laat zien. Dan wil ik het hebben over het onderzoek in taal waar we de laatste tijd mee bezig geweest zijn: computermodellen bouwen voor de oorsprong en evolutie van taal, en manieren vinden om open interactie tusen robots en mensen mogelijk te maken. Deze (absurd) ambitieuze doelstelling vragen nieuwe doorbraken op bijna alle terreinen van de computerlinguistiek, en vooral een terugkeer naar fundamenteel onderzoek.
14:10 - 14:30 Wat zocht een experimenteel-psycholoog in de computerlinguïstiek
Gerard Kempen (MPI Nijmegen, Universiteit Leiden)
Het antwoord op deze vraag heeft natuurlijk te maken met mijn onderzoeksgebied: eerst geheugen-, later taalpsychologie. Al sinds de jaren 1960 werd in de experimentele psychologie gebruik gemaakt van corpuslinguïstiek: automatische telling van woordfrequenties. Veel theorie over de werking van het geheugen was gebaseerd op onderzoek naar het onthouden van woordenlijstjes; en woordfrequentie was een handige maat voor activatie: een belangrijke dynamische variabele in de toenmalige—en hedendaagse—geheugentheorie. Maar mij was het niet daarom te doen. Ik raakte geïnteresseerd in de vraag hoe mensen de inhoud van zinnen en teksten kunnen onthouden en reproduceren. Helaas had de psychologie daarover in die tijd (medio jaren ’60) weinig te bieden, en al spoedig ontdekte ik dat ik te rade moest gaan bij de linguïstiek, en meer nog bij een toen geheel nieuw vakgebied: Artificiële Intelligentie. Daar stond immers de representatie van kennis centraal (o.a. inhoud van zinnen en teksten). Daarom heb ik me in de eerste helft van de jaren ’70 de nodige technische en theoretische AI-vaardigheden eigengemaakt voor zover die op taal betrekking hadden—computerlinguïstiek dus. Dit deels via studieverblijven van anderhalf jaar in Engeland (U Sussex) en de VS (Yale U). Computerlinguïstische theorieën en technieken heb ik sindsdien benut als gereedschap voor exacte psycholinguïstische theorievorming. Een in die tijd populaire onderzoeksmethode maakte gebruik van taken waarin proefpersonen hele zinnen van buiten moesten leren. Ik merkte al spoedig dat het re-produceren van zinnen meer openbaarde over hoe mensen zinnen produceren van over hoe ze de betekenis ervan onthouden. Binnen de moderne psycholinguïstiek was taalproductie echter onontgonnen gebied. Dus heb ik daar, computerlingüistisch gewapend, heel wat pioniersarbeid moeten verrichten, samen met Eduard Hoenkamp en Koenraad De Smedt. Hetgeen heeft geleid tot vroege (in LISP geprogrammeerde) “language generators” en tot nieuwe psycholinguïstische theorie over taalproductie, met name over de grammatische aspecten daarvan. Allengs werd mij in de jaren ’90 uit internationaal onderzoek duidelijk dat veel van de cognitieve processen die aan zinsbouw ten grondslag liggen, niet alleen werkzaam zijn tijdens taalproductie maar ook tijdens taalperceptie. Dit vraagt om een grammaticaformalisme dat zowel voor zinsgeneratie als voor zinsontleding bruikbaar is. Aan de ontwikkeling van zo’n formalisme en van een daarop gebaseerd zinsbouwmechanisme hebben Theo Vosse, Karin Harbusch en ik sindsdien veel tijd besteed. Voor wat de dynamische aspecten van het zinsbouwproces betreft steunen we daarbij op neurocomputationele, connectionistische, en corpuslinguïstische verworvenheden. In de tweede helft van mijn verhaal zal ik iets laten zien van dit meer recente werk. Meer lezen? Ga naar www.gerardkempen.nl
14:30 - 14:40 Casparo
Luc Steels (Componist)
Tragikomisch intermezzo
14:40 - 15:00 PHLIQA & DOP
Remko Scha (Universiteit van Amsterdam)
I will discuss some early work in natural-language question-answering that was carried out in the 1970s at Philips' Research Laboratories in the context of the PHLIQA project, and reflect on its failure to make a lasting impact on user interface technology. In particular, I will deplore that in the early 1980s, when PHLIQA was finished, we failed to see that the technology for a global information network for "casual users" (now known as the world-wide web) was in fact available. I will also discuss the very first work in "treebank-grammars", a.k.a. Data-Oriented Parsing (DOP), that was conceived at BBN Laboratories in the late 1980s and developed at the University of Amsterdam in the early 1990s; I will reflect on the failure of this work to make a significant impact on the theory of language cognition. In particular, I will deplore that today's statistical and neural approaches to language processing usually neglect important structural properties of language.
15:00 - 15:20 Taalkunde en computertaalkunde in de lage landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen [slides]
Frank Van Eynde (KU Leuven)
Er was een tijd, niet eens zo lang geleden, dat de computertaalkunde in de lage landen zich liet inspireren door methodes en inzichten uit de formele taalkunde: de grootschalige projecten voor automatische vertaling van de jaren 80 bijvoorbeeld waren op een linguistische leest geschoeid, cf. Eurotra, Metal, Rosetta, BSO. In de tweede helft van de jaren 90 keerde het tij. De relevantie van formele taalkunde voor natuurlijke taalverwerking werd in vraag gesteld en vaak ontkend. Data werden belangrijker dan generalisaties. Er werden corpora samengesteld en geannoteerd. De technologie was geheel probabilistisch of een mengeling van linguistische en statistische modellen. Op dit moment zijn we in een situatie beland waarin de verhouding tussen taalkunde en computertaalkunde evenwichtiger is: de computertaalkunde laat zich selectief en sporadisch inspireren door de formele taalkunde, maar oefent zelf ook invloed uit op die laatste.
15:20 - 15:40 Koffie
15:40 - 16:00 De relevantie van computerlinguïstiek in de universiteit: toen, nu, straks [slides]
Lou Boves (Radboud Universiteit Nijmegen)
In de Letterenfaculteiten in Nederland is computer linguïstiek heel lang opgevat als 'algebraïsche taalkunde'. Zowel voor gesproken als geschreven taal betekende dat een zoektocht naar regels die een compacte beschrijving geven van structuur van kant-en-klare uitingen/zinnen. De communicatieve context waarin die uitingen/zinnen een functie zouden kunnen hebben speelde geen rol. Onderzoek naar de processen die nodig zijn om communicatief effectieve uitingen te produceren of te begrijpen, iets wat je natuurlijke-taal verwerking zou kunnen noemen, was niet aan de orde. Rond 1980, toen de eerste toepassingen van spraaktechnologie buiten signaalbehandeling in de telecommunicatie aan de horizon verschenen, werden methoden en technieken geïntroduceerd die gebruik maakten van 'echte data' en statistische modellen. Dit tot groot verdriet van een groot deel van de onderzoekers op het Instituut voor Perceptie Onderzoek in Eindhoven, waarin de TU samenwerkte met Philips Natlab. In het SPICOS project, een samenwerking tussen Siemens Research en Philips Natlab gericht op de ontwikkeling van een automatische spraakherkenner, bestond binnen het IPO een grote weerstand tegen alles wat te maken had met Herman Ney en zijn ideeën. Nog in 1996, bij de operatie "Dieptestrategie" van NWO, werd de computer linguïstiek de taak toebedacht om taalkundige theorieën te bevestigen. We hebben nu een jaar of tien achter de rug waarin data-gebaseerde, statistische en machine-learning methoden ook binnen de Geesteswetenschappen als respectabel geaccepteerd werden. Maar we worden nu geconfronteerd met het feit dat de research labs van de 'monopolistische' telefoonmaatschappijen (en IBM) waar universiteiten mee konden samenwerken weggevaagd zijn. Spraaktechnologie is niet langer gebaseerd op corpora met een paar tientallen uren spraak. Google, Microsoft en Nuance doen het nu met duizenden uren spraak, opgenomen in operationele diensten, wat het onmogelijk maakt om data te delen met buitenstaanders. Dat, en het feit dat voor de verwerking van duizenden uren spraak computerpower nodig is die ver voorbij gaat aan wat universiteiten kunnen opbrengen, heeft het belang van universitaire onderzoek naar automatische spraakherkenning voor het bedrijfsleven gemarginaliseerd. Je zou kunnen zeggen dat de voorstanders binnen de universiteit van data-gebaseerde methoden aan hun succes ten onder gegaan zijn. En ik zie in de verwerking van geschreven taal hetzelfde gebeuren. Dit alles roept de vraag op wat de computer linguïstiek kan en moet doen om haar relevantie binnen de universiteiten, en met name binnen de geesteswetenschappen te behouden, zodat er over tien en over vijfentwintig jaar nog steeds CLIN conferenties zullen zijn. Mogen we rekenen op een omslag in de belangstelling van de taalwetenschap naar processen en communicatie in plaats van structuurbeschrijving? Of moeten we iets doen? En zo ja, wat dan?
16:00 - 16:20 35 jaar TST-beleid door de Vlaamse en Nederlandse overheid, en nu ? [slides]
Alice Dijkstra (NWO) & Peter Spyns (EWI)
Vanuit een kort historisch overzicht van overheidsfinanciering in Vlaanderen en Nederland voor TST aangevuld met nog niet zo oude beleidssessies en huidige initiatieven (o.a. een bibliometrische analyse) worden geheel vrijblijvend enkele ideeën opgegooid voor de de toekomst.
16:20 - 16:30 Discussie
De Toekomst
Moderator: Mike Kestemont
16:30 - 17:30 Panelgesprek met: [slides]
- Dong Nguyen (Universiteit Twente)
- Tim Van de Cruys (IRIT-CNRS)
- Eva D'Hondt (LIMSI-CNRS)
- Folgert Karsdorp (Meertens)
17:30 - 17:45 Discussie
19:00 - 23:00 Conference Dinner at Zoo Antwerpen (Koningin Astridplein, next to the Central Station)
Registration desk will be present



Friday 6 February 2015

9:00 - 9:30 Registration + coffee
Session 1 R.212 R.124 R.125 R.213 R.224
9:30 - 10:50 Spelling & Normalization Computational Psycholinguistics Syntax Opinion Speech & Discourse
Chairs: Gosse Bouma Lou Boves Jan Odijk Véronique Hoste Dirk Van Compernolle
A new automatic spelling correction model to improve parsability of noisy content
Rob van der Goot, Gertjan van Noord
Predicting concreteness and perceivability
Emiel van Miltenburg
Using lexicalized parallel treebanks for STSG induction
Vincent Vandeghinste
Applying terminology extraction to aspect-based sentiment analysis
Orphée de Clercq, Marjan van de Kauter, Els Lefever, Véronique Hoste
Extending n-gram language models based on equivalent syntactic patterns
Lyan Verwimp, Joris Pelemans, Hugo van Hamme, Patrick Wambacq
Architectures and representations for string transduction
Grzegorz Chrupała
Distributional semantics for child-directed speech: a multimodal approach
Giovanni Cassani, Marco Baroni
How Synchronous are Adjuncts in Translation Data?
Sophie Arnoult, Khalil Sima'An
A sentiment journey from the 1950s until 2010 - Extracting negative opinions from political articles in De Telegraaf
Carlotta Casamassima, Antske Fokkens, Laura Hollink, Wouter van Atteveldt, Annick van der Peet
High-quality Flemish Text-to-Speech Synthesis
Lukas Latacz, Wesley Mattheyses, Werner Verhelst
The third way: triplet description of Dutch orthography
Johan Zuidema, Anneke Neijt
Using computational semantics and computer vision to hack the brain - preliminary results and discussion of ongoing work
Alessandro Lopopolo
Evaluation of context-free language learning systems across languages
Menno van Zaanen, Nanne van Noord
Detecting Implicit Opinions with a Target-specific Opinion Thesaurus
Sergei Kulikov
LECSIE - Linked Events Collection for Semantic Information Extraction
Juliette Conrath, Stergos Afantenos, Nicholas Asher, Philippe Muller
Finding and Analyzing tweets from Limburg and Friesland
Dolf Trieschnigg, Dong Nguyen, Lysbeth Jongbloed, Jolie van Loo, Leonie Cornips, et. al
Modeling the learning of the English past tense with memory-based learning
Rik van Noord
Tree models, syntactic functions and word representations
Simon Suster, Gertjan van Noord, Ivan Titov
Topic Modelling in Online Discussions
Chris Emmery, Menno van Zaanen
Crowdsourcing Temporal Relations in Italian and English
Tommaso Caselli, Rachele Sprugnoli
10:50 - 11:20 Coffee
11:20 - 12:40 Plenary Session (in R.014)

- Welcome (Walter Daelemans)
- STIL Thesis Award (Antal van den Bosch)
- Clarin NL (Jan Odijk)
- Open SONAR (Martin Reynaert)
Invited Talk by Tony Veale: The Revolution will be Automated
12:40 - 13:30 Lunch
13:15 - 14:40 Poster / demo session
Session 2 R.212 R.124 R.125 R.213 R.224
14:00 - 15:20 Language Models Semantics Industry Track I Text Mining DH & Creativity
Chairs: Patrick Wambacq Els Lefever Martin Reynaert Franciska de Jong Khalil Sima'an
Translation-based Word Clustering for Language Models
Joris Pelemans, Hugo van Hamme, Patrick Wambacq
Tracking Linguistic Complexity in Second Language Writing: A Sliding-Window Approach
Marcus Ströbel, Elma Kerz, Daniel Wiechmann
Predicting OOV pronunciations for TTS using FSTs
Esther Judd-Klabbers
I had the most wonderful dream: A text analytics exploration of reported dreams
Antal van den Bosch, Maarten van Gompel, Iris Hendrickx, Ali Hürriyetoğlu, Folgert Karsdorp, et. al
Polemics Visualised: experiments in Syriac text comparison
Hannes Vlaardingerbroek, Marieke van Erp, Wido van Peursen
Lexical choice in generation from Abstract Dependency Trees
Dieke Oele, Gertjan van Noord
Open Source Dutch WordNet
Marten Postma, Piek Vossen
Approach to non-standardised languages in Asian and African markets
Dorota Iskra
Automatic extraction of disease features from Wikipedia
Eva D'Hondt, Brigitte Grau, Pierre Zweigenbaum
Automatic Limerick Generator
Eric Sanders
p(conclusion|Skipping {*2*}): Cross-domain Bayesian Language Modelling with Skipgrams
Louis Onrust
Inducing Semantic Roles within a Reconstruction-Error Minimization Framework
Ivan Titov, Ehsan Khoddam Mohammadi
Beyond training data: Sequence labeling using continuous vector representation of words
Chao Li, Carsten Hansen, Gerard Goossen, Lena Bayeva, Florence Berbain, et. al
Open-domain extraction of future events from Twitter
Florian Kunneman, Antal van den Bosch
An Exploration of Automatic Poetry Generation in Dutch
Tim van de Cruys
Factored and hierarchical models for Dutch SMT
Joachim van den Bogaert
Inferring Hypernym/Hyponym Relations in Dutch/English Parallel Texts
Johannes Bjerva, Johan Bos
HLT Agency – no service like more service
Remco van Veenendaal
"What happened to …?" Entity-based Timeline Extraction
Tommaso Caselli, Antske Fokkens, Roser Morante, Piek Vossen
Mapping from Written Stories to Virtual Reality
Oswaldo Ludwig, Quynh Do, Marie-Francine Moens
15:20 - 15:50 Coffee
Session 3 R.212 R.124 R.125 R.213 R.224
15:50 - 17:10 Machine Translation NER & WSD Industry Track II,
Syntax & Grammar
Social Media Agent-based Modelling
Chairs: Vincent Vandeghinste Lieve Macken Gertjan van Noord Antal van den Bosch Guy De Pauw
MT evaluation with BEER
Milos Stanojevic, Khalil Sima'An
Named Entity Disambiguation with two-stage coherence optimization
Filip Ilievski, Marieke van Erp, Piek Vossen, Wouter Beek, Stefan Schlobach
The Elsevier Fingerprint Engine, or Applications of Concept Extraction in Publishing
Marius Doornenbal
Predicting time-to-event from tweets
Hannah Tops
Strong ‘islands of resilience’ in the weak flood. Dutch strategies for past tense formation implemented in an agent-based model
Dirk F. Pijpops, Katrien Beuls
Text-to-pictograph translation for six language pairs
Leen Sevens, Vincent Vandeghinste, Ineke Schuurman, Frank van Eynde
Synset embeddings help named entity disambiguation
Minh N. Le
A Parsed Corpus of Historical Low German
Mariya Koleva, Melissa Farasyn, Anne Breitbarth, Véronique Hoste
User types in Dutch Twitter
Hans van Halteren
Computational Construction Grammar: A Survey of the State-of-the-Art
Remi van Trijp
Bilingual Markov Reordering Labels for Hierarchical SMT
Gideon Maillette de Buy Wenniger, Khalil Sima'An
Automatic word sense disambiguation for Dutch using dependency knowledge
Hessel Haagsma
Robust Language Processing in Fluid Construction Grammar. A Case Study for the Dutch Verb Phrase
Paul van Eecke
Proof-of-Concept Experiments for the Fine-Grained Classification of Cyberbullying Events
Cynthia van Hee, Ben Verhoeven, Els Lefever, Guy de Pauw, Véronique Hoste, et. al
An agent-based model of Germanic verbal cluster word order change
Jelke Bloem, Arjen P. Versloot, Fred Weerman
Syntax-based fuzzy matching in translation memories
Tom Vanallemeersch, Vincent Vandeghinste
Error analysis of Word Sense Disambiguation results
Rubén Izquierdo, Marten Postma
Adposition stranding in Dutch. Omdat we er dol op zijn!
Liesbeth Augustinus, Frank van Eynde
Part-of-Speech Tagging of Twitter Microposts only using Distributed Word Representations and a Neural Network
Fréderic Godin, Wesley de Neve, Rik van de Walle
Visualizing complex linguistic data using GTFL: a case study for Fluid Construction Grammar
Miquel Cornudella
17:10 - 18:10 Drinks



For the occasion of CLIN’s 25th Anniversary, the organizing committee is happy to present you with a gift. Remember to stop by the registration desk before you leave. You will receive your gift when handing in your name badge.