Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
EN

Khalil Sima'an

Ontwikkelt zelflerende vertaalmachine

Vertaalmachines leveren vaak onbeholpen producten af. Khalil Sima'an ontving een Vici-vernieuwingsimpuls van anderhalf miljoen euro voor zijn onderzoek naar een zelflerende vertaalmachine, die de oorspronkelijke betekenis van een tekst overeind houdt.

Khalil Sima'an
Foto: Julie Hrudova

Vier wetenschappers van de UvA en het AMC kregen onlangs een Vici-vernieuwingsimpuls toegekend van de Nederlandse Organisatie voor Wetenschappelijk onderzoek (NWO). Een van hen is computerlinguïst Khalil Sima'an, werkzaam bij het Institute for Logic, Language and Computation (ILLC). Hij kreeg de toekenning van anderhalf miljoen euro voor zijn onderzoek naar een optimale vertaalmachine.

Wat schort er aan de bestaande vertaalmachines?

'Die vertalen gebrekkig, omdat ze de betekenis van teksten niet begrijpen voordat ze die vertalen. Neem Google Translate of een vertaal-app op de iPhone. Ze zijn verrassend goed, maar geven desondanks nog vaak een verkeerde of verwrongen vertaling. Dat geldt vooral voor vertalingen uit bijvoorbeeld het Arabisch of Russisch. De bestaande vertaalmachines kunnen niet garanderen dat de oorspronkelijke tekstbetekenis overeind blijft.'

Met uw vertaalmachine kan dat wel?

'Dat is wel de ambitie. Wij ontwikkelen een vertaalmachine die in staat is de oorspronkelijke betekenis van een tekst te behouden.'

Hoe werkt die machine?

'Onze vertaalmachine is zo gemaakt dat die leert van eerdere vertalingen die zijn gemaakt door menselijke vertalers. Daarvoor put de machine uit databanken met voorbeelden van eerder vertaalde teksten, van bijvoorbeeld het Europees Parlement. Vervolgens gebruikt de vertaalmachine het geleerde uit die eerdere vertalingen om nieuwe teksten te vertalen. Het programma bootst zo dus menselijk vertaalgedrag na, omdat het kennis op basis van eerdere vertaalervaringen toepast op nieuwe bronteksten.'

Jullie ontwikkelen een computer met een talig brein.

'Nee, de vertaalmachine leert niets over cognitieve taalverwerking, betekenis en grammatica. Het programma leert uitsluitend van voorbeelden. Door een gigantische hoeveelheid voorbeelden van eerdere, goede vertalingen op te slaan, kan het programma die vertaalcomponenten destilleren en combineren die bruikbaar zijn voor de vertaling van een nieuwe brontekst.'

Maar de nuances in taal en tekst zijn oneindig, dus hoe is dat mogelijk?

'De vertaalmachine beperkt zich voorlopig tot teksten binnen een specifiek domein, zoals de rechtspraak, de politiek, of nieuwsartikelen. Onze aanname is dat de verschillende tekstvertalingen binnen zo'n domein niet extreem van elkaar afwijken omdat ze niet voor elke willekeurige uitleg vatbaar zijn. Een tekstvorm die meer bevattelijk is voor een persoonlijke interpretatie, zoals poëzie, laten we vooralsnog buiten beschouwing.'

Kan jullie vertaalmachine zich dan wel meten met een menselijke vertaler?

'Ook een menselijke vertaler kent zijn beperkingen. Als hij in Nederland en met de Nederlandse taal is opgegroeid, zal hij sommige nuances in bijvoorbeeld het Chinees ook niet volledig kunnen begrijpen. Wat vaststaat, is dat goede vertalers ervaren vertalers zijn. En hun professionele ervaring vormt de input voor onze vertaalmachine. Als er maar voldoende goede vertaalvoorbeelden voorhanden zijn om van te leren, zal de vertaalmachine inderdaad tenminste kunnen tippen aan een menselijke vertaler.'

Maar begrijpt uw vertaalmachine bijvoorbeeld ook ironie? De zin Fijn, het regent kan in het droge Spanje immers een heel andere lading hebben dan in het druilerige Engeland.

'Wel als de vertaalmachine weet welke zinnen aan die zin vooraf gingen, in welk land deze zin werd uitgesproken en hoe warm het in dat land is. Informatie over de situatie en context van een tekst kan ook in de vertaalmachine worden ingevoerd, opgeslagen en gebruikt voor een volgende vertaling.'

Op welke vakdomeinen richt de vertaalmachine zich?

'Op alle mogelijke vakdomeinen. Wij ontwikkelen slechts het mathematisch model en een prototype van de programmatuur. We leveren geen kant en klare vertaalmachines met daarin opgeslagen de input aan vertaalvoorbeelden uit een of meer domeinen. Het is de bedoeling dat de machine even gemakkelijk leert van bijvoorbeeld juridische tekstvertalingen als van vertaalde journalistieke artikelen, op basis van de vertaalvoorbeelden die de machine als input krijgt. Het onderzoeksmodel is dus multi-inzetbaar.'

Heeft het onderzoek ook maatschappelijke relevantie?

'Parallel aan ons onderzoeksproject loopt een project van technologiestichting STW, die zich bezighoudt met de kennisoverdracht tussen wetenschap en technologiegebruikers. Vijf internationale bedrijven hebben interesse in de vertaalmachine. Die stellen ons daarvoor een databank ter beschikking met bestaande vertaalgegevens, op basis waarvan de vertaalmachine tot een model kan komen voor hun specifieke domeinen. Het is aan ons om empirisch aan te tonen dat dit kan.'

Hoe toetsen jullie dat?

'Door de vertalingen van de machine te vergelijken met de vertalingen van menselijke vertalers. We gebruiken voor ons onderzoek twee databanken met eerdere vertalingen. Eén dient als input voor de vertaalmachine, om van te leren, de andere wordt gebruikt om de computervertalingen te toetsen op hun kwaliteit.'

Wat maakt het onderzoek bijzonder?

'Wij zijn computerlinguïsten, net als de beroemde taalkundige Avram Noam Chomsky. Hij, en vele collega’s met hem, waren op zoek naar een universele grammatica en onderliggende betekenisoverdracht: een aangeboren taalvermogen dat alle mensen met elkaar delen en dat de overeenkomsten tussen verschillende talen verklaart. Maar op elke taalregel bestaan uitzonderingen en afwijkingen. Mijn theorie is dat we betekenis niet hoeven opschrijven om te controleren of de overdracht ervan correct en volledig is. Dat is zelfs onmogelijk, omdat niemand de betekenis kent. Niemand kan immers de enige echte betekenis van een tekst opschrijven, terwijl bijna iedereen een tekst in eigen woorden kan herformuleren. Wij gaan daarom anders te werk. De vertaalmachine moet kunnen herkennen wanneer in een nieuwe brontekst dezelfde betekenissen voorkomen als in soortgelijke teksten in een corpus van eerdere vertalingen. Vervolgens levert de vertaalmachine in eigen woorden een nieuwe vertaling op.' 

Khalil Sima'an (1964)

 1988 bachelor Computer Science, Technion, Haifa (Israël)
 1992 doctoraal Informatica UvA cum laude
 1999  promotie UU; Best dissertation award European Foundation for Logic, Language and Information (FoLLI)
 1999 - 2001 postdoc onderzoeker TiU en UvA
 2002 fellowship Koninklijke Nederlandse Akademie van Wetenschappen (KNAW)
 2003 - 2010 universitair docent Institute for Logic, Language and Computation (ILLC)
 2006 - 2012 onderzoek vanwege Vidi-vernieuwingsimpuls NWO
 2011 -  heden                             universitair hoofddocent ILLC
 2013 - heden                                                                  toekenning Vici-vernieuwingsimpuls NWO, onderzoek Machine Translators: Teaching Computers to Translate Using their own Words.