Op zoek naar een zoekmachine die verbanden kan leggen


Van een zoekmachine die trefwoorden echt begrijpt kon lange tijd alleen maar gedroomd worden. Maar langzaamaan komt nu een ‘semantisch web’ van de grond.


Het internet staat bol van informatie waar computers niets van begrijpen. Tik ‘Van Gogh’ in en Google levert in 0,07 seconden een lijst met meer dan zes miljoen resultaten. Van geen enkel resultaat hebben de computers bij Google ook maar enig idee waar het over gaat. Of het nu om een reclameaanbieding gaat, een tentoonstelling, een persoon, een pornofilm of poëzie: voor de computers van het internet is het allemaal een grote digitale brij.
De grondlegger van het Word-Wide Web, Tim Berners-Lee, bedacht zes jaar geleden dat het internet meer met informatie zou moeten kunnen doen. In Berners-Lee’s visioen zou het internet van de toekomst moeten weten wat de gebruiker bedoelt met een zoekterm. Bij ‘Van Gogh’ zou een toekomstige zoekmachine moeten denken aan de werken van de schilder, maar ook aan schilderijen waarop hij is afgebeeld, namen van leermeesters en vrienden, plaatsen waar hij heeft geleefd, mensen met wie hij veel omging. Dat is voor huidige zoekmachines niet mogelijk. Ze hebben geen weet van het feit dat er tussen de lettercombinaties ‘Van Gogh’ en ‘Auvers-sur-Oise’ ­ de plaats waar Van Gogh overleed ­ een verband bestaat.
Het web, zo vond Berners-Lee, zou zelfstandig dit soort verbindingen tussen de informatie van de miljarden internetpagina’s moeten kunnen leggen. Het zou daarmee een soort wereldomspannend kennisnetwerk kunnen worden, waarbij computers alle informatie op het internet inhoudelijk zouden kunnen begrijpen.
Berners-Lee formuleerde zijn plannen in een voor de tijd van de internethype karakteristiek optimisme. Zijn doelen zijn nog lang niet bereikt, maar inmiddels zijn er toch belangrijke vorderingen gemaakt. Het zijn met name ook Nederlandse onderzoekers die het ‘betekenisvolle web’ dichterbij brengen.

Metadata
De belangrijkste voorwaarde voor het realiseren van de droom van Berners-Lee is dat machines betekenis kunnen geven aan documenten: het web moet iets van semantiek begrijpen. Guus Schreiber, hoogleraar Intelligente Informatiesystemen aan de Vrije Universiteit in Amsterdam, demonstreerde vorig jaar tijdens een internationale conferentie in Amerika, dat het ook kan. Schreiber had met andere wetenschappers de collectie van diverse musea in Nederland digitaal bij elkaar gezet en er samenhang in aangebracht. Dit project ‘E-Culture’ was zo succesvol, dat het project op het Amerikaanse congres tot beste aanzet voor het semantisch web werd bestempeld.
De zoekmachine van E-Culture kan dingen waar Google alleen nog maar van kan dromen. Wie ‘Picasso’ intikt, krijgt niet alleen vijf treffers van kunstenaars met die achternaam, maar ook de namen van vrienden en collega’s. Dan nog schilderijen en sculpturen die door Picasso zijn gemaakt, maar ook werken van anderen, die door Picasso zijn beïnvloed, of die in dezelfde kunststroming liggen.
Schreiber: ‘Eigenlijk was dit project een voorbeeld van een standaardapplicatie. Binnen het vakgebied was er al jaren over gesproken, maar nog nooit had iemand de moeite genomen om het werkelijk op zo’n grote schaal in de praktijk te brengen.’ De belangrijkste verdienste van E-Culture is het bijeenbrengen in één zoeksysteem van allerlei verschillende soorten informatie die musea door de jaren heen hebben verzameld. ‘De omvang van het project is daarbij een grote technische uitdaging: het gaat om tienduizenden objecten en honderden miljoenen beschrijvingen daarvan’, zegt Schreiber.
De computer moet al die beschrijvingen ‘begrijpen’. Dat gebeurt in E-Culture door de informatie te voorzien van speciale annotaties, ook wel metadata genoemd. De annotaties zijn onderling hiërarchisch geordend en door mensen zijn zinvolle verbanden ertussen aangegeven. Zo valt ‘Picasso’ in de categorie ‘schilder’. En ‘schilderen’ en ‘beeldhouwen’ zijn twee ‘eigenschappen’ van Picasso.
Uit dit soort annotaties en hun onderlinge verhoudingen kan de computer bepaalde logische redenaties afleiden. Het systeem kan zo verbanden herkennen, ook als die niet vooraf expliciet door een mens zijn ingevoerd. Als in de formele beschrijving staat dat ‘schilderen’ een eigenschap van Picasso is, en dat ‘schilderen’ ook een eigenschap van Van Gogh is, dan kan het systeem zelf een verband leggen tussen beide schilders.
E-Culture heeft laten zien dat het aan elkaar knopen van dit soort beschrijvingen goed kan werken. Dat succes kent wel twee fundamentele beperkingen: bij kunst gaat het maar om een beperkt kennisdomein en bovendien is het een kennisdomein waarin feiten en gegevens niet zo snel veranderen.

Tegenstrijdigheden
Dat er voor zo’n toekomstig systeem met miljarden gegevens gerekend moet worden, zien de meeste onderzoekers als het geringste probleem. Computers verdubbelen nu eenmaal elke 18 maanden hun rekencapaciteit. Maar hoe zit het met de andere uitdagingen van het semantische web?
De tweede horde voor systemen als E-Culture is: wat te doen met tegenstrijdige informatie? Zelfs als niemand kwade wil in de zin heeft, ontstaan er in de ‘thesaurus’ (geordende begrippenstructuur) die de ontwikkelaars van een semantisch web vastleggen, logische tegenspraken.
Zo zou men in een thesaurus de volgende vier regels kunnen aantreffen: ‘koeien zijn dieren’, ‘schapen zijn dieren’, ‘koeien en schapen zijn vegetariërs’ en ‘vegetariërs eten nooit andere dieren of delen van andere dieren’. Vervolgens verschijnt er op een dag een bericht op het web dat sommige koeien hersenen van schapen gegeten hebben en vervolgens ziek werden. Deze koeien worden ‘gekke koeien’ genoemd. De bestaande thesaurus kan nu alleen consistent blijven als tenminste een van de regels eruit wordt geschrapt. Welke van de regels moet er nu aan geloven?
Frank van Harmelen , hoogleraar kennisrepresentatie en redenering aan de afdeling kunstmatige intelligentie aan de Vrije Universiteit van Amsterdam, is desondanks optimistisch over het vinden van oplossingen voor dit soort problemen: ‘We moeten hier voorbij de klassieke logica ­ waarbij iets of waar of onwaar is. Het is helemaal niet nodig om dit soort tegenspraken honderd procent goed op te lossen. Ook als je systeem het maar een beetje goed doet, heb je toch al een enorme winst gemaakt.’


Grote open vraag
Voor een wereldomspannend semantisch web is het noodzakelijk dat er gestandaardiseerde manieren ontwikkeld worden om kennis vast te leggen en tussen computers uit te wisselen. Voor het laatste is niet de techniek, maar de mens doorslaggevend omdat er goede internationale afspraken gemaakt moeten worden. In allerlei toepassingsgebieden schieten er op dit moment thesauri en begrippenlijsten uit de grond voor de biotechnologie, de informatica, de financiële sector, enzovoort. ‘Voor mij is de grote open vraag: zullen we er in slagen al die begrippenlijsten op een zinvolle manier met elkaar te verbinden?’, zegt Van Harmelen.
Of het dus ooit zover komt dat in een semantisch web, zoals Berners-Lee droomde, ‘computers in staat zullen zijn om alle data op het internet te analyseren ­ de inhoud, onderlinge samenhang en de interactie tussen mensen en machines’, is nog steeds de grote vraag. Maar het semantisch web heeft voor beperkte kennisgebieden duidelijke doorbraken bereikt. Schreiber: ‘Mijn droom is dat we over vijf jaar op deze manier alle musea in Nederland met elkaar kunnen verbinden. Dan ontstaat een soort cultureel kenniseiland. Dat eiland zou je daarna kunnen uitbreiden op Europese schaal, en misschien valt uiteindelijk te denken aan het digitale erfgoed van de hele wereld.’

Datum | woensdag 28 maart 2007
Sybe Rispens
Illustratie Andre Thijssen