Correcte data bestaan niet

Elke IT-er weet dat correcte gegevensbanken niet bestaan.
Dus toen er out of the blue een brief van de
zorgverzekeraar op de mat lag waarin men aankondigde dat er
onlangs een wijziging op mijn polis had plaatsgevonden, was
ik niet verbaasd. Uiteraard wilde ik volgens dit schrijven
exact weten hoeveel ik dan voor die aanpassing ging
betalen, zie ommezijde. Over 2001, 2002, en 2003 wordt ik
geacht om in totaal zo'n 250 euro te betalen. Ik keer de
pagina weer om. Onlangs??? 2001? Het is nu 2003! Het
blijkt te gaan om een wettelijke bijdrage. Aha. Even de
administratie erbij, hmm op alle andere polissen betaal ik
al een wettelijke bijdrage. Dan maar eens gebeld, want ik
heb niets aangepast. Nadat alle standaard gevallen die het
call center kon bedenken afvielen, werd ik doorverbonden
met de echte geleerden. Die waren het er niet over eens:
"Tsja, wij snappen het ook niet!" sprak een vertwijfelde
stem, "Is het goed als we U nog even terugbellen?" klonk
het.

Een paar dagen later. Ja men had het gevonden. Ik zou 3
jaar in het buitenland gewoond hebben, en daarom was ik
vrijgesteld van de ene wettelijke bijdrage, niet de
andere. Wij snappen ook niet hoe het gekomen is dat U als
woonachtig in het buitenland bent aangemerkt. Maar dat was
dus een foutje, vandaar dat u nog even 250 euro moet
betalen. Omdat dit zo'n ijzersterke smoes is, betaal ik.
Maar eigenlijk klopt hier natuurlijk geen moer van. Iemand
raakt een knopje aan, schrijft iets verkeerds weg en hop je
bent een ander. Hier viel nog mee te leven, maar echt
kafkaesk werd het toen een aantal hertrouwde weduwen en
gescheiden vrouwen, woonachtig in het Waterschap
Rivierenland, een stembiljet in de bus kreeg waarin ze
werden aangesproken met de naam van hun overleden of
ex-echtgenoot. Voordat deze uiterst pijnlijke fout ontdekt
werd waren er al 200.000 enveloppen verstuurt, waaronder
zo'n duizend van dit soort hele foute stembiljetten.

De door de gemeenten aangeleverde gegevensbank bevatte niet
alleen de relevante data van de stemgerechtigden, maar ook
irrelevante mededelingen. Wellicht was niet helemaal de
juiste query over de database is gehaald, met dit tot
gevolg. Natuurlijk zie je niet meteen de problemen als je
700.000 records uitspuugt. Maar je weet: correcte data
bestaat niet. Dus je verzint een list: sorteer de records
eens op lengte, en inspecteer de langste paar, of doe iets
anders om het kaf van het ka te scheiden.

De verwerkende software had kennelijk met een
doopceel-record geen rekening gehouden. Omdat er geen
correcte gegevens bestaan, vertrouw je nooit zomaar de
input, en doe je daarop sanity checks. Feit is dat in 7000
gevallen de oudste in plaats van de meest recente gegevens
werden afgedrukt, met het gewraakte resultaat tot gevolg.
"Gelukkig" werden er 500.000 biljetten met de hand
gecontroleerd (waar kennen we dat toch van?), en zijn er
nog een slordige 6000 uitgefilterd, dus de schade voor de
bleef beperkt tot zo'n 1000 waterlandende stemmers. Handig
dat high-volume beta-testen in een productie omgeving.

Het wordt pas echt een feest als we die incorrecte
gegevensbanken eens vrolijk gaan koppelen. Enige jaren
geleden was al bekend dat door zo'n koppeling de
Amsterdamse Sociale Dienst maar liefst 41 duizend
belastingsignalen te verwerken kreeg: mogelijke fraudeurs
die in dat jaar zowel een uitkering als werk hadden gehad.
Wat bleek: twee-derde van de gevallen was vals-positief.
Over het hele land gemeten bleek dit 90% onzin gevallen op
te leveren. Dat lijkt dus op iedereen controleren,
waarvoor ik die koppeling niet nodig had. Erger, omdat je
dan ineens te maken krijgt met rechters, advocaten,
bewijslast, en dat soort details, moet je zaak ineens
waterdicht zijn. Dus moet alles met de hand nagekeken
worden. Want ook de wetgever weet dat er geen correcte
gegevensbanken bestaan. Bijvoorbeeld voor de Gemeentelijke
Basis Administratie gaat de wetgever er van uit dat de
afnemer de verkregen gegevens niet zonder meer voor juist
aanneemt, maar indien nodig weldegelijk verifieert.
Koppeling leidt dus tot meer werk, en dat terwijl Den Haag
dit ziet als een efficiente methode om fraude aan te
pakken.

X

Meer weten over de wondere wereld van ICT 
in Jip en Janneke taal? Ga dan naar de
knipselkrant van Chris Verhoef

Prof. dr Chris Verhoef is hoogleraar informatica 
aan de Vrije Universiteit in Amsterdam. Hij schrijft   
maandelijks een column in AG II. Deze tekst is 
copyright SDU. Niets van deze uitgave mag zonder
schriftelijke toestemming van de uitgever worden
overgenomen of worden gepubliceerd.