Zonder ruimteschip geen volle tank

Dit is precies wat ik dacht toen ik hoorde
van het stilleggen van het tram verkeer
tussen Utrecht en Nieuwegein/IJsselstein
omdat geen communicatie mogelijk was met de
verkeersleiding door de storing in het
netwerk bij Vodafone.  Ogenschijnlijk heeft
een telefoonstoring namelijk niets te maken
met het wel of niet rijden van de tram.
Echter, doordat het tram verkeer volkomen
afhankelijk is geworden van verkeersleiders
die vanuit een verkeerscentrale de bewegingen
van de trams regelen is het kennelijk niet
langer mogelijk om ``op zicht'' te rijden.

Zoiets kun je je maar nauwelijk voorstellen
als je al tientallen jaren in de
hoofdstedelijke trams zit.  Het draaiwieltje
van de trambestuurder, het knopje voor de
halte, het rode lichtje.  Ach ja, ook in de
trams is de automatisering toegeslagen.  Daar
zit tegenwordig ook een multitude aan
IT-intensieve systemen in.

Van OV-chipcard lezers tot televisiemonitors
waar een selectie van het lokale TV station
AT5 wordt uitgezonden.  Bij binnenkomst in de
binnenstad gaat voor elke stop een
Engelstalige grafstem af die toeristen
uitlegd dat ze moeten uitchecken met hun
public transport chipcard.  Nog afgezien van
bediening, besturing, en dynamische halte
informatie die real-time aangeeft hoeveel
minuten ongeduld je nog moet hebben eer je op
de volgende tram kunt springen.

Een dergelijk sneeuwbal effect van de storing
van een knooppunt van Vodafone noemen we wel
een single point of failure.  Die punten wil
je liever niet hebben, want de effecten zijn
te groot als het minste of geringste misgaat.

We weten al jaren dat dit soort situaties
voorkomt en dat dit nogal wat gevolgen kan
hebben.  Zo tolde op 19 mei 1998 de Galaxy 4
satelliet weg van moeder aarde.  Dit zou
gekomen zijn door slecht ruimteweer: er was
een wekenlange electronenstorm geweest vlak
voor het falen van het ruimtevaartuig.  Dat
kan een satelliet opladen.  Zodra het
ding zich dan in een klap ontlaadt, ruwweg er
breekt lokaal ruimteonweer bij heldere hemel
uit, dan is dat minder goed voor de
electronica.

Het zogeheten attitude control systeem van de
Galaxy 4 deed het niet meer zoals het hoorde.
Dit is een systeem dat zorgt voor
bijvoorbeeld bijsturing als de baan niet
helemaal meer klopt.  Denk aan stuurraketjes
af en aanschakelen om een idee te geven.  Ook
het backup systeem deed het niet meer naar
behoren.  Gevolg: de eigenaar PanAmSat kon
niet voorkomen dat hun honderden miljoenen
kostende satelliet langzaam wegtolde van de
planeet.  Als die dan toch wegtolt, dan
liever van de aarde af denk ik dan maar.

De gevolgen waren significant: omdat de
Galaxy 4 mooi boven centraal amerika hing,
handelde het 80% van het pieper verkeer af.
Weet u het nog?  Piepers hebben we ook nog
gehad, dan kon je een nummer bellen bij de
dichtstbijzijnde telefoon als er een ``code
rood'' was door gepiept.  Had hier de
dienstdoende huisarts een pieper, in de VS
waren het 45 miljoen klanten in die tijd al.
En dat niet alleen, Chevron had in die dagen
al een systeem waarmee bij 5400 tankstations
snel en gemakkelijk betaald kon worden.  Wat
maar weinigen wisten was dat dat via het
Galaxy 4 ruimteschip ging.  Dus automatische
credit card autorisatie was even uit de lucht
en tanken kon niet meer.

Wat aardig is om te vermelden, is dat de
eigenaar een goede risicostrategie had: er
hing al een reserve satelliet in de ruimte.
Binnen 24 uur had men alle communicatie weer
op streek.  Aan dit klassieke uitgebreid
bekende voorbeeld van een single point of
failure moest ik dus ogenblikkelijk denken
toen ik hoorde van de trams die niet reden
vanwege een mobiele telefoonstoring.

We zullen steeds vaker gaan meemaken dat
gedeeltes van de maatschappij (tijdelijk)
ontregeld raken door relatief kleine
triggers.

Dat maakt het noodzakelijk om na te denken
over hoe te handelen wanneer er fouten in dit
soort cruciale systemen blijken te zitten.
Dat kan niet achteraf, dat moet vooraf.  In
telecom software is dit vaak al ingebouwd,
alhoewel je dat niet zou zeggen gegeven het
probleem met Vodafone.  Dat gaat om een hele
reeks acties die naarmate de problemen
ernstiger zijn, ook ingrijpender worden.  Van
nietsdoen tot herstarten met de software van
netzovele versies terug tot het weer werkt.

In dit soort systemen gaat altijd wel eens
iets mis: het gebeurt iedereen wel eens dat
een telefoon verbinding verbroken wordt.  En
je komt er nooit achter waarom: drukte je op
een verkeerd knopje?  Was de ontvangst even
minder?  Het kan ook een low level recovery
zijn van de telefooncentrale: die hangen de
telefoon op als gevolg van een software
probleem.  Je kunt je voorstellen dat dit kan
uitgroeien tot een algehele reboot van het
systeem, waarbij al het telefoonverkeer
faalt.  Dat gebeurt maar voor heel klein
percentage van de aanwezige software fouten.

En als zelfs een algehele herstart niet
helpt, omdat de fout gewoon weer optreedt,
dan is de volgende herstart er een met een
eerdere versie van de software.  Duidelijk is
dat je dit vooraf zorgvuldig moet ontwerpen.
En als dat niet helpt, tjsa dan wordt het
tijd om de softwarefout te gaan oplossen.

X

Meer weten over de wondere wereld van ICT
in Jip en Janneke taal? Ga dan naar de

knipselkrant van Chris Verhoef

Prof. dr Chris Verhoef is hoogleraar informatica
aan de Vrije Universiteit in Amsterdam en
wetenschappelijk adviseur voor overheid en
bedrijfsleven.  Hij schrijft regelmatig een
column in AG II.  Hij is te bereiken via email:
x@cs.vu.nl.  Deze tekst is copyright SDU.  Niets
van deze uitgave mag zonder schriftelijke
toestemming van de uitgever worden overgenomen of
worden gepubliceerd.