Wat betekent het om de meest sexy job van de 21ste eeuw te hebben?

In tegenstelling tot wat u misschien denkt, bestaan er geen snelle, simpele, kant-en-klare data-oplossingen. Data science is een creatief proces waar heel wat gissen en missen bij komt kijken. Data Analytics vereist veel meer dan technische competenties. Ook menselijke, zakelijke en onderzoeksaspecten mogen niet uit het oog worden verloren.

De datahype is alomtegenwoordig en overal duiken succesverhalen, seminaries en opleidingen rond big data op. Iedereen is op zoek naar die ene multi-getalenteerde data scientist met unieke vaardigheden om in een handomdraai elk complex dataprobleem op te lossen. Velen lijken in hun zoektocht te onderschatten wat werkelijk nodig is om dergelijke problemen op te lossen.

Data science als oplossing voor reële problemen

Een data scientist is niet noodzakelijk een expert in de installatie van data tools. Het installeren en configureren van platformen, libraries en tools vormt slechts een randvoorwaarde voor data-innovatie. Bij data science gaat het om het oplossen van werkelijke problemen, niet alleen om de toepassing van algoritmen. Zelfs het meest intelligente algoritme is immers waardeloos zonder inzicht in het toepassingsdomein en de juiste data om te analyseren. Wat je dus in de eerste plaats nodig hebt, is 'business understanding': in staat zijn om projectdoelen en -behoeften vanuit een businessperspectief te begrijpen en te ontleden. Bovendien moet je deze doelen in een data science-oplossing kunnen omzetten.

Inzicht verwerven

Data begrijpen betekent data verkennen om inzicht te verwerven in het te onderzoeken fenomeen. Dit betekent dat we veronderstellingen maken over de onderliggende mechanismen en vervolgens overgaan tot het formuleren van hypothesen.

De verandering die data science tot stand kan brengen, zit soms in hele kleine dingen. Een mooi voorbeeld hiervan is de strategie die koerierbedrijf UPS met succes toepaste. UPS wilde met behulp van algoritmen zijn bezorgingsroutes optimaliseren door links afslaan te vermijden. Dankzij deze ingreep bespaart het bedrijf nu 38 miljoen liter brandstof per jaar, goed voor een reductie van de CO2-emissies met 20.000 ton.

Analytische vaardigheden door ervaring

Data science vereist analytische vaardigheden. Algoritmen beheersen volstaat niet. In staat zijn om algoritmische oplossingen te abstraheren en te conceptualiseren is een voorwaarde om te kunnen veralgemenen naar een bredere toepassingscontext toe.

In februari 2013 berichtte het wetenschappelijk vaktijdschrift Nature bijvoorbeeld dat GFT (Google Flu Trends) meer dan het dubbele aantal doktersbezoeken voor griepachtige aandoeningen voorspelde dan de Centers for Disease Control and Prevention (CDC), de overheidsinstantie die zich in de V.S. met het opsporen, behandelen en voorkomen van ziekten bezighoudt. Google vond de beste matches onder 50 miljoen zoektermen die voor 1.152 datapunten passen. Het is zeer waarschijnlijk dat zoektermen werden gevonden die weliswaar op vatbaarheid voor griep wijzen, maar die structureel niet-gerelateerd zijn en dus de toekomst niet voorspellen. Zie ook dit artikel.

Dit toont aan dat ondanks de hoeveelheid data nooit voorbij mag worden gegaan aan fundamentele problemen rond meting en valabele dataconstructie. Of hoe arrogantie en onwetendheid bij het verenigen van big data en small data soms problematische gevolgen kunnen hebben …

Datavereisten

De datavereisten spelen een fundamentele rol. Vaak is een grote hoeveelheid historische datareeksen beschikbaar die via sensormetingen van verschillende operationele parameters verkregen werden, maar ontbreken de essentiële meta-data (bv. wat zijn de operationeel gezonde periodes zonder anomalieën of defecten).

Op 1 februari 2003 verpulverde de Space Shuttle Columbia toen deze de atmosfeer van de aarde terug binnenkwam. In de nasleep van deze ramp publiceerde de NASA in 2004 een technisch rapport over een nieuwe techniek voor health monitoring: Inductive System Health Monitoring (ISHM). Deze werd getraind op basis van voorgaande succesvolle vluchten en moest het mogelijk maken om typisch systeemgedrag te karakteriseren. De techniek moest de mogelijkheid testen om anomalieën te detecteren in data afkomstig van de laatste vlucht.

ISHM kan echter breder worden ingezet en wel in een toepassingscontext als het monitoren van operationeel gedrag van industriële installaties. We denken in het bijzonder aan toepassingen die moeilijk te modelleren (simuleren) zijn met een computer of die computermodellen vereisen die te complex in gebruik zijn voor real-time monitoring. Eén voorbeeld hiervan is een windturbinepark.

Vaardigheden verwerven door ervaring

Een data scientist mag zelden of nooit wanhopen. Er zijn geen kant-en-klare oplossingen voor complexe industriële uitdagingen die verder gaan dan eenvoudige aggregatie en statistiek. Data-innovatie vraagt bijgevolg om een vakkundige, artisanale en iteratieve benadering die een aanzienlijke hoeveelheid zwarte kunst vereist. Deze kunde is uiteraard moeilijk in studieboeken terug te vinden en kan alleen uit ervaring verworven worden.

In een data-innovatieproject wordt weinig tijd gespendeerd aan het standaard machineleren. Het grootste deel van de tijd gaat naar het vergaren van data, het integreren, opkuisen en preprocessen ervan. Er komt bovendien heel wat trial-and-error kijken bij de selectie van algoritmen en de herhaling van 'model > evaluatie > verfijning' tot het resultaat naar wens is.

De witte raaf: een team

Data op zich verschaffen geen antwoord op alles. De mens blijft altijd een belangrijk element in het data-innovatieproces. Niet alles kan immers geautomatiseerd worden en gezond verstand is nodig om resultaten te verifiëren en valideren. Data en algoritmen zijn slechts even bruikbaar als de menselijke beslissingen die ermee gepaard gaan.

Data-innovatie vraagt om een unieke combinatie van kennis en vaardigheden, zoals domeinkennis, creativiteit, analytisch denkvermogen, statistiek en zelflerende systemen, programmeren, visualiseren, .... Daarnaast is ook een complementair team van mensen nodig, want al deze kennis en vaardigheden zijn zelden te vinden bij één enkele persoon.

Op TechBoost, een organisatie van de Alumnivereniging van UGent op 27 april, lichtte Elena Tsiporkova, hoofd van het EluciDATA Innovation Lab bij Sirris, toe wat het betekent om de meest sexy job van de 21ste eeuw te hebben. Haar presentatie toonde hoe en waarom 'big data' en 'data scientist' zoveel meer zijn dan hype begrippen.

Van het volledige event zijn ook een fotoreportage (http://www.flickr.com/photos/techboost2017/) en een videoverslag (https://www.youtube.com/watch?v=zbEHFO9JaCA) beschikbaar.