‘Data scientists genereren waardevolle inzichten uit een grote hoeveelheid gestructureerde of ongestructureerde data.’ Het is de eerste definitie die je in Google tegenkomt wanneer je op het woord ‘data scientist’ zoekt. Bij Symbol werkt ook een data scientist: Sjoerd de Vries. Naast zijn werk bij Symbol was hij enige tijd betrokken bij de Jheronimus Academy of Data Science in Den Bosch, waar de data scientists van de toekomst worden opgeleid. Maar wat houdt zijn werk als data scientist precies in? En waarom moet u juist hém inzetten? Hij vertelt het u in deze blog.

Datascientist

“Ik word vaak door klanten benaderd wanneer ze een product en/of proces hebben dat ze naar een hoger niveau willen tillen of wanneer een product cq. proces in een ‘dipje’ zit. Ik kijk dan naar twee dingen: welke verbeteringen er mogelijk zijn én hoe we ervoor kunnen zorgen dat het dipje niet weer ontstaat. Ik start vervolgens niet met het analyseren van de beschikbare data, iets wat klanten wel eens vreemd vinden. Om een klant écht te kunnen helpen, moet je namelijk eerst het volledige proces begrijpen. Waarom willen ze dit? Wat is het doel? Wat zijn de uitdagingen? Waar denken ze zelf dat het probleem zit? Ik stel vragen, en veel ook. Alleen zo kan ik in een korte periode op hetzelfde niveau als de klant komen – of zelfs daarboven gaan zitten – en kan ik goed advies geven. Bij een klant waar ik recentelijk voor werkte stelde ik dusdanige vragen dat zelfs de engineers er geen antwoord op hadden. Eye openers, dus.

Tachtig-twintig

Pas als alle antwoorden op tafel liggen en ik weet wat de klant écht wil bereiken, ontwikkel ik samen met de klant de juiste dataset om te analyseren. Ongeveer tachtig procent van mijn tijd gaat naar pre-data mining (voorbereiden) en slechts twintig procent naar data mining (het daadwerkelijke analyseren van de data). Leuk detail: ik ga áltijd met een andere dataset aan de slag dan de klant van tevoren denkt. Om een voorbeeld te geven: een klant kwam bij me met de mededeling dat de analyseapparatuur van één van hun machines foutieve data uitgaf en dus niet goed werkte. Op basis van de aangeleverde dataset kreeg ik meteen het idee dat er iets heel anders gaande was. En na het opvragen en analyseren van de onderliggende data en het uitvoeren van een meetsysteemanalyse bleek: met de analyseapparatuur was niets mis, het ging fout bij de assemblage.

Verschil tussen big data en right data

Een goede data scientist is in staat om in dit soort situaties snel te schakelen. Dat kan alleen als je één wordt met het project. Ook de techniek ‘process mining’ helpt om waardevolle bedrijfskennis uit data te kunnen halen. Ik gebruik zelf altijd het CORPUS-principe. Ik stel mezelf voor als een molecuul, een klein deeltje in een groter geheel, en volg zo het gehele proces om erachter te komen welke data cq. obstakels ik moet passeren om tot het beoogde doel te komen. Er is daarbij een groot verschil tussen big data (de hype van tegenwoordig) en right data. Het vinden van de juiste data binnen een big data set is namelijk een veel grotere uitdaging dan het alleen analyseren van een big data set.

Problem solving én continuous improvement

Waarom deze manier van werken? Bij de analyse van data is het van belang dat je niet tornt aan het uiteindelijke doel. Het mag nooit zo zijn dat je je doel aanpast aan de beschikbare middelen. Er is altijd een manier om je middelen zo aan te passen dat je je uiteindelijke doel kunt bereiken. Deze middelen kunnen software, hardware, analytische apparatuur en zelfs human zijn. Voorkomen is bovendien altijd beter dan genezen. Pas je je doel aan op je middelen, dan blijf je bezig met brandjes blussen. Als data scientist ben ik niet alleen een probleemoplosser, maar vooral ook een continue verbeteraar. Naast problem solving is continuous improvement één van mijn belangrijkste doelen. Hoe mooi is het om niet van 30 procent onder baseline performance naar baseline performance te gaan, maar naar 10 procent of zelfs meer boven baseline performance?

Niets is onmogelijk

Een goede data scientist is geen schaap met vijf poten, maar eentje met tien – of meer. Data is soms maar een klein onderdeel van mijn werk. Een brede basiskennis op vele vlakken is voor iedere effectieve data scientist een must. Je moet niet alleen opgeleid zijn in de toegepaste wiskunde, maar ook creatief zijn, een goed analytisch vermogen hebben, innovatief zijn, een open mind hebben én de wil hebben om nog iedere dag bij te leren. Een goede data scientist gaat geen enkele uitdaging uit de weg (mijn motto is ‘niets is onmogelijk’) en gaat actief met de klant in overleg om zo de juiste data te verkrijgen. Ik werk samen met de klant, spreek zijn taal en gebruik zijn middelen. Zo maak ik mij aan het einde van de rit overbodig en kan de klant zelf aan de slag. Als data scientist ben je veelal een starter, en in mindere mate een afmaker.”

 

Review