Dataverkenning en hypotheseopbouw, of hoe correct aan data-analyse doen

Voor je aan grondige data-analyse wil gaan doen, moet je je ervan vergewissen dat de beschikbare data zich wel degelijk lenen tot het verhelpen van je bedrijfsprobleem. Dataverkenning is een eerste stap in de data science workflow. Het helpt je uit te maken of de beschikbare data geschikt zijn voor het probleem dat je wilt onderzoeken. Onze trainingsessie rond dataverkenning helpt je alvast op weg.

Dataverkenning, een eerste stap in de data science workflow, helpt je een beter inzicht te verwerven in de belangrijke eigenschappen van de gegevens, bijv. de pertinentie, het volume, de volledigheid en de kwaliteit ervan. Uitgaande van de inzichten die je via deze verkennende stap verwerft, kan je beginnen met de voorbereiding van de data en, nog belangrijker, de hypotheses die als basis voor de verdere analyse en modellering zullen dienen, vastleggen. In deze sessie stellen we diverse benaderingen voor om aan dataverkenning en hypotheseopbouw te doen.

Dataverkenning helpt je uit te maken of de beschikbare data geschikt zijn voor het probleem dat je wilt onderzoeken, voor je je op het domein van de grondige data-analyse begeeft. Dataverkenning helpt je een antwoord te vinden op de volgende vragen:

  • Dekken de data alle situaties die je in aanmerking moet nemen? Een voorbeeld: je wilt voorspellen wanneer een machine het zal laten afweten; behelzen je data voldoende gevallen van verschillende machines met verschillende pannes?
  • Dekken de data een voldoende groot tijdsbestek? Een voorbeeld: je verwacht seizoensgebonden patronen in je data, afhankelijk van de tijd van het jaar; beschik je over data die zich over meerdere jaren uitstrekken?
  • Zijn de data volledig? Een voorbeeld: zijn alle invloedsfactoren (weer, verwerkte materiaalkenmerken, configuratieparameters, maintenancegeschiedenis,…) in de data vertegenwoordigd?
  • Hebben de data het correcte kwaliteitsniveau? Hoeveel ontbrekende/onnauwkeurige data zijn er; zijn er opmerkelijke uitschieters,…?

Daarnaast verwerf je door de eerste analyse van je dataset ook enkele inleidende inzichten, zoals duidelijk waarneembare patronen en trends, die verder kunnen worden uitgediept en je helpen het voorkomende probleem beter te begrijpen. Bovendien helpt deze verkenning je een leefbare hypothese vast te leggen, die als referentiepunt fungeert voor het testen van je daaropvolgende grondige analyse.

Trainingsessie

Wil je meer te weten komen over dataverkenning en hypothese-opbouw? Bekijk onze trainingsessie 'interactieve verkenning van uw eigen data-innovatie' op 4 december. Tijdens deze sessie lichten we verschillende dataverkenningsmethodes en beste praktijken toe die je zullen helpen een aantal eerste hypotheses te maken en te formuleren, waaronder:

  • een overzicht van diverse statistische en visuele dataverkenningsmethodes om problemen met de kwaliteit van de data in kaart te brengen en de volledigheid van de data te controleren
  • dataselectiemethodes om representatieve datasets op te bouwen
  • geavanceerde visualisatietechnieken om patronen en structuren in de data bloot te leggen

Share