Keuze van het correcte algoritme voor een specifieke taak

Er zijn vandaag allerhande algoritmes beschikbaar in verschillende bibliotheken en toolkits voor data analytics. Als het op de keuze van een algoritme aankomt, is de vraag dus niet zozeer of er al een algoritme bestaat om uw probleem op te lossen, dan wel welk algoritme het best geschikt is voor het data science-probleem dat u wenst op te lossen. De volgende sessie van de EluciDATA mastercourse op 26 april focust op de keuze van het correcte algoritme voor een specifieke taak.

Momenteel gaat de aandacht hoofdzakelijk uit naar voorbeelden van de belangrijkste internetbedrijven (zoals Google, Amazon, Facebook); echter, data science kan ook bijzonder waardevol zijn voor de innovatie binnen andere onderzoeks- en industriedomeinen, én binnen kmo's. Data science maakt het mogelijk nieuwe inzichten af te leiden uit experimentele data, producten en klanten te profileren, productieprocessen te optimaliseren of uitval van machines te voorspellen.

In dit opzicht biedt de mastercourse van EluciDATA een pragmatische en industriegerichte inleiding tot datagedreven innovatie. Deze mastercourse (in het Engels) bestaat uit verschillende aparte sessies, om tegemoet te komen aan de diverse behoeften en gezichtspunten van mensen met verschillende achtergronden.

Keuze van het correcte algoritme voor een specifieke taak 

Een van de laatste en centrale stappen in de data science-workflow is de keuze van een geschikt algoritme voor het probleem dat u tracht op te lossen. Gezien de brede waaier van algoritmes dat in bibliotheken en toolkits voor data analytics bestaat, is het niet zozeer de vraag of er een algoritme voorhanden is, dan wel welk algoritme het best geschikt is. Bovendien kan de manier waarop u uw zakelijke doelstelling formuleert als een data science-taak bepalend zijn voor het type van toepasbaar algoritme.

Deze sessie strekt bijgevolg tot doel de deelnemers de basis bij te brengen van de belangrijkste data science-taken (classificatie, clustering, regressie, enz.) en een overzicht te bieden van de meest courante algoritmes en technieken om elkeen van deze taken op te lossen. Voor elke methode worden de kenmerken alsook de plus- en minpunten ervan toegelicht om de deelnemers te begeleiden bij de bewuste keuze in termen van beschikbare data (dimensionaliteit, type van attribuut, enz.) en de vereisten van het verwachte model (interpreteerbaarheid, accuraatheid, schaalbaarheid, enz.). Tot slot zullen de richtsnoeren voor het leren en evalueren van de resulterende modellen worden uiteengezet, alsook een overzicht van gebruikelijke valstrikken en veelgebruikte evaluatiemethodes.

In deze sessie worden de volgende vragen beantwoord:

  • Hoe vertaalt u uw zakelijke doelstelling(en) naar een data science-taak?
  • Wat zijn de belangrijkste data science-taken en welke bestaande machine learning-algoritmes en -technieken kunnen deze taken oplossen?
  • Hoe kiest u het gepaste algoritme op basis van belangrijke kenmerken van de beschikbare data en vereisten van het vereiste model zoals accuraatheid, interpreteerbaarheid, schaalbaarheid, enz.?
  • Hoe leert en evalueert u het resulterende model om tot de meest optimale prestaties te komen?

Wenst u deze sessie bij te wonen? Raadpleeg onze agenda voor de details van het seminarie.