Maak optimaal gebruik van je data dankzij pattern mining

Met de ontwikkeling van het Internet der Dingen en big data worden steeds meer data in uiteenlopende domeinen verzameld. Net daarom kwamen de jongste jaren ook almaar meer methodes om de informatie uit die data te extraheren, tot ontwikkeling. Enkele van de meest succesvolle methodes kunnen onder het thema pattern mining worden ondergebracht.

Pattern mining-methodes zoeken naar patronen (nauw verwante events of items) om gedragingen te analyseren en voorspellingen over toekomstige gedragingen te maken. Zo kan een supermarkt bijvoorbeeld de lijst van producten die hun klanten hebben gekocht, analyseren om uit te maken welke producten samen worden gekocht. Dit kan ze helpen om hun rekken anders in te richten of speciale aanbiedingen voor te stellen. 

Ander voorbeeld: een taxibedrijf dat permanent de informatie van zijn wagens monitort, zoals een te laag oliepeil of een te warme motortemperatuur. Aangezien ze ook weten wanneer de wagens pech hebben, kunnen ze patronen (een sequentie van gebeurtenissen die doorgaans aan een panne voorafgaan) zoeken die pannes veroorzaken. Door dergelijke gedragingen te identificeren, kunnen ze voorspellen wanneer zich een panne kan voordoen (door het begin van de sequentie op te sporen) en het probleem verhelpen nog voor het zich voordoet, wat tijd en geld bespaart. 

Deze methodes kunnen in tal van verschillende domeinen worden toegepast, zoals de maintenance van een fabriek of een windmolenpark, de diagnose van een ziekte, de voorspelling van het volgende medisch voorschrift, de analyse van het gedrag van fietsers in een stad, … 

Geoptimaliseerde berekening en geheugenefficiëntie

Het eerste pattern mining-algoritme werd in 1995 ontwikkeld en kon enkel veelvoorkomende itemsets vinden (items die doorgaans samen voorkomen, zoals in het voorbeeld van onze supermarkt). Vandaag de dag kunnen pattern mining-methodes ook zoeken naar sequenties van items (waarbij de volgorde van de items van belang is, zoals in het voorbeeld van ons taxibedrijf). 

Het grootste nadeel van pattern mining is de berekeningstijd; de grootste vooruitgang werd dan ook gemaakt in de verbetering van de berekening en de geheugenefficiëntie, bijvoorbeeld aan de hand van parallellisatie. Deze verbeteringen liggen aan de basis van de huidige methodes die met succes lange patronen binnen een redelijke berekeningstijd kunnen vinden. 

Specifieke methodes voor specifieke problemen en behoeften

Wat ons momenteel echter het meeste bezighoudt, zijn de specifieke pattern mining-methodes die op maat werden ontwikkeld om in te spelen op specifieke problemen en behoeften. Deze methodes stellen ons in staat om pattern mining in tal van situaties te gebruiken en talrijke verschillende problemen te verhelpen. In onderstaande lijst zijn slechts de belangrijkste topics opgenomen, maar er bestaan er andere:

  • Multiniveau pattern mining
    Hier kijken we niet alleen naar de items, maar nemen we ook de hiërarchie ervan in aanmerking. Als we even teruggrijpen naar ons voorbeeld van de supermarkt, dan zien we een winkelwagen met appelen, peren, kiwi's,… ze worden stuk voor stuk als aparte items beschouwd, hoewel het allemaal vruchten zijn. De supermarkt wil dus misschien ook patronen vinden die vruchten bevatten, zonder rekening te houden met specifieke subniveau-items, zoals appelen. Door de vruchten als een geheel te beschouwen, kunnen we bovendien patronen vinden die verborgen zouden zijn geweest hadden we ze apart geselecteerd.
  • Multidomain pattern mining
    De multidomein pattern mining-methodes nemen meerdere eigenschappen van de items in aanmerking bij het zoeken naar patronen. We keren terug naar ons voorbeeld van de supermarkt: laten we veronderstellen dat onze supermarkt winkels over heel België heeft en wil uitmaken of er verschillende patronen zijn naargelang van de locatie van de aankoop. De supermarkt kan ook de patronen analyseren naargelang van het geslacht of het inkomen van de klant. Op die manier zullen multidomeinmethodes antwoorden kunnen vinden op vragen als ‘Welke producten worden doorgaans samen gekocht door rijke vrouwen in Charleroi?' 
  • Temporale pattern mining
    Een ander interessant aspect is het temporale aspect. Wanneer we naar een sequentie kijken, kunnen we niet alleen in het volgende item van de sequentie geïnteresseerd zijn, maar ook in het gebruikelijke tijdsinterval voor de gebeurtenis zich voordoet. Voor maintenancedoeleinden is dit bijzonder interessant. Als je een patroon vindt dat resulteert in een panne/defect product, wil je weten hoeveel maal je dat probleem moet voorkomen en erover waken dat je over de nodige tijd hiertoe beschikt. Niemand is immers geïnteresseerd in een patroon waarmee je enkel een panne aan een wagen 3 seconden ervoor kunt voorspellen
  • Beperkte pattern mining
    Deze term dekt meerdere methodes om beperkingen aan de patronen op te leggen. Je kunt een beperking aan de lengte van de patronen opleggen, om enkel patronen van meer dan vijf items op te vragen. Gerichte pattern mining zoekt naar patronen met interessante items, bijvoorbeeld het zoeken naar patronen die ‘fijne Belgische chocolade' bevatten. Beperkte geaggregeerde pattern mining legt een beperking aan een aggregaat van items op, bijvoorbeeld het zoeken naar patronen waarbij ‘de gemiddelde prijs van alle items hoger is dan 50 euro’. Er kunnen tal van andere beperkingen worden bedacht (en ook combinaties van beperkingen zijn mogelijk, maar dit zijn veeleer complexe methodes). 

Zoals je kan zien, heeft het simpele Apriori-algoritme over de jaren tal van geavanceerde methodes doen ontstaan die klaar zijn om alle verzamelde en bewaarde data in steeds meer industrieën en domeinen voluit te benutten. Al die methodes zouden kunnen worden aangewend om specifieke problemen op te lossen dankzij de ontwikkeling van al die verschillende pattern mining-methodes. 

Heb je vragen rond dit onderwerp? Laat het ons weten en we bespreken het graag samen met je verder!

Tags: