A line of printing presses working simultaneously alongside in time series

Afgesloten

TRACY | Trace Analytics

Gefinancierd door

Het TRACY-project wil onderzoeken hoe door industriële activa gegenereerde loggegevens optimaal kunnen worden gebruikt en hoe bestaande op tijdreeksanalyse gerichte AI- en machinelearningtechnieken kunnen worden verfijnd. Daartoe zal TRACY onderzoeken hoe de complexiteiten van loggegevens moet worden aangepakt, bv. de heterogeniteit van de industriële activa, het gebrek aan standaardisatie tussen loggegevens en de schaalbare interactieve visualisatie van de heterogene gegevens. Het onderzoek wordt gevalideerd in complexe industriële gebruikssituaties, zoals het optimaliseren van de prestaties van compressoren en het verlagen van de onderhoudskosten van elektrofotografische machines.

Context

Veel bedrijven in verschillende industriële domeinen doen zware investeringen om hun industriële apparatuur van instrumenten te voorzien en met het internet te verbinden, en verzamelen grote hoeveelheden gegevens. De geavanceerde exploitatie van die gegevens door middel van machinelearning (ML) en artificiële intelligentie (AI) is een zeer actueel onderwerp. De nieuwste methoden zijn hoofdzakelijk gericht op tijdreeksen en beeldgegevens, zoals blijkt uit recente ontwikkelingen van het populaire paradigma voor neurale netwerken (bv. LSTM's, CNN's). Apparatuur genereert echter ook loggegevens, die doorgaans statusberichten bevatten, gebeurtenissen die plaatsvinden, fouten die optreden enz. Dergelijke gegevens bieden waardevolle en gedetailleerde inzichten in de status en het interne gedrag van de apparatuur. De integratie van deze loggegevens in de werkstroom voor gegevensanalyse kan helpen bij het aanpakken van industriële uitdagingen in verband met suboptimaal onderhoud en ondersteuning:

De onderhoudskosten van complexe geavanceerde industriële machines: Hoewel dreigende storingen kunnen worden geïdentificeerd op basis van de analyse van sensorgegevens, blijft de diagnose van de onderliggende oorzaak meestal problematisch. O&O-ingenieurs moeten logbestanden bestuderen en deze vergelijken met sensorgegevens, wat een handmatige, tijdrovende en foutgevoelige taak is die sterk afhankelijk is van vakkennis en expertise in het domein.
Optimalisering van de energie-efficiëntie van industriële apparatuur: De financiële gevolgen en milieueffecten van een systeem dat suboptimaal presteert, zijn aanzienlijk. Ingenieurs vertrouwen vaak op een elementaire analyse op basis van sensoren die alleen algemene inefficiënties detecteert. Zij moeten deze laatste dan handmatig aanvullen met specifieke loggegevens om de specifieke context te begrijpen, te interpreteren wat er aan de hand is en te beslissen wat er moet gebeuren. Het is duidelijk dat dit proces niet zonder een aanzienlijke automatisering kan worden opgeschaald naar tienduizenden systemen die in aanmerking komen voor optimalisering.

Bovendien moeten de bestaande analyse-instrumenten en visualisatie-oplossingen verder worden ontwikkeld om bepaalde uitdagingen aan te pakken:

De huidige AI- en ML-methoden zijn meestal gericht op tijdreeksen of beeldanalyse en weinig of geen methoden zijn standaard in staat om gegevensbronnen van uiteenlopende aard te verwerken, bijvoorbeeld een mix van tijdreeksen en loggegevens. Loggegevens vormen echter een perfecte aanvulling op andere soorten gegevens op verschillende manieren:
1. sensorgegevens zijn vaak niet geannoteerd, wat de toepassing van beheerde leerbenaderingen verhindert, terwijl uit loggegevens afgeleide kennis dergelijke annotaties kan opleveren;
2. onbeheerde detectie van anomalieën kan anomalieën in sensorgegevens opsporen, maar kan de achterliggende oorzaak niet nauwkeurig bepalen, terwijl de analyse van de keten van gebeurtenissen in een logbestand kan wijzen op de achterliggende oorzaak van een probleem;
3. sensorgegevens zijn niet gemakkelijk te interpreteren door een domeinexpert, terwijl loggegevens informatie in natuurlijke taal bieden.
De huidige AI- en ML-methoden zijn niet geoptimaliseerd om met de inherente heterogeniteit van hardware- en softwaresystemen in een reële industriële omgeving om te gaan. Daarom kunnen zij vaak alleen algemene en voor de hand liggende afwijkingen van de normale werking opsporen. Loggegevens bieden gedetailleerde inzichten in het specifieke gedrag van een machine, waardoor apparatuurspecifieke kennis kan worden geïntegreerd in dit algemene analyseproces. Het gebrek aan standaardisatie belet echter de eenvoudige toepassing van standaard AI- en ML-methoden, waardoor dergelijke gegevens onderbenut blijven.
De huidige datavisualisatiemechanismen zijn uitsluitend gericht op numerieke of categorale gegevens en bieden geen adequate ondersteuning voor de visualisatie van een combinatie van semigestructureerde loggegevens en multidimensionale tijdreeksgegevens. Dit belemmert het eigenlijke datawetenschapsproces, aangezien datavisualisatie belangrijk is om patronen, structuren en te exploiteren relaties te identificeren, alsook voor de besluitvorming door eindgebruikers, aangezien analytische resultaten niet op de meest intuïtieve manier kunnen worden voorgesteld en verkend.

Om deze uitdagingen aan te pakken, heeft Sirris samen met zijn industriële partners Xeikon, CMC, Datylon, I-Care en Yazzoom het TRACY-project opgestart. In dit project zullen de partners onderzoeken hoe door industriële activa gegenereerde loggegevens optimaal kunnen worden gebruikt en hoe bestaande op tijdreeksanalyse gerichte AI- en machinelearningtechnieken kunnen worden verfijnd. Daartoe zal TRACY onderzoeken hoe de complexiteiten van loggegevens moet worden aangepakt, bv. de heterogeniteit van de industriële activa, het gebrek aan standaardisatie tussen loggegevens en de schaalbare interactieve visualisatie van de heterogene gegevens. Het onderzoek zal worden gevalideerd in complexe industriële gebruikssituaties, zoals het optimaliseren van de prestaties van compressoren en het verlagen van de onderhoudskosten van elektrofotografische machines.

Doelstelling en resultaten

De algemene doelstelling van het project is het onderzoeken van geavanceerde domein-agnostische AI- en ML-oplossingen voor het aanvullen van conventionele analyses met loggegevens en het valideren van deze oplossingen in complexe industriële gebruikssituaties in de praktijk teneinde hun potentieel aan te tonen voor het leveren van data-analyse van de volgende generatie waarbij optimaal gebruik wordt gemaakt van alle gegevens die door industriële activa in het veld worden geproduceerd.

De specifieke doelstellingen omvatten:

het ontwikkelen van nieuwe technieken die een effectieve en efficiënte extractie van kennis uit loggegevensreeksen mogelijk maken en die (semantisch verrijkte) kennisextractie voor grote hoeveelheden loggegevens toelaten door near-edge processing en de constructie van modellen uit loggegevens waarmee modellen bijna in real-time kunnen worden geëvalueerd;
het ontwerpen van een domein-agnostisch meerlagig kader voor integratieve modellering dat een flexibele en incrementele samenstelling van heterogene modellen met meerdere bronnen en van meerdere types mogelijk maakt op goed ontworpen, formele en reproduceerbare manieren teneinde de nauwkeurigheid van algoritmen voor de detectie van anomalieën te verbeteren, de diagnosetijd voor de analyse van de achterliggende oorzaak voor specifieke storingen te verkorten en prestatieverschillen van 10% te identificeren door middel van benchmarking van activa op basis van portfolio's;
het ontwerpen van nieuwe mechanismen om grote hoeveelheden semigestructureerde en gestructureerde gegevensreeksen op een uitgebreide, interactieve en schaalbare manier te visualiseren, waardoor gegevensreeksen met 100.000 logberichten binnen 2 seconden interactief kunnen worden verwerkt.