A line of printing presses working simultaneously alongside in time series

Terminé

TRACY | Trace Analytics

Financé par

Le projet TRACY vise à étudier comment utiliser de façon optimale les données de journalisation générées par des actifs industriels et affiner les techniques existantes d’intelligence artificielle et d’apprentissage machine axées sur l’analyse de séries chronologiques. A cette fin, TRACY recherchera comment traiter les complexités des données de journalisation, par exemple l’hétérogénéité des actifs industriels, le manque de standardisation parmi les données de journalisation et la visualisation interactive évolutive des données hétérogènes. Les recherches sont validées à l’appui de cas d’utilisation complexes dans l’industrie comme l’optimisation du fonctionnement de compresseurs et la réduction du coût d’entretien de machines électrophotographiques.

Contexte

Beaucoup d’entreprises dans différents secteurs industriels investissent largement dans l’instrumentation et la connexion de leurs équipements industriels et collectent de grandes quantités de données. L’exploitation avancée de ces données par des méthodes d’apprentissage machine (ML) et d’intelligence artificielle (AI) est très en vogue à l’heure actuelle. Les méthodes de dernière génération sont surtout axées sur des données de séries chronologiques et d’images, comme en témoignent de récentes évolutions du paradigme populaire d’apprentissage profond (par ex. les LSTM ou les CNN). Cependant, les équipements génèrent aussi des données de journalisation, qui contiennent habituellement des messages d’état, des événements survenus, des erreurs qui se sont produites, etc. Ces données fournissent des renseignements précieux et détaillés sur l’état et le comportement interne des équipements et l’intégration de ces données de journalisation dans le flux d’analyse des données peut contribuer à répondre à des défis industriels soulevés par des opérations d’entretien et d’assistance non optimales :

Le coût d’entretien de machines industrielles de pointe et complexes : même s’il est possible d’identifier des défaillances imminentes sur la base d’une analyse des données de capteurs, diagnostiquer leur cause première reste généralement problématique. Les ingénieurs en R&D doivent analyser des fichiers de journalisation et les croiser avec des données de capteurs, ce qui constitue une tâche manuelle, chronophage et source d’erreurs reposant largement sur des connaissances spécialisées et des compétences dans le domaine.
Optimiser le rendement énergétique d’équipements industriels : L’impact financier et environnemental d’un système qui ne fonctionne pas de manière optimale est significatif. Les ingénieurs s’appuient souvent sur une analyse élémentaire basée sur des données de capteurs qui détecte uniquement des zones d’inefficacité génériques, qu’ils doivent compléter manuellement avec des données de journalisation spécifiques pour comprendre le contexte spécifique, interpréter ce qui se passe et décider des mesures à prendre. Il va de soi que ce processus ne peut pas être appliqué à grande échelle à des dizaines de milliers de systèmes éligibles à une optimisation sans une automatisation significative.

De plus, les outils d’analyse et les solutions de visualisation qui existent doivent encore être améliorés pour répondre à certains défis :

Les méthodes AI et ML actuelles sont essentiellement axées sur l’analyse de séries chronologiques et d’images et rares sont les méthodes, s’il en existe, qui soient capables d’origine de traiter des sources de données de plusieurs types constituées par exemple d’un mélange de données de séries chronologiques et de données de journalisation. Pourtant, les données de journalisation peuvent parfaitement compléter d’autres types de données de plusieurs façons :
1. les données de capteurs sont souvent dépourvues d’annotations, ce qui empêche l’application d’approches d’apprentissage supervisé, alors que les connaissances extraites des données de journalisation peuvent fournir de telles annotations,
2. des approches de détection d’anomalies non supervisées peuvent identifier des anomalies dans les données de capteurs mais ne peuvent pas identifier leur cause première avec précision, alors que l’analyse de la chaîne d’événements dans un fichier journal peut révéler la cause première d’un problème,
3. les données de capteurs ne sont pas facilement interprétables par un expert d’un domaine alors que les données de journalisation fournissent des informations en langage naturel.
Les méthodes AI et ML actuelles ne sont pas optimisées pour traiter l’hétérogénéité inhérente des systèmes matériels et logiciels dans un environnement industriel réel. De ce fait, elles ne peuvent souvent détecter que des écarts génériques et évidents par rapport à un fonctionnement normal. Les données de journalisation fournissent des informations détaillées sur le comportement spécifique d’une machine, ce qui permet d’intégrer des connaissances spécifiques à un équipement dans ce processus d’analyse générique. Cependant, le manque de standardisation empêche une application directe de méthodes AI et ML standard, de sorte que ces données restent largement sous-exploitées.
Les mécanismes actuels de visualisation de données se concentrent uniquement sur des données numériques ou catégorielles et ne prennent pas en charge de manière adéquate la visualisation d’une combinaison de données de journalisation semi-structurées et de données de séries chronologiques multidimensionnelles. Ceci entrave le processus de science des données lui-même, car une visualisation de données est importante pour identifier des modèles, des structures et des relations à exploiter. Cela entrave aussi la prise de décisions par les utilisateurs finaux car les résultats d’analyses ne peuvent pas être représentés et explorés d’une manière largement intuitive.

Pour répondre à ces défis, Sirris et ses partenaires industriels Xeikon, CMC, Datylon, I-Care et Yazzoom ont lancé le projet TRACY. Dans le cadre de ce projet, les partenaires étudieront comment utiliser de façon optimale les données de journalisation générées par des actifs industriels et affiner les techniques existantes d’intelligence artificielle et d’apprentissage machine axées sur l’analyse de séries chronologiques. A cette fin, TRACY recherchera comment traiter les complexités des données de journalisation, par exemple l’hétérogénéité des actifs industriels, le manque de standardisation parmi les données de journalisation et la visualisation interactive évolutive des données hétérogènes. Les recherches seront validées à l’appui de cas d’utilisation complexes dans l’industrie comme l’optimisation du fonctionnement de compresseurs et la réduction du coût d’entretien de machines électrophotographiques.

Objectif et résultats

L’objectif général du projet est d’analyser des solutions AI et ML avancées et indépendantes des domaines pour enrichir les analyses conventionnelles avec des données de journalisation et de valider ces solutions à l’appui de cas d’utilisation complexes dans l’industrie du monde réel, afin de démontrer leur potentiel de fournir les analyses de données de prochaine génération en exploitant de manière optimale toutes les données produites par des actifs industriels sur le terrain.
Ceci englobe plusieurs objectifs spécifiques :

la réalisation de techniques innovantes permettant une extraction efficace et efficiente de connaissances à partir d’ensembles de données de journalisation permettant une extraction de connaissances (enrichies en termes sémantiques) pour de gros volumes de données de journalisation en réalisant un traitement near-edge et la construction de modèles à partir de données de journalisation permettant une évaluation de modèles presque en temps réel.
la conception d’un cadre de modélisation intégrateur à couches multiples et indépendant des domaines qui permet une composition flexible et incrémentielle de modèles hétérogènes basés sur de multiples sources et de multiples types par des approches bien conçues, formelles et reproductibles pour améliorer la précision des algorithmes de détection d’anomalies, réduire le temps de diagnostic de l’analyse des causes premières pour des défaillances spécifiques et identifier des écarts de performance de 10% à travers une évaluation des actifs.
la conception de mécanismes innovants de visualisation de gros volumes de données structurées et semi-structurées selon une approche intégrale, interactive et évolutive permettant en moins de 2 secondes le traitement interactif d’ensembles de données contenant 100.000 messages de journalisation.