To read this blog in English, see blog.nline.io/clustering-1
Écrit par Margaret Odero, Data analyst chez nLine, et par Mohini Bariya, Chercheuse en Énergie chez nLine
Questions : nLine installe des capteurs d'énergie sur les prises des particuliers, des petites entreprises et des infrastructures sociales. Comment, à partir de rapports de capteurs individuels, évaluer l’ampleur d'une panne de réseau ? Par ailleurs, dans le monde réel, où les capteurs peuvent être débranchés ou le crédit prépayé épuisé, comment faire la distinction entre de réelles pannes du réseau et des faux rapports de panne ? Réponse : en partitionnant les rapports de panne à l'aide de DBSCAN.
Introduction
Mesurer et améliorer la fiabilité des réseaux électriques dans le monde entier est un aspect fondamental de la mission de nLine, et la détection des coupures de courant joue un rôle essentiel à la fois pour mesurer et pour améliorer le réseau. Les mesures clés du réseau, telles que l'Indice de Durée moyenne d'Interruption du Système (SAIDI) ou l'Indice de Fréquence d'Interruption moyenne du Système (SAIFI), qui sont définis respectivement comme la durée et le nombre de pannes subies en moyenne par tous les clients d'une région, nécessitent des informations sur les pannes. L'amélioration du réseau commence le plus souvent par l’identification du lieu et de l'étendue d’une panne, qui peut permettre de déterminer l’équipement ou le niveau du réseau à l’origine de la panne.
Pour détecter les pannes, le capteur PowerWatch de nLine est branché sur une prise dans une maison, une entreprise ou une infrastructure sociale. Le capteur enregistre alors un rapport de panne à chaque fois qu'il n’est plus alimenté en courant. Cependant, ces pertes de courant ne sont pas toujours dues à des pannes de réseau. En effet, un client peut avoir épuisé son crédit prépayé, ou le capteur peut avoir été débranché. Pour calculer le SAIDI et le SAIFI à partir de cet ensemble de données de rapports de panne, il est essentiel d'identifier les véritables pannes de réseau et d'éliminer les « faux » rapports de panne (qui sont causés par des débranchements de clients ou des pannes de compteurs). Nous regroupons également les véritables rapports de panne des capteurs individuels en pannes cohérentes et localisées. Pour tout capteur qui détecte l'état de l'alimentation d'une maison, d'une entreprise ou d'une infrastructure électrique - des compteurs communicants (smart meters) aux capteurs PowerWatch - l'agrégation des rapports de coupure de courant individuels en événements de coupures véritables est un défi majeur. Afin de répondre à ces besoins, l'algorithme de partitionnement de nLine permet de transformer des rapports de coupure individuels en événements de coupures cohérents.
Dans cet article, nous expliquons comment notre algorithme de partitionnement identifie les pannes de réseau. Nous donnons également des exemples de pannes que nous avons rencontrées à l’aide de données réelles. Nous décrivons également ce que nous projetons de faire afin d’améliorer cette méthode.
Utilisation du partitionnement pour détecter les pannes de courant
Qu'est-ce que le partitionnement de données?
Le partitionnement de données est un processus qui consiste à regrouper des points de données disparates en groupes, en fonction de leur similarité. Le partitionnement est un problème d'apprentissage automatique non supervisé, car les points de données sont classés en l'absence d'étiquettes de catégorie externes. Dans notre cas, les points de données que nous souhaitons partitionner sont des rapports de panne qui proviennent de capteurs individuels. Leur similarité est basée sur deux facteurs : l'heure à laquelle les capteurs ont signalé la perte d'alimentation, ainsi que la localisation spatiale des capteurs. Il existe de nombreux algorithmes de partitionnement spécifiques dont les objectifs et les contraintes varient, et qui sont adaptés à différents contextes et types de données. Nous effectuons le partitionnement à l'aide d'un algorithme basé sur la méthode DBSCAN, que nous décrivons dans la section suivante.
DBSCAN - Density Based Spatial Clustering of Applications with Noise
DBSCAN est l'algorithme que nous avons choisi pour regrouper des rapports de panne individuels en grappes - appelées « pannes réelles » - et pour filtrer les faux rapports de panne causés par le débranchement des capteurs ou des pannes de compteur.
DBSCAN partitionne les points de données en fonction de leur densité dans l'espace et dans le temps, ce qui permet aux points de données de ne pas être regroupés s'ils ne sont pas proches d'autres points ; cela est déterminé par un seuil de distance (qui est le seul paramètre de l'algorithme). DBSCAN part du principe que les grappes correspondent à des régions à forte densité de points de données qui sont séparées par des régions à plus faible densité. La figure 1 ci-dessous montre comment l'algorithme DBSCAN partitionne un ensemble de points de données aléatoires.
Pour notre application d'identification des pannes réelles, l'un des principaux avantages de DBSCAN par rapport à d'autres approches de partitionnement populaires (telles que les k-moyennes) est qu'il n'est pas nécessaire de spécifier le nombre de groupes comme paramètre pour exécuter le partitionnement. Ce point est essentiel car nous ne savons pas à l'avance combien de pannes sont présentes dans l'ensemble de données ; c'est plutôt ce que nous souhaitons découvrir grâce au partitionnement. Pour exécuter DBSCAN, nous introduisons les rapports de coupure - qui sont les points de données que nous cherchons à partitionner - ainsi que deux paramètres : un seuil d'espace et un seuil de temps. Ces paramètres définissent la distance dans l'espace et dans le temps à laquelle les points de données peuvent être séparés tout en appartenant à un seul groupe, c'est-à-dire les distances dans l'espace et dans le temps par lesquelles ces rapports de panne peuvent être séparés tout en étant plausiblement causés par une seule et même panne d'électricité. Le partitionnement est effectué sur la base de ces seuils de temps et d'espace.
Un autre avantage clé de DBSCAN est que tous les points de données ne doivent pas nécessairement être affectés à un groupe. Si un point de données se situe en dehors des limites de seuil de chaque groupe, il est qualifié de point de « bruit ». Les rapports de panne qui reçoivent cette étiquette de « bruit » sont prudemment considérés comme des fausses pannes, car il est peu probable que les débranchements de capteurs ou les pannes de compteur se produisent presque en même temps pour deux capteurs différents proches dans l'espace. Ainsi, le processus de partitionnement identifie les fausses pannes qui peuvent être exclues des calculs SAIDI et SAIFI.
Seuils de temps et d'espace
Nous avons mentionné que l'algorithme DBSCAN partitionne les rapports de panne en fonction de leurs horodatages et de leurs emplacements. Comment cela fonctionne-t-il exactement ?
Comme décrit plus haut, les points de données à partitionner sont des rapports de panne de capteurs. Chaque point de données possède deux attributs : l'heure à laquelle le rapport s'est produit, et l'emplacement du capteur qui l'a signalé. Nous pouvons donc visualiser ces points de données sur un graphique avec le temps sur l'axe x et l'emplacement sur l'axe y (figure 2). En partitionnant ces points, nous fournissons une paire de seuils spatio-temporels qui spécifie la différence maximale admissible dans le temps et dans l'espace pour qu'un rapport de panne soit attribué à un groupe de pannes donné.
Concrètement, pour qu'un rapport de panne R soit regroupé dans la grappe C, il faut qu’au moins un rapport de panne dans C se soit produit dans les seuils de temps et d'espace de R. Intuitivement, pour qu'un ensemble de rapports de panne soit causé par une seule et même panne, les rapports de panne doivent être produits sur une courte période de temps et dans une région contiguë ; cette intuition est préservée par l’algorithme. DBSCAN fonctionne en itérant sur les points de données individuels, en trouvant leurs voisins dans l'espace et le temps, et en les étiquetant avec la même étiquette de grappe, jusqu'à ce que tous les points aient été visités. De cette manière, les grappes se développent en respectant les contraintes fixées par le seuil spatio-temporel. Par ailleurs, on constate que certains points n'ont pas de voisins, car aucun autre point ne se trouve à une distance inférieure au seuil fixé. Ces points se voient attribuer une étiquette « bruit ».
La figure 2 présente un exemple fictif qui illustre comment l'algorithme de partitionnement utilise un seuil spatial et un seuil temporel pour regrouper les rapports de panne des capteurs individuels en grappes de pannes, tout en identifiant les « faux » rapports de panne qui se situent au-delà des seuils. Dans cet exemple, les capteurs des maisons C, E et D sont proches les uns des autres. Ces capteurs s'éteignent ensemble approximativement au même moment, et le capteur A s’éteint également. Cependant, lors du partitionnement de ces rapports de panne, seuls C, E et D sont assignés à une grappe commune. A est exclu de cette grappe malgré la proximité temporelle de son rapport de panne, car sa localisation dépasse le seuil spatial, ce qui signifie qu'il est considéré comme trop éloigné pour appartenir à la même panne que C, E et D. Plus tard, le capteur B signale également une panne, mais il est trop éloigné dans le temps et dans l'espace de tous les autres rapports pour qu'une grappe de pannes lui soit attribuée. Il est donc considéré comme du bruit (ou une fausse panne).
Hypothèses et contraintes du partitionnement
L'exemple précédent élucide les hypothèses et les contraintes fondamentales de l'approche par partitionnement pour l'identification des pannes. Une panne de réseau ne sera identifiée que si elle est observée par au moins deux capteurs dans un court laps de temps et à une distance limitée l'un de l'autre. Cette contrainte fondamentale oriente les stratégies de déploiement des capteurs. Les capteurs doivent donc être déployés avec une densité suffisante pour qu'une panne de réseau ait un impact sur plus d'un capteur. Par exemple, comme nous savons que de nombreuses pannes ont pour origine le transformateur de distribution, nous cherchons donc à déployer au moins deux capteurs sous les transformateurs individuels ; ainsi, nous pouvons nous assurer qu'une panne au niveau du transformateur sera observée par tous les capteurs situés sous celui-ci, et nous pouvons donc correctement identifier cette panne comme étant « réelle ». Nous nous efforçons de développer avec nos partenaires des stratégies de déploiement qui tiennent compte de leurs besoins dans le cadre des hypothèses de partitionnement, afin de nous assurer que nous parvenons à identifier les pannes de réseau importantes.
Compte tenu de notre volonté d'identifier les pannes jusqu'au niveau du transformateur de distribution, nous choisissons un seuil d'espace de partitionnement que nous estimons être la distance maximale entre deux ménages/ateliers raccordés au même transformateur de distribution. L'un des problèmes posés par ce choix est qu'il peut conduire au fractionnement de grandes pannes affectant une zone géographique étendue. Nous explorons des méthodes d'optimisation pour sélectionner plus dynamiquement les seuils d'espace dans différents contextes.
Exemples de partitionnement : localisation et identification des pannes réelles
L'objectif du partitionnement est d'identifier les véritables pannes de réseau en regroupant les rapports de panne similaires en grappes de pannes, tout en filtrant les faux rapports de panne. Cependant, les résultats du partitionnement révèlent souvent bien plus que la simple distinction entre les pannes réelles et fausses. Dans cette section, nous présentons des exemples où les pannes identifiées par partitionnement révèlent des schémas de comportement du réseau qui pourraient justifier des interventions.
- Détermination des vraies pannes et filtrage des faux rapports de panne
La figure 3 ci-dessous montre des cartes de rapports de panne dans une section de la ville d'Accra au Ghana, sur une période de 24 heures avant (a) et après (b) le partitionnement. Le partitionnement a permis d'identifier deux groupes de pannes (colorés dans (b) en rouge et en vert) ainsi que plusieurs faux rapports de panne (colorés dans (b) en noir).
- Des pannes répétées impliquant le même ensemble de capteurs pourraient signaler un problème avec un transformateur de distribution spécifique.
Les pannes identifiées grâce au partitionnement peuvent aider à mettre en évidence un équipement spécifique du réseau qui pourrait être à l'origine de pannes répétées. La figure 4 présente les rapports de panne sur une autre période de 24 heures avant (a) et après (b) le partitionnement. La figure 4(b) montre un ensemble de pannes qui se chevauchent considérablement, et qui se produisent toutes à des moments différents au cours de la période de 24 heures (cela est indiqué par les trois polygones différents qui entourent le même ensemble de capteurs). Cela pourrait révéler une défaillance d'un élément d'infrastructure, tel qu'un transformateur de distribution, par lequel tous ces capteurs sont alimentés. Par conséquent, ces résultats de partitionnement pourraient servir à justifier des interventions de maintenance visant à réparer ou à remplacer l'équipement défectueux.
- Identification des types de pannes : pannes BT vs MT/HT
Les rapports de panne partitionnés dans une même panne indiquent l'étendue de la panne, ce qui peut donner une idée de la nature et de l’origine de celle-ci. Les pannes très localisées suggèrent une origine au niveau ou en dessous d'un seul transformateur de distribution. En revanche, les pannes qui affectent une vaste zone géographique englobant plusieurs transformateurs de distribution sont probablement causées par un problème plus en amont dans le réseau, tel qu'un défaut sur les lignes MT ou HT. Par conséquent, l'étendue de la panne permet au minimum de distinguer un problème provenant du réseau de distribution d’un problème provenant du réseau de transmission ; cette information est essentielle pour répondre à la panne, et pour la signaler. La figure 5 montre un ensemble de pannes enregistrées au cours d'une période de 24 heures à Accra. Certaines pannes affectent une zone très localisée, tandis que la panne indiquée en vert affecte une vaste zone géographique.
Conclusion
Pour tout capteur qui détecte l'état de l'alimentation d'une maison, d'une entreprise ou d'une installation électrique - des compteurs communicants (smart meters) aux capteurs PowerWatch - l'agrégation des rapports de panne individuels en pannes cohérentes est un défi majeur. Lorsque nous utilisons les capteurs PowerWatch, nous souhaitons filtrer les fausses pannes qui sont causées par les débranchements des clients ou l'épuisement des compteurs prépayés, et nous voulons aussi filtrer les fausses restaurations du courant causées par des générateurs. Le partitionnement des rapports de capteurs individuels sur la base de la distance dans l'espace et dans le temps est un moyen efficace de réaliser à la fois l'agrégation et le filtrage. Le principe du partitionnement est le suivant : alors que les « fausses » pannes n'affectent qu'un seul client, les pannes du réseau ont tendance à affecter simultanément plusieurs clients, souvent dans une région contiguë. Par conséquent, le partitionnement de données agrège les rapports de panne proches dans le temps et l’espace, et permet de distinguer les pannes réelles du réseau des « fausses » pannes ; le partitionnement permet ensuite d’estimer la durée et l’étendue d’une panne.
Les pannes identifiées grâce au partitionnement sont utilisées pour estimer des mesures clés - SAIDI et SAIFI - qui permettent d'évaluer et de quantifier la performance d'un réseau électrique, et d'informer efficacement les interventions et les investissements qui visent à améliorer la fiabilité de l'électricité fournie aux clients. Par exemple, les entreprises de distribution d'électricité peuvent utiliser les données SAIDI et SAIFI pour identifier les zones où la fiabilité est médiocre, et effectuer des recherches plus approfondies et détaillées sur les causes sous-jacentes aux problèmes de fiabilité. Les investisseurs peuvent également utiliser ces chiffres pour cibler les investissements destinés à améliorer les infrastructures du réseau. Comme nous avons commencé à le constater dans cet article, ces méthodes de partitionnement peuvent également être utilisées pour détecter et diagnostiquer des anomalies du réseau électrique.