[étude universitaire] recherche d'anomalies dans un graphe temporel

HugoTrentesaux · 22 April 2019 18:12

J’ai rencontré il y a peu de temps Matthieu Lapaty, chercheur CNRS qui travaille en ce moment sur la détection d’anomalie dans un graphe évoluant dans le temps. Je lui ai parlé de la monnaie ğ1 et il a pensé que ce serait un bon jeu de données pour tester les métriques qu’il développe avec son équipe dont Nicolas Gensollen. J’ai rencontré ce dernier et lui ai présenté rapidement la monnaie libre pour qu’il puisse appliquer ses algorithmes dessus. Je poste avec son accord un email dans lequel il me demande des renseignements supplémentaires pour évaluer la qualité de ses métriques.

En gros, il s’agit de dire s’il y a une explication simple aux événements suivants :

2017-03-08 20:05:17 au 2017-03-09 20:05:17 bou2fil, jeanferreira, cgeek, BenoitLavenier, jytou, yannlefranco, gpsqueeek, candide

2018-09-14 04:05:50 au 2018-09-15 04:05:50, mimi, BenoitLavenier, AnneAmbles

2018-10-27 08:00:00 au 2018-10-28 08:00:00, dig, Nicolas, melisse, Leticia-Wood, Lucas

2018-07-04 19:48:12 au 2018-07-05 19:48:12, elois, cgeek, Galuel, jytou, Mententon, nanocryk, vincentux, moul, 1000i100, inso

2018-01-04 04:03:12 au 2018-01-05 04:03:12, Gregory, MicheleTurbin

2017-12-19 04:17:53 au 2017-12-20 04:17:53, LeandreLavenier, BenoitLavenier, MarieOdileLavenier

2018-01-23 10:46:12 au 2018-01-24 10:46:12, Philippe26, Melinux, remy, escargotbleu, Stephio, anouchka, Paco, pieroodile, jeanmarcD, arfocine, NathanaelMartel, Dom

2018-01-12 07:55:54 au 2018-01-13 07:55:54, mimi, PascaleRoncoroni, beatriceviel, aurelie, Francisco, EmmanuelDerkenne

2018-12-21 07:51:52 au 2018-12-22 07:51:52, yannlefranco, Jeratik, Michel

2018-12-01 11:26:40 au 2018-12-02 12:26:40, SIMONEANTONELLI, ADodson, Cat, Mikhaella3448, Laurence, Muriele, DanieleSenegasTrobadorenca, Daansko, hibiscus11

Et pour chaque “candidat” (ligne parmi la liste ci-dessus)

Pour ceux qui sont intéressés par le détail, ils peuvent lire notre échange de mail en entier ci-dessous.

TL;DR, échange de mail

Le 18/04/2019 à 12:56 Nicolas Gensollen a écrit :

Salut Hugo,

Depuis notre super discussion d’il y a quelques semaines, j’ai pas mal travaillé sur la détection d’anomalies dans la blockchain G1.
Pour le moment on se focalise sur les transactions plutôt que sur les certifications, et on se restreint aux transactions entre les membres du réseau de confiance.
Après avoir parsé la blockchain on a donc un stream de transactions qui ressemble à ça:
...
1488990898 cgeek Tortue
1488993304 nicoleC jeanferreira
1488993304 Galuel cgeek
1488994256 jytou cgeek
...
On a ensuite extrait des sous-streams que l’on appelle des “candidats” (en gros, toutes les interactions entre les nœuds d’un sous ensemble des utilisateurs durant une période donnée). Certains de ces candidats sont classifiés comme “anormaux” vis à vis de différents critères par nos algos. Les candidats jamais classifiés comme anormaux sont donc supposés “normaux”.

En ce moment, on essaye de valider cette classification en reliant les candidats anormaux à des événements relatifs à la monnaie G1. En gros on regarde sur les forums et sites web de la monnaie s’il y a des événements pouvant expliquer nos anomalies. Je me suis prêté à ce petit jeu la semaine dernière, et je pense arriver à trouver des explications pour certains candidats malgré mon manque de connaissances sur G1 et ses utilisateurs. Par contre, je n’ai vraiment que très rarement la preuve que les utilisateurs détectés ont effectivement participé à l’événement. Par ailleurs, dès que la séquence d’interactions détectée n’a pas eu lieu dans le cadre d’un événement physique répertorié, je suis incapable de le valider.

On a discuté hier avec Matthieu et on se demandait si tu serais prêt à jeter un petit coup d’œil aux choses que l’on détecte?

Comme tu as une bonne connaissance de ce milieu, ce serait aussi pour nous l’occasion de vérifier que tu ne peux pas systématiquement trouver une explication pour n’importe quel morceau de stream que l’on te présente. On réfléchit encore à notre protocole de validation, mais il nous semble judicieux d’inclure à la fois des candidats catalogués comme anormaux et d’autres comme “normaux” sans te donner la classification.

Voici une liste de 10 candidats dont un certain nombre a été classifié parmis les anomalies:

2017-03-08 20:05:17 au 2017-03-09 20:05:17
bou2fil, jeanferreira, cgeek, BenoitLavenier, jytou, yannlefranco, gpsqueeek, candide

2018-09-14 04:05:50 au 2018-09-15 04:05:50, mimi, BenoitLavenier, AnneAmbles

2018-10-27 08:00:00 au 2018-10-28 08:00:00, dig, Nicolas, melisse, Leticia-Wood, Lucas

2018-07-04 19:48:12 au 2018-07-05 19:48:12,
elois, cgeek, Galuel, jytou, Mententon, nanocryk, vincentux, moul, 1000i100, inso

2018-01-04 04:03:12 au 2018-01-05 04:03:12, Gregory, MicheleTurbin

2017-12-19 04:17:53 au 2017-12-20 04:17:53,
LeandreLavenier, BenoitLavenier, MarieOdileLavenier

2018-01-23 10:46:12 au 2018-01-24 10:46:12, Philippe26, Melinux, remy, escargotbleu, Stephio, anouchka, Paco, pieroodile, jeanmarcD, arfocine, NathanaelMartel, Dom

2018-01-12 07:55:54 au 2018-01-13 07:55:54,
mimi, PascaleRoncoroni, beatriceviel, aurelie, Francisco, EmmanuelDerkenne

2018-12-21 07:51:52 au 2018-12-22 07:51:52, yannlefranco, Jeratik, Michel

2018-12-01 11:26:40 au 2018-12-02 12:26:40, SIMONEANTONELLI, ADodson, Cat, Mikhaella3448, Laurence, Muriele, DanieleSenegasTrobadorenca, Daansko, hibiscus11

Si tu es partant, ton objectif serait de nous dire pour chaque candidat:

si c’est un événement/anomalie à tes yeux (avec ton explication si tu en as une)

une mesure de ta confiance vis à vis de cette catégorisation (par exemple une note de 1 à 5)

dans le cas où tu as classifié le candidat comme anormal et trouvé une explication, une mesure de la difficulté que tu as eu à expliquer ce candidat (par exemple une note de 1 à 5)

Voilà voilà. Désolé pour le super long mail… Je me suis bien amusé avec G1 ces dernières semaines en tout cas, merci d’avoir pris le temps de me faire découvrir!

N’hésite pas à passer à mon bureau si tu veux en discuter ou que tu as besoin de plus d’infos.

Merci!
A+
Nicolas

et ma réponse :

Le 18/04/2019 à 16:02 Hugo Trentesaux a écrit:

Bonjour Nicolas,

Tout d’abord merci pour l’intérêt que tu portes à notre monnaie, l’approche universitaire est quelque que nous aimons beaucoup !
Je confirme ma volonté pour aider au maximum à l’interprétation des résultats, mais malgré ma “bonne connaissance du milieu”, je ne suis au courant moi même que d’une minuscule partie des événements.
Heureusement, comme tu l’as vu, nos forums sont un outil de communication efficace et les individus concernés par les réunions seront très heureux de pouvoir confirmer tes analyses eux même.

Aussi, je te demande la permission pour copier ce message sur notre forum technique et notifier les personnes que tu cites dont je sais qu’elles se prêterons à l’exercice avec enthousiasme.
J’ai une préférence à ouvrir cette sujet au public afin que tout le monde soit libre d’y participer, mais si cela pose un problème, je peux réduire la visibilité aux seules personnes concernées.
Quelle est ta préférence ?

Pour ce qui est des personnes faisant partie des anomalies données en exemple, voilà ce que je peux en dire :

(les personnes que j’ai déjà rencontré IRL son signalées en gras)

jeanferreira est une personne très impliquée dans le développement de la monnaie libre, que je ne connais que via le forum

cgeek est le développeur principal du logiciel duniter, qui fait fonctionner notre blockchain en ce moment

BenoitLavenier aussi surnommé kimamila, est le développeur principal des logiciels cesium et gchange

jytou est également très actif sur le forum, mais je ne sais plus ce qu’il fait

candide est un membre très investi dans l’explication de la monnaie libre

elois est le développeur principal du logiciel Durs, implémentation en Rust de la blockchain

Galuel est l’auteur de la TRM, son nom est Stéphane Laborde

nanocryk est le développeur qui a lancé le logiciel Durs

vincentux est également très actif sur le forum, mais je ne sais plus ce qu’il fait

moul est le développeur du logiciel Silkaj

1000i100 est le développeur de nombreux outils périphériques très utiles

inso est le développeur du logiciel Sakia

Comme je m’y attendais, les développeurs sont très présents dans les anomalies des transactions, d’une part parce qu’ils sont personnellement très impliqués dans la propagation de la monnaie, d’autre part parce qu’ils reçoivent beaucoup de dons de la communauté lors de conférences ou événements publics.

Pour ce qui est des dates elles-même, je ne peux pas faire grand chose si ces événements ne sont pas indiqués dans le forum, voilà pourquoi je propose de demander directement aux personnes concernées. (Je pourrais éventuellement chercher la localisation géographique des personnes et au cas où ces localisations sont proches, expliquer le candidat par une rencontre locale avec un niveau de confiance moyen.)

Si une annonce publique sur le forum ne te semble pas souhaitable, il me reste toujours la possibilité de contacter individuellement les personnes, soit sur le forum, soit via l’outil intégré à Cesium pour leur demander des renseignement. Mais cette approche demanderait beaucoup plus de travail pour un résultat qui me paraît moins certain.

Est-ce que ma réponse te satisfait ? Si je poste le message sur le forum, je peux éventuellement lire les réponses moi-même et faire un compte rendu dans le format que tu demandes (présence d’anomalie / confiance par rapport à la véracité de cette catégorisation / difficulté de l’explication) pour limiter le biais de notation.

Hugo

Le 21/04/2019 à 12:00 Nicolas Gensollen a écrit:

Salut Hugo,

Merci de ta réponse bien utile et précise. Je pense également que la plupart des anomalies concerne des développeurs et des gens très impliqués dans la monnaie G1. Les anomalies que l’on a pu détecter pour les autres ne sont pas d’un grand intérêt (une transaction simple devient une anomalie lorsqu’on interagit jamais…).

J’ai discuté un peu avec Matthieu pour être sûr qu’on était tous les deux d’accord sur la marche à suivre. Les anomalies présentes parmi les 10 candidats que je t’ai donné dans le mail précédent constituent, comme tu t’en doutes, un sous-ensemble des évenements que l’on détecte. On a décidé de se restreindre pour le moment puisqu’on en est plutôt à un stade expérimental sur la validation.

Ceci étant dit, je pense en effet que c’est une bonne idée de partager mon message sur le forum technique et d’impliquer la communauté G1 (il faudrait quand même ajouter quelques explications contextuelles je pense…). Avoir les explications des utilisateurs concernés quant à leur présence dans les anomalies est probablement la meilleure validation qui soit.

Dis moi comment tu souhaites procéder. Je peux créer un compte et écrire le message si tu veux. Je pense néanmoins que ce serait plus simple si tu postais le message vu que tu fais déjà partie de cette communauté.

Merci encore et bon weekend!

A+

Nicolas

Je propose donc à @cgeek, @kimamila, @elois, @Galuel, @nanocryk, @Moul, @1000i100, @Inso et à tous ceux qui seraient intéressés (je pense notamment à @gerard94) d’examiner ces événements pour faire avancer notre compréhension théorique des graphes évoluant dans le temps.

HugoTrentesaux · 22 April 2019 18:13

Ainsi que @bou2fil, @jytou, @Candidesk8, @mimi, @AnAmbles, @vincentux, @jeanferreira, que je n’ai pas pu citer dans le post ci-dessus à cause de la limite de 10 citations dans un message.

jytou · 22 April 2019 18:48

Intéressant tout ça !

Pour commencer et être sûr que j’ai bien compris, ils ont agglutiné des transactions en groupes pour en déduire la présence d’événements (rencontres physiques, etc), c’est bien ça ?

Une chose dont ils peuvent évidemment se servir, mais je ne le vois mentionné nulle part dans vos messages (que j’ai lus en diagonale, j’ai peut-être zappé), c’est les commentaires sur les transactions. Je suppose qu’ils les ont vues et que c’est la toute première chose qu’ils ont analysé, mais c’est encore mieux quand c’est dit explicitement.

Pour celui-ci, c’était le démarrage de la monnaie, tout le monde s’est fait des dons un peu dans tous les sens, ne serait-ce que pour tester. Une véritable anomalie par rapport à un fonctionnement normal, en fait.

C’est visiblement une série de dons d’Antonio Ferreira à l’équipe de dev comme en témoigne son commentaire sur chacune des transactions (d’où ma question au début : ont-ils regardé les commentaires) :

Du coup, ce n’est pas vraiment un « événement », c’est juste qu’Antonio a subitement décidé de faire des dons, ce qui arrive d’ailleurs je pense fréquemment. Quand on fait un don, on se dit, (« tiens y en aurait pas d’autres qui mériteraient aussi ? ») et hop la chaîne est amorcée.

Déjà deux anomalies levées.

Mententon03 · 22 April 2019 19:34

Oui, pour ma part, je confirme ton hypothèse, j’étais en mode serial donneur

Antonio

jeanferreira · 22 April 2019 21:44

Je ne peux que confirmer effectivement les nombreux échanges du premier jour de la monnaie libre.

kimamila · 23 April 2019 12:47

Salut @HugoTrentesaux !
Ne peut on pas en savoir plus sur la définition d’une “anomalie” dans leur algo ?

En soit, ca veut tout et rien dire…

HugoTrentesaux · 23 April 2019 12:53

Si, bien sûr. Nicolas a créé un compte sur le forum, il ne va pas tarder à venir commenter directement ici. Mais en attendant, tu peux lire un peu les papiers de http://www.complexnetworks.fr/

(je pense en particulier à Multidimensional Outlier Detection in Interaction Data: Application to Political Communication on Twitter @kimamila)

kimamila · 23 April 2019 13:07

Je préfère attendre qu’il nous dise ce qu’il a utiliser, plutot que d’essayer de déduire.

HugoTrentesaux · 23 April 2019 13:14

Il y aura sûrement un papier qui parle de cette métrique, peut être même qui mentionne le jeu de données de la monnaie libre. Ce sera l’occasion pour comprendre en détail le sens mathématique de la notion de “outlier” ou “anomalie”. Mais pour ça, il va falloir attendre quelques mois ! (c’est long la recherche)

NicolasGensollen · 23 April 2019 17:13

Bonjour à tous,

Merci @HugoTrentesaux pour ton aide et pour nous avoir fait découvrir cette monnaie et son environnement, c’est un sujet particulièrement enrichissant.

Comme @HugoTrentesaux l’a précisé dans son premier post, Matthieu et moi travaillons sur la détection d’anomalies dans des graphes temporels, aussi appelés flux d’interactions. On s’intéresse donc de près aux systèmes où des entités interagissent dynamiquement entre elles. Les appels téléphoniques, les échanges de paquets IP sur le réseau, ou encore les transactions monétaires en sont des exemples.

Il y a beaucoup de littérature sur ces objets mais pas encore de formalisme universellement adopté comme c’est le cas pour les graphes statiques ou les séries temporelles par exemple. Matthieu et son équipe ont travaillé ces dernières années sur un formalisme permettant de décrire très finement ces séquences d’interactions qu’ils ont appelés des “stream-graphs”. Pour ceux que ça intéressent, ils ont publié il y a quelques temps un long papier posant les bases de ce formalisme (lien). Des concepts élémentaires de la théorie des graphes comme le nombre de nœuds, le degré d’un nœud, ou encore le coefficient de clustering y sont redéfinit pour encoder à la fois la composante structurelle et temporelle des flux d’interactions. Ce sont ces “métriques” que l’on utilise pour détecter des “anomalies”.

Une anomalie dans notre formalisme est un “sous-stream” (l’équivalent d’un sous-graphe mais avec la composante temporelle), ou plus simplement “les interactions d’un sous ensemble des nœuds durant un intervalle de temps”. On a donc mis au point des algorithmes qui échantillonnent des sous-stream du flux principal, et utilisent les concepts stream-graphs pour les comparer les uns aux autres.
Pour faire simple, l’objectif est de trouver des métriques qui suivent plus ou moins une loi normale sur les échantillons. Une anomalie (aussi appelée outlier) pour une métrique est alors purement statistique: il s’agit d’un sous-stream dont la valeur de sa métrique est très éloignée de la moyenne.

Il y a pas mal de subtilités sous-jacentes dont je n’ai volontairement pas parlé pour ne pas trop alourdir ce post mais que je peux développer si besoin ou s’il y a des gens que ça intéresse. En ce qui concerne les 10 échantillons que j’ai proposé à Hugo, il y a un certain nombre de sous-stream catégorisés comme “anormaux” mélangés avec d’autres sous-streams “normaux”. @jytou a effectivement mis le doigt sur deux échantillons “anormaux”: un correspondant au démarrage de la monnaie (qui revient très souvent dans les anomalies détectées vu le contenu du bloc 0), et un autre ou Mententon03 semble réaliser beaucoup plus de transactions qu’à la normale (ce qui n’est effectivement pas un “événement” en soit, mais bien une “anomalie” à nos yeux).

Nous en sommes encore à un stade expérimental pour la validation de nos méthodes. L’objectif de ce petit test est donc de vérifier que l’ont peut trouver des explications aux anomalies détectées, soit en les reliant à des événements (apéros monnaie libre ou autres), soit en vérifiant que la séquence de transactions détectées est inhabituelle pour au moins une des personnes impliquées dans les échanges. On souhaite aussi vérifier que l’on n’est pas en mesure de trouver des explications quel que soit le sous-stream présenté, d’où la présence d’échantillons “normaux”.

J’espère que ça éclaircit un peu les choses. N’hésitez pas à me poser des questions si nécessaire.

Merci à tous!

Junidev · 23 April 2019 17:28

ca va simplifier la recherche des trucs étranges, y a -t’il une dimension d’apprentissage? comment comparer des évenement en debut de blockchain ou les transactions sont bcp plus rare qu’en fin? mais surtout, est-il possible de categoriser l’etrangeté des évenement et “d’apprendre” a celui ci, similaire a une “back propagation” d’un réseau de neuronnes? avec l’aide d’un controleur qui dirait, ca c’est normal, ca ca ne l’est pas?

NicolasGensollen · 23 April 2019 18:09

Merci pour ta réponse @Junidev. L’hétérogénéité de la donnée est effectivement une des “subtilités” que j’ai préféré passer sous silence dans mon premier post. Cette hétérogénéité est présente à la fois temporellement (le volume de transactions dans le système évolue, effets de saisons, etc…), et structurellement (certains utilisateurs interagissent beaucoup plus que d’autres, avec des fréquences ou des patterns spécifiques, etc…). Les algos sur lesquels on travaille ont pour but de normaliser localement (structurellement et temporellement) les métriques des échantillons avant de les comparer.

Cela peut être assez subtil. Dans des échanges téléphoniques par exemple, quelqu’un qui n’appelle presque jamais personne mais passe soudainement plusieurs coups de fil pour le 1er janvier a-t-il un comportement anormal?

On a souvent cette dualité du “suis-je anormal par rapport à mon activité classique?” et du “suis-je anormal par rapport aux autres maintenant?”. Les “anomalies les plus anormales” étant bien entendu celles qui traduisent à la fois une déviation forte par rapport à leurs comportements d’habitude et par rapport à celui des autres au même moment.

Pour ce qui est de l’apprentissage, c’est une évolution naturelle vers laquelle on souhaite bien sûr tendre. Pour le moment, on en est encore à une étape préliminaire sans apprentissage, mais on peut très bien imaginer des algos de classification (réseaux de neuronnes et autres) utilisant des features basés sur des propriétés stream-graphs.

Junidev · 23 April 2019 18:31

le sream-graph deviendrais un input du NN okay. je suivrais ca ca a l’air interessant

jytou · 23 April 2019 19:12

… en tenant aussi compte des caractéristiques personnelles de chaque individu (anniversaire, genre, etc.).

Max · 24 April 2019 08:53

Bonjour @NicolasGensollen

Est ce que votre algo déployé pour ces tests

utilise les données inscrites dans le champs de commentaire de ces transactions ?

NicolasGensollen · 24 April 2019 09:07

Bonjour @Max
Non, on se base uniquement sur les transactions pures. En gros, la blockchain est transformée en une suite de triplets “t a b” signifiant que a a réalisé une transaction vers b à l’instant t. C’est la seule information que l’algorithme possède.
@jytou a suggéré plus haut d’avoir recours aux commentaires des transactions pour la validation des anomalies détectées. Je vais regarder cela d’un peu plus près. Pour le moment je préférais ne pas les utiliser puisqu’ils ne sont pas systématiquement présents et pas toujours très informatifs (en tout cas pour cet objectif).

jytou · 24 April 2019 09:27

C’est vrai qu’entre les private jokes, les messages codés, sans compter les transactions sans commentaires, c’est une information à caractère plutôt aléatoire. Mais ça peut permettre ponctuellement de comprendre l’intention de la transaction. Par ailleurs, certaines transactions sont marquées par gchange et gannonce comme par exemple la 2ème transaction de ce bloc : https://g1.presles.fr/blockchain/block/45629

HugoTrentesaux · 7 May 2019 10:23

@NicolasGensollen est-ce que ton code pour récupérer la liste des transactions est disponible ? J’aimerais bien l’adapter avoir facilement des informations comme :

le nombre total de transactions
la répartition des montant des transactions

yyy · 7 May 2019 15:37

Salut Hugo !

Voici la requete elastic search pour aller chercher les 10 000 premières transactions directement sur la blockchain, trié par date, avec le compte source, le compte destinataire, le montant, et le commentaire

http://g1.data.duniter.fr/g1/movement/_search?filter_path=hits.hits._source&size=10000&_source=medianTime,issuer,recipient,amount,comment&sort=medianTime&pretty

C’est un json que tu peux parser à ta convenance

C’est bien ce que tu voulais ?

HugoTrentesaux · 7 May 2019 15:50

Merci ! Il ne me reste plus qu’à trouver le temps pour faire joujou avec