Détection de cyberharcèlement sur Twitter

Python

SQL

Programme Python développé dans le cadre des TIPE de CPGE ayant pour objectif de détecter des messages potentiellement haineux, en temps réel, sur Twitter.

Pour cela, le programme communique avec l'API de Twitter pour récupérer un flux de tweets en temps réel. Ainsi, dès qu'un tweet est posté, il peut être récupéré par le programme.

Le programme utilise une liste de mots/expressions définis à l'avance en suivant une étude précise des insultes les plus utilisées en ligne pour récupérer les tweets contenant ces mots/expressions.
Les mots détectés sont classés dans des catégories précises telles que le racisme, la misogynie, etc.

Le programme attribue également un score entre 0 et 100 au tweet. Plus le score est élevé, plus le tweet est potentiellement haineux.

En outre, un module a été développé pour obtenir des statistiques sur la base de données des tweets récupérés.
Cela est notamment utile pour récupérer les auteurs apparaissant le plus de fois, et ainsi faire des analyses plus poussées.

Les résultats sont très encourageants.
En effet, sur un peu plus d'un an, près de 60 000 tweets ont été détectés par le programme, soit un peu moins de 45 000 auteurs.
Plus de 8 000 auteurs apparaissent au moins 2 fois dans la base de données, 42 apparaissent au moins 10 fois.
En particulier, l'auteur apparaissant le plus de fois a été banni de Twitter.