Lorsque le détective le plus célèbre de la fiction, Sherlock Holmes, devait résoudre un crime, il faisait appel à son sens aigu de l'observation et à sa profonde compréhension de la nature humaine. Il a utilisé cette combinaison plus d'une fois lorsqu'il a affronté son ennemi juré, le Dr James Moriarty, un méchant habile à exploiter les faiblesses humaines à son profit.
Cette bataille classique illustre bien la lutte contemporaine contre la cybercriminalité. Comme Moriarty, les cybercriminels utilisent des stratégies astucieuses pour exploiter les vulnérabilités psychologiques de leurs victimes. Ils envoient des courriels ou des messages trompeurs qui semblent provenir de sources fiables telles que des banques, des employeurs ou des amis. Ces messages contiennent souvent des demandes urgentes ou des informations alarmantes afin de provoquer une réaction immédiate.
Par exemple, un courriel de phishing peut prétendre qu'il y a eu une activité suspecte sur le compte bancaire de la victime et l'inviter à cliquer sur un lien pour vérifier les détails de son compte. Une fois que la victime a cliqué sur le lien et saisi ses informations, les escrocs s'emparent de ses données d'identification pour les utiliser à des fins malveillantes. Ou bien des personnes sont manipulées pour divulguer des informations confidentielles afin de compromettre leur propre sécurité ou celle d'une entreprise.
Holmes a dû se montrer plus malin que Moriarty en comprenant et en anticipant ses manoeuvres. Les équipes de cybersécurité modernes et les utilisateurs doivent rester vigilants et proactifs pour déjouer les cybercriminels qui affinent sans cesse leurs tactiques trompeuses.
Et si ceux qui tentent de prévenir la cybercriminalité pouvaient exploiter les compétences de Holmes ? Ces compétences pourraient-elles compléter les méthodes existantes d'identification des menaces potentielles, davantage axées sur les données ? Je suis professeur de systèmes d'information et mes recherches portent notamment sur l'intégration de la science des données et de la science du comportement dans une optique sociotechnique afin d'étudier les tactiques trompeuses utilisées par les cybercriminels.
Récemment, j'ai travaillé avec Shiven Naidoo, étudiant en master de science des données, pour comprendre comment la science du comportement et la science des données pouvaient unir leurs forces pour lutter contre la cybercriminalité.
Notre étude a révélé que, tout comme le génie analytique de Holmes et l'approche pratique de son acolyte le Dr John Watson étaient complémentaires, les spécialistes des sciences du comportement et des sciences des données peuvent collaborer pour rendre les modèles de détection et de prévention de la cybercriminalité plus efficaces.
Combiner les disciplines
La science des données utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de données structurées et non structurées.
Lorsque ses puissants algorithmes sont appliqués à des ensembles de données complexes et volumineux, ils peuvent identifier des schémas indiquant des cybermenaces potentielles. L'analyse prédictive aide les équipes de cybersécurité à anticiper et à prévenir les attaques à grande échelle. Elle permet, par exemple, de détecter des anomalies dans la structure des phrases pour repérer les escroqueries.
Cependant, le fait de s'appuyer uniquement sur la science des données néglige souvent les facteurs humains qui déterminent le comportement des cybercriminels.
Les sciences comportementales étudient le comportement humain. Elles examinent les principes qui influencent la prise de décision et le respect des règles. Dans notre étude, nous nous sommes largement inspirés du modèle d'influence sociale du psychologue américain Robert Cialdini.
Ce modèle a été appliqué dans des études sur la cybersécurité pour expliquer comment les cybercriminels exploitent les tendances psychologiques.
Par exemple, les cybercriminels exploitent la tendance des humains à obéir à l'autorité en se faisant passer pour des personnes de confiance afin de diffuser de la désinformation. Ils exploitent également les principes d'urgence et de rareté pour inciter à des actions précipitées. La preuve sociale - la tendance à suivre les actions de ceux qui nous ressemblent - est un autre outil utilisé pour manipuler les utilisateurs afin qu'ils se conforment à des demandes frauduleuses. Par exemple, les cybercriminels peuvent créer de fausses critiques ou de faux témoignages, incitant les utilisateurs à tomber dans le piège de l'escroquerie.
Combiner les connaissances
Nous avons adapté le modèle d'influence sociale pour détecter les tactiques cybercriminelles dans les ensembles de données sur les escroqueries en combinant la science comportementale et la science des données. Les ensembles de données sur les escroqueries sont constitués de données non structurées, qui comprennent des données textuelles complexes telles que des courriels d'hameçonnage et de faux messages sur les médias sociaux. Nos données comprenaient des escroqueries connues telles que l'hameçonnage et d'autres activités malveillantes. Elles proviennent du Cyber Intelligence Datafeed de FraudWatch International, qui recueille des informations sur les incidents de cybercriminalité.
Il est difficile de tirer des enseignements de données non structurées. Les modèles ne peuvent pas facilement distinguer les points de données significatifs de ceux qui ne sont pas pertinents ou qui sont trompeurs (nous appelons cela des "données bruyantes"). Les scientifiques des données s'appuient sur l'ingénierie des caractéristiques pour se débarrasser du bruit. Ce processus permet d'identifier et d'étiqueter les points de données significatifs à l'aide de connaissances issues d'autres domaines.
Nous avons utilisé les connaissances du domaine de la science du comportement pour concevoir et étiqueter des caractéristiques significatives dans les données non structurées sur les escroqueries. Les escroqueries ont été étiquetées en fonction de la manière dont elles utilisent les principes d'influence sociale de Cialdini, en transformant les données textuelles brutes en caractéristiques significatives.
Par exemple, un courriel d'hameçonnage peut utiliser le principe d'urgence en disant "votre compte sera bloqué dans les 24 heures si vous ne répondez pas". Le texte brut est transformé en une caractéristique significative appelée "urgence", qui peut être analysée pour y déceler des schémas. Nous avons ensuite utilisé l'apprentissage automatique pour analyser et visualiser l'ensemble des données étiquetées.
Les résultats ont montré que certains principes d'influence sociale, tels que le "like" et l"'autorité", étaient fréquemment utilisés conjointement dans les escroqueries. Nous avons également constaté que les escroqueries par hameçonnage utilisaient souvent un mélange de plusieurs principes. Cela les rendait plus sophistiqués et plus difficiles à détecter.
Les résultats nous ont donné des indications précieuses sur la fréquence à laquelle les différents types de principes d'influence sociale (tels que l'urgence, la confiance, la familiarité) sont exploités par les cybercriminels, ainsi que sur les cas où plus d'un type est utilisé à la fois. L'analyse de données textuelles non structurées, telles que les courriels de phishing et les faux messages sur les médias sociaux, nous a permis d'identifier des schémas indiquant des tactiques de manipulation.
Dans l'ensemble, notre travail a permis d'obtenir des informations de grande qualité à partir d'ensembles de données complexes sur les escroqueries.
Autres applications
Il est important de mentionner que notre ensemble de données n'était pas exhaustif. Cependant, nous pensons que nos résultats sont inestimables pour l'extraction d'informations à partir de données complexes sur la cybercriminalité. Ce type d'analyse peut être utilisé par les professionnels de la cybersécurité, les scientifiques des données, les entreprises de cybersécurité et les organisations impliquées dans la recherche sur la cybersécurité. Il peut contribuer à améliorer les systèmes de détection automatisés et à informer les formations ciblées.
Rennie Naidoo, Professor of Information Systems, University of the Witwatersrand