Comment l’IA se met au service de la cybersécurité
Depuis quelques années, le machine learning et le deep learning ont montré tout leur intérêt dans la détection d’événements suspects. En revanche, ils affichent encore des limites dans l’orchestration de la réponse à apporter.
La menace cyber n’a été jamais été aussi prégnante. Opportunistes, les cybercriminels profitent de la crise sanitaire et de la désorganisation des entreprises pour multiplier les attaques. L’Agence nationale de la sécurité des systèmes d’information (Anssi) rapporte ainsi une augmentation de 255% des signalements d’attaques par ransomware en 2020. Face à cette croissance exponentielle des menaces, le facteur temps joue un rôle clé. Il s’agit d’analyser un grand volume de données et le plus rapidement possible pour identifier un comportement anormal ou un schéma de fraude. Un rôle désormais dévolu aux technologies de machine learning et de deep learning. Fichiers malveillants, adresses IP suspectes, menaces internes… Des systèmes auto-apprenants vont traiter un grand nombre d’événements et alerter les équipes d’analystes qui mèneront les actions correctives. Depuis maintenant quelques années, la quasi-totalité des éditeurs spécialisés recourent à l’IA, répondant semble-t-il à la demande du marché. Selon une enquête de Vanson Bourne menée pour Juniper Networks, 23% des entreprises françaises ont déjà intégré les technologies d’IA dans leur portefeuille de sécurité. Et 60% sont en cours de déploiement de ces briques ou prévoient d’en faire une priorité pour 2021.
Tempérer les ardeurs des providers
Certains fournisseurs mettent en avant l’apport de l’IA avec insistance. L’anglais Darktrace se présente comme “un leader mondial de l’IA pour la cyberdéfense”. Sa solution protège contre les menaces pesant sur les réseaux, les terminaux, le cloud ou l’IoT. Autre américain, Vectra se concentre, avec sa plateforme Cognito, sur l’analyse du trafic réseau sur les environnements on-premise ou sur les clouds privés et publics. Fondé par des experts israéliens, Deep Instinct s’appuie sur l’apprentissage profond pour prévenir et détecter les logiciels malveillants. Enfin, IBM fait appel à l’intelligence cognitive maison via sa solution Watson for Cyber Security.
Pour Olivier Patole, associé chez EY Consulting, il convient de tempérer les ardeurs du marché. “Il y a un delta entre le discours marketing des éditeurs et les retours du terrain. Leurs systèmes n’ont pas encore le niveau de maturité annoncé. L’humain conserve toute son importance même s’il se voit déchargé de tâches chronophages ou non économiquement viables”, argue le spécialiste. L’IA peut néanmoins représenter une réponse à la pénurie de compétences cyber. “Compte tenu du volume des données à analyser, les organisations n’ont pas la capacité à mobiliser suffisamment de personnes pour une couverture complète et exhaustive”, reconnait Olivier Patole. En revanche, les apports de l’IA s’arrêtent, selon lui, à la détection. “Un système auto-apprenant va détecter des signaux faibles comme un comportement anormal d’un poste de travail par rapport au reste du parc informatique. L’IA pourra cerner si cet événement est ou non un incident de sécurité”, explique Olivier Patole. En cela, l’IA reste pour l’heure une aide à la décision, laissant l’humain orchestrer la réponse. “Nous manquons encore de recul sur la pertinence à laisser agir une IA en autonomie sur les réponses à donner à l’incident et les actions de remédiation à mettre en œuvre”, argumente le spécialiste.
"Il y a un delta entre le discours marketing des éditeurs et les retours du terrain"
Dans un monde idéal, des systèmes automatisés pourraient détecter des vulnérabilités puis déclencher des alarmes et les réponses appropriées. Ce que Darktrace entend proposer avec son offre Réponse autonome. Si cela va dans le sens de l’histoire avec la volonté de réduire autant que possible le temps de réaction, Olivier Patole pointe la défiance actuelle sur la fiabilité des algorithmes. “Une entreprise ne peut se permettre d’avoir un de ses systèmes vitaux bloquer par un faux positif. La protection qui sous-entend de bloquer des flux, des actions suppose de la confiance”, prévient-il. Or, les algorithmes dits “boite noire” de type deep learning, utilisés ici, manquent, par définition, de transparence. Responsable du Cert (computer emergency response team) d’Orange Cyberdefense, Rodrigue Le Bayon est sur la même ligne. “Je préfère parler d’intelligence augmentée plutôt que d’IA, ce qui est plus en phase avec la réalité. Il y a quelques années, des éditeurs ont donné l’illusion, à tort, que l’IA remplacerait les capacités d’analyse humaine, divisant par deux ou trois les équipes cyber.” Si l’IA dope la capacité de détection, la cybersécurité reste, à ses yeux, une combinaison entre machines et humains. “Une IA omnisciente capable de riposter automatiquement reste un mythe. Il faut des capacités humaines pour interpréter les incidents remontés”, insiste le responsable du Cert d’Orange Cyberdefense.
De même, Rodrigue Le Bayon réfute la thèse d’une IA qui serait devenue le bras armé des cybercriminels. “L’IA attaquante reste encore un mythe même si, c’est indéniable, on y arrivera. GPT-3 d’OpenAI, l’intelligence artificielle la plus avancée dans le domaine du langage, sait déjà créer des textes cohérents et même du code. D’ici peut-être dix ans, une IA devrait être en mesure de générer des charges malveillantes dynamiques”, anticipe-t-il.
"Pour une détection efficace, il faut éliminer le bruit afin que l'opérateur ne soit pas submergé par les alertes de faux positifs"
Reposant sur une approche statistique, un système auto-apprenant va analyser les événements d’un trafic réseau ou les caractéristiques d’un fichier pour lui attribuer un score de confiance. Il peut mettre en quarantaine un ransomware, un ver ou un trojan et exécuter une application suspecte dans un bac à sable. A l’humain ensuite de faire la levée de doute. La pertinence de ce scoring suppose en amont une longue phase d’apprentissage. “Pour une détection efficace, il faut éliminer le bruit afin que l’opérateur ne soit pas submergé par les alertes de faux positifs”, explique Olivier Patole. “Dans le même temps, le seuil ne doit pas être trop élevé au risque sinon de laisser des angles morts.” Face aux systèmes traditionnels qui reposent sur des modèles de règles et des bases de signatures de virus, l’approche statistique permet d’appréhender, au-delà des attaques connues, davantage de nouvelles menaces. “Si la menace se rapproche d’un schéma qu’il connait déjà et qui a été catalogué comme malveillant, le système émettra une suspicion”, poursuit Olivier Patole. “Cela permet dans le cas d’une attaque par ransomware de détecter des variantes.”
Le NLP contre le pishing
Les éditeurs spécialisés ne sont pas les seuls à recourir à l’IA, les prestataires s’y mettent également. Orange Cyberdefense a mis en place, dès 2015, un programme de surveillance des réseaux baptisé Dilan pour data intelligence for Lan. Le machine learning sous-jacent déjoue notamment la technique du beaconing qui consiste pour un hacker à maintenir un accès ouvert dans un réseau compromis afin d’envoyer une charge malveillante le moment venu. Le système détectera qu’un paquet de données de même taille est transféré toutes les X minutes pour garder cette communication ouverte. Le Cert d’Orange Cyberdefense utilise, par ailleurs, le traitement du langage naturel et la reconnaissance d’images. “La détection d’attaques de phishing suppose d’analyser le contenu du message, l’adresse e-mail de l’expéditeur mais aussi le logo qui a pu être potentiellement détourné”, indique Rodrigue Le Bayon. Le CERT fait également appel à l’IA pour déjouer les algorithmes de type DGA (domain generation algorithm) qui génèrent des noms de domaines de manière aléatoire. Sur un mail intercepté, le système attribue un score de réputation à un nom de domaine qui n’est pas enregistré dans une base de connaissances. L’analyse de texte peut remonter une succession de caractères qui n’est pas naturelle et ne ressemble pas à un nom de domaine légitime.
De son côté, EY se sert de l’IA pour collecter et analyser des données structurées ou non-structurées issues du web, du deep web et du dark web pour son service de cyber intelligence. Objectif : identifier les éléments qui pourraient être exploités contre une entreprise comme une faille dans un service en ligne, ou les identifiants et mots de passe de collaborateurs ou encore des programmes publiés sur un dépôt de code public par des informaticiens internes ou des prestataires.
L’IA permet aussi d’analyser des vidéos sur les plateformes de streaming afin de déceler d’éventuels risques. “Par exemple, un groupe d’étudiants montrait sur YouTube comment exploiter les vulnérabilités d’un site e-commerce pour récupérer des données clients”, illustre Olivier Patole. Dans une autre vidéo, un collaborateur filmait les locaux de son entreprise et les systèmes de sécurité physiques.” La menace, rappelle-il, est souvent une combinaison de différents vecteurs. Des hackers tentent de s’introduire par tous les moyens, du phishing à l’intrusion physique. La reconnaissance d’images permettra de déceler ces fuites d’informations.
Source : JDN