Actus & Agenda

La valeur des données « naturelles » augmente

Les modèles de machine learning, composants récurrents des intelligences artificielles, apprennent à partir de jeux de données.  Ces données peuvent avoir été générées par des capteurs, des simulations mais aussi en tant que données synthétiques (interpolations, en 1e approximation).  Les modèles de machine learning requièrent de plus en plus de données, à tel point que cette ressource viendrait à manquer (cf. 2e § de cet article de Forbes « 10 AI predictions for 2023 » – https://www.forbes.com/sites/robtoews/2022/12/20/10-ai-predictions-for-2023/?sh=6d2b1d64fab7).

Dans le même temps et dans le domaine de la fraude financière, le terme « data poisoning » recouvre des attaques qui agissent sur la phase d’entraînement pour altérer, voire fausser complètement les résultats du modèle prédictif. (référence : https://www.techniques-ingenieur.fr/actualite/articles/les-modeles-de-machine-learning-victimes-dattaques-informatiques-117693/). Pour contrer ces attaques, une étape consiste à à vérifier la source des données utilisées pour l’apprentissage. En particulier la facilité de générer des données synthétiques, y compris biaisées, facilite cet empoisonnement.

Ces deux informations renforcent l’intérêt de se tourner vers les jeux de données produits et partagés par la recherche.