L’intelligence artificielle (IA) est en plein essor. D’autant plus importants sont les soi-disant « données synthétiques“. C’est le terme général pour toutes les données qui ont été générées artificiellement, c’est-à-dire qui ne sont pas basées sur des mesures réelles. Par conséquent, elles sont parfois appelées « données artificielles ». Il peut s’agir d’images, de textes ou de vidéos, ainsi que de chiffres. En règle générale, ces données sont également utilisées pour entraîner les systèmes d’IA.
Gros avantage : la protection des données
La particularité des données synthétiques : vous ne pouvez enfreindre aucun droit personnel ou de protection des données. Ils ne sont pas soumis à Règlement général sur la protection des données (RGPD), car ils ne peuvent pas être attribués à de vraies personnes. En pratique, c’est un grand avantage pour les entreprises.
Les données synthétiques réelles générées par une IA ne peuvent pas être anonymisées. Cela signifie que les entreprises qui les utilisent sont en fait du « côté sûr » en termes de protection des données. Les processus de désanonymisation classiques, en revanche, sont souvent réversibles ou non sécurisés.
PiktID s’appuie sur des données synthétiques pour les visages, par exemple. La photo de gauche montre un « vrai » enfant, sur la photo de droite le visage et les cheveux ont été échangés et générés artificiellement. L’enfant sur la photo de droite n’existe pas.
© PictID
Cela rend l’environnement de test plus sûr
Les données synthétiques sont déjà utilisées par de nombreuses entreprises américaines. Amazone les utilise, par exemple, pour créer l’assistant linguistique numérique alexa entraîner. Aussi les systèmes de reconnaissance d’image de voitures autonomes sont entraînés avec. Générateurs d’images IA peut également être formé et amélioré avec lui. Mais il existe de nombreuses autres utilisations.
Les données synthétiques peuvent également être utilisées, par exemple, pour tester de nouvelles fonctions d’applications, par exemple par des développeurs dans un environnement d’essai. La plus grande erreur que les développeurs peuvent commettre ici est d’utiliser des données personnelles réelles lors du test de nouveaux programmes ou bases de données. Ceux-ci pourraient facilement être volés, en particulier dans des environnements de test mal sécurisés. Ou toi sont tout simplement oubliés une fois le « vrai » produit mis en service. De cette façon, les cybercriminels pourraient obtenir de vrais ensembles de données, bien que cela ne soit pas nécessaire.
Les données synthétiques sont générées par un logiciel
Les données synthétiques utilisées dans les environnements de test doivent être aussi proches que possible des données réelles, c’est-à-dire leur ressembler étroitement. Mais les informations et les connexions doivent être générées artificiellement à partir de zéro.
C’est techniquement possible aujourd’hui avec certains logiciels, y compris de sociétés telles que Principalement l’IA. Avec cela, des données synthétiques peuvent être générées à partir de données réelles, qui sont très similaires aux données réelles, mais aucune référence personnelle ne peut être faite.
Découvrez les anomalies dans les systèmes bancaires
Mais les environnements de test ne sont pas la seule utilisation des données synthétiques. Les secteurs pour lesquels de telles données générées artificiellement pourraient présenter un intérêt comprennent les secteurs de la finance et de la santé.
Les systèmes d’IA y sont de plus en plus utilisés pour anomalies dans les systèmes découvrir. Un exemple : une banque souhaite avertir les clients en temps utile si des débits suspects sont découverts sur le compte et ne correspondent pas au comportement habituel de l’utilisateur.
À cette fin, la banque développe un système d’IA capable de surveiller précisément cela et, si nécessaire, de déclencher l’alarme. En règle générale, une personne vérifiera alors s’il s’agit vraiment de mouvements de compte extraordinaires ou si une situation particulière s’est simplement produite.
Jumeau de données synthétiques
Pour qu’un système d’IA puisse déclencher l’alarme dans une banque, il doit d’abord être formé avec des données, comme des programmes de chat ou des générateurs d’images. C’est là que les données synthétiques entrent en jeu. Au lieu d’entraîner le système avec des données d’origine, il peut anomalies familiarisé avec les données synthétiques.
Pour que cela fonctionne, cependant, ces données générées artificiellement doivent être modélisées de manière à imiter le plus possible les données d’origine. A cet effet, un « jumeau de données synthétiques’ est généré, qui peut être utilisé pour imiter des données originales sensibles et importantes pour la protection des données. Dans le cas des mouvements de compte, il est important de reproduire des modèles statistiques, par exemple, afin que les mouvements suspects puissent être traqués.
D’autres industries auraient des avantages
En règle générale, ces modèles ne sont pas générés par les banques elles-mêmes, mais sont pris en charge par des sociétés spécialisées dans l’IA qui se sont concentrées sur la production de données synthétiques. Une start-up autrichienne active dans ce domaine est Mostly AI.
L’institut d’études de marché Jardinier s’attend à ce que 2024 déjà 60 pour cent des données utilisées pour entraîner les systèmes d’IA seront synthétiques. Pour le moment ce n’est pas le cas.
En plus du secteur bancaire, il existe d’énormes opportunités lors de l’utilisation de ces données dans le secteur de la santé. Ici aussi, les données originales des patients ne doivent pas nécessairement être utilisées pour découvrir certains schémas et maladies ou pour découvrir des anomalies de santé.
De bons résultats similaires à ceux obtenus avec des données « réelles »
Aussi la start-up carinthienne PictAI repose sur des données synthétiques. Les visages sont générés artificiellement dans cette entreprise afin qu’aucune « vraie » personne ne nous regarde depuis les panneaux d’affichage et les espaces publicitaires.
Mais quelle est la qualité des données générées artificiellement par rapport aux données d’origine ? Selon un rapport de LSZ.at, ils fonctionnent de manière très similaire aux systèmes d’IA entraînés avec des données originales.
Demandez à la futurezone
Dans la section « Ask the futurezone », nous recherchons et répondons pour vous à des questions sélectionnées sur des sujets technologiques.
Vous pouvez leur envoyer un e-mail à l’adresse redaktion@futurezone.at – Objet : « Demandez à la futurezone », mais vous pouvez également nous contacter via les réseaux sociaux (Facebook, Instagram, Twitter).