L’intelligence artificielle et l’apprentissage automatique peuvent générer des prédictions et des analyses de qualité, mais exigent d’abord que les organisations soient formées sur des données de haute qualité, en commençant par les six dimensions de la qualité des données.
Le vieil adage de la programmation informatique – ordures entrantes, ordures sortantes – s’applique tout autant aux systèmes d’IA d’aujourd’hui qu’aux logiciels traditionnels. La qualité des données signifie différentes choses dans différents contextes, mais, en général, des données de bonne qualité sont fiables, précises et dignes de confiance.
« La qualité des données fait également référence à la capacité de l’entreprise à utiliser les données pour la prise de décision opérationnelle ou de gestion », a déclaré Musaddiq Rehman, directeur de la pratique numérique, des données et de l’analyse chez Ernst & Young.
Dans le passé, assurer la qualité des données signifiait qu’une équipe d’êtres humains vérifiait les enregistrements de données, mais à mesure que la taille et le nombre d’ensembles de données augmentent, cela devient de moins en moins pratique et évolutif.
D’ici la fin de cette année, 60 % des organisations tireront parti de la technologie de qualité des données basée sur l’apprentissage automatique afin de réduire le besoin de tâches manuelles, selon Gartner. Pour optimiser ces outils de qualité des données, la maîtrise des six dimensions de la qualité des données devrait contribuer à garantir une performance efficace des données.
1. Précision
L’exactitude des données consiste à savoir si les données des systèmes de l’entreprise correspondent à celles du monde réel ou à une autre source vérifiable.
« Pour qu’une métrique de précision fournisse des informations précieuses, il est généralement nécessaire de disposer de données de référence pour vérifier sa précision », a déclaré Rehman.
Par exemple, les données des fournisseurs pourraient être vérifiées par rapport à une base de données de fournisseurs de données tiers, ou les montants des factures saisis dans un système de comptabilité pourraient être vérifiés par rapport aux documents papier.
Le plus grand fléau en matière de précision est la saisie humaine des données, que ce soit les employés ou les clients eux-mêmes qui effectuent la saisie.
« Une lettre sépare les abréviations postales de l’Alabama, de l’Alaska et de l’Arkansas », a déclaré Doug Henschen, vice-président et analyste principal chez Constellation Research. « Une différence d’un chiffre dans une adresse ou un numéro de téléphone fait la différence pour pouvoir se connecter à un client. »
Même avec tous les progrès récents dans la numérisation des systèmes back-end et l’amélioration des interfaces client, les systèmes sont toujours vulnérables aux erreurs, a-t-il déclaré. Une bonne conception de l’interface utilisateur peut aider beaucoup ici.
Par exemple, de nombreux formulaires d’adresse destinés aux clients ont un vérificateur d’adresse intégré pour confirmer qu’une adresse existe bel et bien. De même, les numéros de carte de crédit et les adresses e-mail peuvent être vérifiés au moment de la saisie manuelle.
« Les CDP sont principalement conçus pour résoudre les identités et lier les informations associées à une personne pour créer un dossier client unique », a déclaré Henschen.
Mais cela peut également aider à garantir l’exactitude et à tenir à jour les enregistrements lorsque les clients changent d’emploi, se marient et divorcent, déménagent ou obtiennent de nouvelles adresses e-mail. La plupart des outils de qualité des données offrent des fonctionnalités pour valider les adresses et effectuer d’autres contrôles de précision standard.
Ils peuvent également être utilisés pour profiler les données, donc si quelqu’un entre quelque chose d’inattendu, il enverra une alerte. IBM, SAP, Attacama, Informatica et d’autres leaders du Magic Quadrant de Gartner pour les solutions de qualité des données proposent la création de règles de qualité des données basées sur l’IA avec un moteur d’auto-apprentissage.
Malheureusement, malgré l’arrivée de nouvelles technologies, le problème de précision s’aggrave au lieu de s’améliorer, selon une enquête menée auprès de près de 900 experts en données publiée en septembre par le fournisseur de qualité des données Talend.
Par exemple, le pourcentage de répondants qui ont déclaré que leurs données étaient à jour a chuté de façon spectaculaire depuis cette période l’année dernière. Seuls 28 % ont qualifié leurs données de « très bonnes » en termes d’actualité, contre 57 % en 2021.
Le pourcentage de répondants qui ont évalué leurs données comme étant « très bonnes » en termes de précision a également diminué, passant de 46 % en 2021 à 39 % cette année.
2. Cohérence
La cohérence signifie que les données de tous les systèmes reflètent les mêmes informations et qu’elles sont synchronisées les unes avec les autres dans toute l’entreprise.
La cohérence peut également être une mesure des anomalies liées au format des données, qui peuvent être difficiles à tester et nécessitent des tests planifiés sur plusieurs ensembles de données, a déclaré Rehman. Différentes parties prenantes de l’entreprise peuvent avoir besoin de s’impliquer et de créer un ensemble de normes qui s’appliqueraient à tous les ensembles de données, quelle que soit l’unité commerciale dont ils proviennent.
« Par exemple, j’ai changé mon adresse dans la base de données d’une organisation », a-t-il déclaré. « Cela devrait se refléter dans toutes les applications en aval qu’ils prennent en charge. »
« Un fournisseur de marketing peut utiliser les données d’un fournisseur à partir d’une source, mais une fois que nous avons modifié l’un des enregistrements de données mentionnés dans la base de données du fournisseur de marketing, cela ne se reflétera pas dans la source de ce fournisseur », a déclaré Rehman.
Assurer la cohérence peut être difficile à faire manuellement, mais peut être considérablement amélioré avec des outils de qualité des données. Les systèmes automatisés peuvent corréler automatiquement les données entre différents ensembles de données ou garantir que les formats sont conformes aux normes de l’entreprise.
Cependant, la cohérence s’est détériorée au cours de l’année écoulée, selon l’enquête Talend. En 2021, 40 % des répondants ont évalué leurs données comme étant « très bonnes » en termes de cohérence. Cette année, seulement 32 % ont fait de même.
3. Validité
Des données non valides pourraient rejeter toute IA formée sur cet ensemble de données, les entreprises devraient donc créer un ensemble de règles commerciales systématiques pour évaluer la validité, a déclaré Rehman.
Les dates de naissance sont composées d’un mois, d’un jour et d’une année. Les numéros de sécurité sociale comportent dix chiffres. Les numéros de téléphone américains commencent par un indicatif régional à trois chiffres. Malheureusement, dans la plupart des cas, ce n’est pas aussi simple que de décider d’un format pour une date de naissance.
« Dans de nombreux cas, la contribution des entreprises est nécessaire pour comprendre quelles sont les normes requises », a-t-il déclaré. « Ces normes peuvent évoluer avec le temps et doivent être contrôlées de manière récurrente. »
Les outils de qualité des données conçus pour garantir l’exactitude et la cohérence peuvent également garantir la validité des données. Informatica, par exemple, propose une API pour valider les adresses pour tous les pays, formats et langues.
4. Intégralité
« Par exemple, le prénom et le nom d’un employé sont obligatoires, mais le deuxième prénom est facultatif », a-t-il déclaré. « Ainsi, un enregistrement peut être considéré comme complet même si un deuxième prénom n’est pas disponible. »
Une fois qu’une entreprise a déterminé quels champs sont facultatifs et lesquels ne le sont pas, les outils de qualité des données peuvent valider les informations au point d’entrée, envoyer des alertes ou utiliser la corrélation avec d’autres ensembles de données pour combler les lacunes.
Selon l’enquête Talend, l’exhaustivité s’est également détériorée au cours de l’année écoulée. Seuls 41 % des répondants ont évalué leurs données comme étant « très bonnes » sur l’exhaustivité en 2021. Cette année, ce nombre est tombé à 35 %.
5. Unicité
La plupart des entreprises disposent de plusieurs ensembles de données qui se chevauchent. Même dans le cas d’ensembles de données uniques, des enregistrements peuvent être accidentellement ajoutés plus d’une fois.
« Il peut y avoir des clients avec cinq adresses différentes et aucune possibilité de savoir laquelle est la bonne », a déclaré Rehman. « Il peut y avoir quelques fournisseurs avec presque le même nom dans une seule base de données. Les enregistrements des clients peuvent être identiques avec seulement des variations mineures. »
Les outils de qualité des données peuvent aider à corréler les données entre des ensembles de données disparates pour trouver une source unique de vérité ou signaler les enregistrements pour un examen manuel si la déduplication automatisée est trop risquée ou difficile.
L’appariement, la liaison et la fusion de données sont des fonctionnalités intégrées de la plupart des principaux outils de qualité des données. Certains sont basés sur des règles ou utilisent des algorithmes ou des métadonnées pour relever le défi. Plus récemment, des outils utilisent l’apprentissage automatique pour rendre le processus plus rapide et plus précis.
6. Intégrité
Même si les données sont cohérentes, complètes, uniques et précises, elles ne le restent pas toujours. Il est touché par différentes personnes et se déplace à travers différents systèmes.
« L’intégrité des données garantit que toutes les données de l’entreprise peuvent être tracées et connectées », a déclaré Rehman.
L’intégrité des données affecte également les relations. Si un employé modifie accidentellement le numéro d’identification d’un client, tous les enregistrements de transaction associés peuvent devenir orphelins.
L’intégrité des données est également un aspect clé de la gouvernance des données et de la conformité réglementaire. Une entreprise court de gros risques si des modifications non autorisées sont apportées aux dossiers financiers ou médicaux des clients.
Bon sens
Même si les données passent tous les contrôles de qualité des données, il se peut qu’elles répondent à la mauvaise question.
Cela s’est produit avec un projet sur lequel Juan Orlandini, architecte en chef et ingénieur distingué chez Insight, a travaillé pour une entreprise de vente au détail.
« Le client pensait que la majorité des pertes se situaient dans les caisses automatiques – et étaient intentionnelles », a-t-il déclaré.
Un système d’IA a été utilisé pour détecter le vol délibéré par les clients utilisant ces voies. Après une enquête plus approfondie, le vrai problème était que les clients plus âgés n’étaient pas habitués à utiliser les scanners et faisaient simplement des erreurs de bonne foi.
« Nous avons donc réalisé que nous avions une mauvaise expérience utilisateur », a déclaré Orlandini.
Une fois que cela a été corrigé, le système d’IA a commencé à donner des résultats très différents.
« Il y avait encore des pertes », a-t-il déclaré. « Mais ce n’était pas aussi important ou omniprésent que le détaillant le pensait. »
Malheureusement, les systèmes automatisés, pas même ceux alimentés par l’IA la plus intelligente, peuvent reconnaître les problèmes liés à une compréhension approfondie du fonctionnement du monde humain. De nombreux experts travaillent actuellement sur le problème de l’intelligence artificielle générale.