Le concept de donnees synthetiques pour la curation de datasets manufacutriers optimises
Decouvrez comment les datasets optimises ameliorent les modeles d'IA et l'efficacite de production dans le monde actuel axe sur les donnees.
Picsellia Team
·13 min read

Pret a construire de la vision par ordinateur ?
Des images brutes aux modeles en production. Essai gratuit, sans carte bancaire, resiliable a tout moment.
L'acces a des donnees de haute qualite est essentiel dans le monde actuel axe sur les donnees. C'est particulierement vrai pour les industries comme la fabrication, ou les processus optimises, l'amelioration de la production et les modeles d'IA efficaces reposent fortement sur des donnees fiables. Cependant, de nombreux fabricants souffrent de la rarete et des problemes de qualite des donnees lors de l'entrainement de modeles d'IA. Alors que 60 % des dirigeants industriels declarent avoir une strategie de gestion des donnees, seuls 15 % la respectent pleinement, ce qui conduit a des donnees incoherentes et incompletes.
Les donnees synthetiques offrent une solution pour relever ces defis en aidant les fabricants a generer des donnees artificielles realistes et de haute qualite. Elles permettent aux entreprises de curer des datasets optimises, de combler les lacunes et d'ameliorer la qualite globale de leurs donnees, garantissant que les modeles d'IA et les processus fonctionnent au mieux.
Dans cet article, nous discuterons de la facon dont les donnees synthetiques permettent aux entreprises de curer des datasets manufacturiers optimises.
Importance des datasets optimises pour les entreprises manufacturieres
Les donnees d'entrainement sont le fondement de tout modele de machine learning. Ces modeles prosperent avec des donnees propres, pertinentes et precises. Lorsqu'ils sont entraines sur des informations inadequates, imprecises ou non pertinentes, leurs performances sont degradees. C'est particulierement preoccupant dans l'industrie manufacturiere, ou la precision et l'exactitude sont essentielles pour des performances optimales.
Les architectures de systemes herites et une gouvernance des donnees defaillante dans l'industrie manufacturiere conduisent souvent a des datasets incoherents et peu fiables. En consequence, les donnees des differentes industries manufacturieres contiennent des deviations et du bruit, rendant leur standardisation et leur gouvernance presque impossibles.
Ce manque de controle resulte en une mauvaise qualite des donnees, affectant directement les performances des modeles d'IA dans la fabrication. Les datasets optimises aident a resoudre ces problemes et a ameliorer la fiabilite des processus pilotes par l'IA en se concentrant sur des donnees propres, bien organisees et coherentes.
Ils sont essentiels pour les applications manufacturieres pour les raisons suivantes :
-
Integrite et coherence des donnees : Un dataset optimise est propre, precis et bien structure. Cela signifie que les donnees sont exemptes de bruit, d'incoherences et d'erreurs. Elles sont formatees de maniere coherente, pertinentes pour la tache et representent fidelement les conditions qu'elles modelisent.
-
Precision amelioree dans les workflows critiques : Des taches comme l'identification de defauts/risques et l'assurance qualite (QA) sont essentielles pour la securite au travail et l'entreprise. Les datasets optimises garantissent une precision de premier ordre, vitale pour produire des biens de haute qualite et maintenir un environnement de travail sur.
-
Optimisation des processus : Des donnees bien structurees permettent d'affiner les processus de fabrication, d'ameliorer l'efficacite et de reduire les temps d'arret. Cela peut avoir un impact direct sur la production globale et l'efficacite des couts.
-
Reduction des erreurs : Des donnees de mauvaise qualite peuvent causer des erreurs de prediction, menant a des decisions erronees. Les datasets optimises minimisent ces risques en assurant la coherence et la fiabilite des donnees, resultant en des predictions et des resultats plus dignes de confiance.
Defis dans la construction de datasets manufacturiers
Bien qu'essentiels, la creation de datasets de haute qualite dans l'industrie manufacturiere presente des defis. En voici quelques-uns :
1. Problemes de collecte de donnees
Le grand volume de donnees de fabrication qui doit etre consolide a partir de sources diverses presente un defi important. En fait, 44 % des dirigeants industriels rapportent que leur collecte de donnees a double au cours des deux dernieres annees, avec des attentes de triplement d'ici 2030.
Les fabricants collectent maintenant des donnees a partir d'un ensemble croissant de sources, notamment :
- Des donnees de series temporelles provenant de capteurs
- Des flux video en temps reel
- Des rapports non structures
Cette complexite est encore compliquee par les differents protocoles de communication utilises par les differents systemes.
2. Problemes de qualite des donnees
Des donnees de haute qualite sont cruciales pour prendre de bonnes decisions, mais les fabricants font souvent face a plusieurs problemes de qualite des donnees. Les problemes courants incluent des capteurs defaillants, des environnements bruyants qui creent des erreurs et des formats incoherents entre les differents systemes. Les points de donnees manquants et les informations incompletes peuvent rendre l'analyse des donnees difficile.
La mauvaise qualite des donnees devient souvent un obstacle majeur lorsque les fabricants tentent d'utiliser leurs donnees pour des applications avancees d'IA. Par exemple, les modeles d'IA peuvent faire des predictions inexactes en raison de donnees de capteurs defectueuses, comme produire des faux negatifs dans la detection de defauts de fabrication.
3. Rarete des donnees
Les usines de fabrication dans un domaine de niche comme l'ingenierie aerospatiale sont confrontees a la rarete des donnees. Comme il y a tres peu de ces usines, il est difficile de collecter un dataset diversifie et suffisant pour entrainer un modele adequat. Des donnees historiques incompletes ou inaccessibles peuvent entraver l'analyse pratique et l'entrainement de modeles. Cela rend difficile la construction de modeles predictifs fiables.
4. Silos de donnees et manque de standardisation
L'absence de pratiques standardisees pour la creation et le partage de datasets conduit a des silos de donnees, ou l'information reste pieque au sein de departements ou systemes specifiques. S'il n'existe pas de mecanismes etablis pour maintenir et retirer les datasets, des donnees obsoletes ou non pertinentes peuvent persister. Cela peut compliquer la prise de decision et mener a des erreurs, comme des previsions inexactes ou une allocation inefficace des ressources.
Comment les donnees synthetiques repondent aux defis des datasets pour l'industrie manufacturiere
Les donnees synthetiques font reference a des informations creees artificiellement plutot qu'issues d'evenements du monde reel. Elles sont generees a l'aide d'algorithmes de deep learning et de techniques telles que la simulation physique et l'IA generative. L'IA generative utilise des architectures comme les generative adversarial networks (GAN) et les variational auto-encoders (VAE) pour generer des donnees synthetiques.
Les donnees synthetiques aident a relever des defis comme la rarete des donnees et les preoccupations de confidentialite dans la fabrication. Les chercheurs peuvent ameliorer leurs modeles de ML en generant des points de donnees artificiels et en fournissant un entrainement et une evaluation plus complets. Cette approche comble les lacunes des datasets existants et aide les organisations a comprendre et a resoudre les defis au sein de leurs processus de fabrication.
Methodes de generation de donnees synthetiques
Differentes methodes de generation de donnees synthetiques sont disponibles pour produire des donnees de haute qualite pour les applications manufacturieres. En voici quelques-unes :
1. Simulation physique
La simulation physique utilise des modeles mathematiques pour reproduire le comportement de systemes et processus physiques. Cette methode genere des donnees synthetiques qui refletent fidelement les phenomenes du monde reel. En manipulant divers parametres et configurations dans la simulation, les fabricants peuvent produire des datasets qui imitent les conditions de leurs environnements de production reels.
Les applications des donnees synthetiques generees par des simulations physiques sont diverses, notamment :
- Classification de donnees multispectrales : Utilisee dans le tri de bouteilles en plastique, permettant des processus de recyclage efficaces.
- Navigation autonome : Implementee dans des environnements industriels non structures en utilisant des plateformes comme Unreal Engine 4, facilitant les operations robotiques.
- Recherche d'assemblage in vitro : ViTroVo utilise les modeles CAD+ et l'environnement virtuel pour generer des images synthetiques afin d'explorer les strategies d'assemblage en fabrication.
2. IA generative
L'IA generative fait reference aux algorithmes qui apprennent a partir de donnees existantes pour creer de nouvelles instances synthetiques qui imitent les caracteristiques et les motifs du dataset original. Cette approche est benefique pour augmenter les datasets et ameliorer les modeles de machine learning.
Voici comment l'IA generative aide :
- Elle ameliore les datasets existants en creant des donnees synthetiques et ameliore les performances du modele grace a l'augmentation de donnees.
- Elle simule divers processus de fabrication, generant des donnees synthetiques qui refletent les conditions reelles pour optimiser les operations.
- L'IA generative aide a entrainer des modeles pour la detection d'anomalies en produisant des exemples de conditions normales et anormales.
Cependant, un inconvenient de cette approche est la nature non deterministe de l'IA generative, ce qui rend difficile le controle coherent de la sortie. Les modeles generatifs peuvent parfois produire des hallucinations, des instances qui ne refletent pas fidelement les donnees sous-jacentes, causant des inexactitudes potentielles.
3. Modelisation a base d'agents (ABM)
L'ABM est une technique de simulation dans laquelle des entites individuelles, appelees agents, sont modelisees pour se comporter selon des regles definies et interagir les unes avec les autres et avec leur environnement. Elle peut generer des donnees synthetiques en simulant les comportements et les interactions au sein d'un systeme de fabrication.
Les donnees synthetiques generees par l'ABM peuvent etre precieuses de plusieurs facons :
- Elles peuvent creer des datasets lorsqu'aucune donnee de source reelle n'est disponible. Certains datasets d'interet potentiel peuvent ne pas exister nulle part ou ne sont pas facilement accessibles.
- Elles peuvent simuler des evenements rares pour augmenter un dataset existant, aidant a ameliorer la robustesse des modeles de ML.
Avantages des donnees synthetiques pour les applications manufacturieres
Les donnees synthetiques ameliorent les performances du modele en fournissant un plus grand ensemble d'echantillons pour l'entrainement, incluant davantage d'exemples de classes minoritaires sous-representees. Cela permet une meilleure generalisation et une plus grande robustesse des modeles de ML.
Les avantages des donnees synthetiques pour les applications manufacturieres incluent :
-
Reduction du temps de collecte des donnees : Les mises a jour logicielles surviennent environ une fois par an dans l'industrie manufacturiere, rendant les donnees precedemment collectees obsoletes. Cela limite les data scientists a une fenetre de six mois pour collecter et analyser suffisamment de donnees. La generation de donnees synthetiques permet une accumulation plus rapide des donnees, fournissant un dataset plus riche en moins de temps.
-
Processus simplifie : Au lieu d'attendre plusieurs mois pour rassembler suffisamment de donnees reelles, les fabricants peuvent collecter des donnees pendant un seul mois puis generer des donnees synthetiques pour les completer. Cela accelere le processus, permettant plus de temps pour l'analyse et les informations precieuses avant la prochaine mise a jour du programme.
-
Augmentation de donnees : Les donnees synthetiques peuvent completer les datasets originaux en introduisant des anomalies, du bruit ou des variations. Cela aide a ameliorer la capacite du modele a gerer une plus large gamme de conditions, comme les pannes de capteurs ou les fluctuations des performances des machines, le rendant plus polyvalent et robuste.
-
Diversite des donnees : Les datasets reels passent souvent a cote de divers scenarios, comme les pannes d'equipement et les inspections par echantillonnage. Les donnees manquantes peuvent causer des conclusions peu fiables et des resultats biaises. Les donnees synthetiques peuvent introduire une gamme plus large de situations, garantissant que le modele est bien prepare pour traiter des inputs divers comme les donnees en temps reel, les metriques de production, etc.
-
Gestion du desequilibre des donnees : Lorsque certaines classes d'un dataset sont sur ou sous-representees, les donnees synthetiques peuvent aider a equilibrer la distribution. Cela garantit que les classes majoritaires et minoritaires sont adequatement representees pour l'entrainement.
-
Confidentialite des donnees : Lorsqu'on travaille avec des informations sensibles, les donnees synthetiques peuvent reproduire les motifs sans reveler de details personnels. Cela permet aux developpeurs et testeurs de modeles d'utiliser les donnees librement tout en maintenant la confidentialite.
Datasets manufacturiers courants
Les donnees de fabrication incluent divers types de donnees et se presentent sous de multiples formats.
Ci-dessous se trouve une liste de datasets manufacturiers publics courants pour construire des modeles optimises.
1. Visual Anomaly Dataset (VisA)
Ce dataset presente plus de 10 000 images de cartes electroniques et d'instruments, incluant des elements normaux et defectueux. Il peut aider les fabricants a detecter les equipements defectueux, les liberant de la necessite de tester manuellement chaque produit fabrique.
2. MVTEC Anomaly Dataset (MVTecAD)
Ce dataset comprend 5 000 images haute resolution pour le benchmarking de la detection d'anomalies dans les inspections industrielles. Il est organise en differentes categories pour que vous puissiez evaluer la precision de vos modeles a reperer les problemes.
3. Personal Protective Equipment (PPE) Dataset
Ce dataset, axe sur la securite au travail, contient pres de 12 000 images d'equipements de protection individuelle. Les data scientists peuvent l'utiliser pour entrainer des modeles de vision par ordinateur a verifier si les travailleurs portent leur equipement de securite. Cela garantit que les travailleurs restent proteges des dangers du lieu de travail meme lorsque les superviseurs ne sont pas presents pour inspecter leur EPI.
4. Casting Product Image Data for Quality Inspection
Cette collection comprend des images de produits avant leur moulage pour identifier les defauts susceptibles de compromettre la qualite. Elle presente plus de 7 000 images categoriees en "Defectueux" et "Ok", aidant a entrainer des modeles pour des controles de qualite preventifs.
5. Synthetic Corrosion Dataset
Ce dataset se concentre sur les tuyaux corrodes, un probleme critique dans la fabrication pouvant entrainer des dommages environnementaux et des pertes de production. Avec 76 images de materiaux corrodes, il peut etre utilise pour developper des modeles qui detectent la corrosion, aidant a la maintenance et au controle qualite.
Cas d'usage reel des donnees synthetiques dans la fabrication
Siemens a developpe SynthAI, une plateforme cloud qui genere des donnees synthetiques pour rationaliser l'entrainement des systemes de vision alimentes par l'IA dans la fabrication. Siemens repond aux defis des methodes traditionnelles de collecte de donnees en generant des images synthetiques de haute qualite a partir de modeles 3D CAD.
L'impact
-
Gain de temps : Les ingenieurs de controle chez Polygon Technologies ont rapporte avoir obtenu des resultats efficaces dans la detection de bornes de fil pour l'assemblage robotique en quelques heures seulement d'utilisation de SynthAI.
-
Efficacite des couts : Le processus de generation automatique d'images minimise le besoin d'une collecte de donnees manuelle extensive. Cela permet aux fabricants de se concentrer sur l'analyse et la mise en oeuvre plutot que sur la collecte de donnees.
-
Flexibilite accrue : La plateforme permet aux fabricants d'adapter rapidement leurs systemes de vision a de nouvelles taches en generant rapidement des donnees d'entrainement diversifiees. Cela ameliore les performances et la fiabilite des systemes robotiques.
Construisez des datasets de haute qualite avec Picsellia
Les entreprises manufacturieres luttent avec une gestion fragmentee des donnees et des processus inefficaces pour la creation et l'annotation de datasets. Cela conduit souvent a des retards dans l'entrainement des modeles, des couts plus eleves et une productivite reduite.
Picsellia repond a ces defis avec une suite complete d'outils pour une gestion efficace des donnees et la creation de datasets de haute qualite. Avec des outils d'annotation et d'etiquetage alimentes par l'IA, vous pouvez rapidement generer des datasets etiquetes de haute qualite tout en reduisant le temps et l'effort requis pour l'annotation manuelle. De plus, la fonctionnalite de controle de version de Picsellia permet aux equipes de suivre les modifications et de maintenir l'integrite des donnees.
Ne laissez pas les problemes de gestion des donnees freiner vos processus de fabrication. Obtenez une demo gratuite aujourd'hui pour decouvrir comment Picsellia peut transformer votre gestion des donnees et l'entrainement de vos modeles de vision par ordinateur.
Suggestions Picsellia
Orchestrez l'annotation a grande echelle
Lancez des campagnes d'annotation multi-etapes avec controle qualite integre, gestion d'equipe et suivi de progression.
Decouvrir les campagnes d'annotationLivrez de l'IA visuelle 10x plus vite
Picsellia est la plateforme MLOps de bout en bout pour la vision par ordinateur — de la gestion des donnees au deploiement en production.
Voir la plateformeRestez informe
Recevez les derniers articles sur la vision par ordinateur, le MLOps et l'IA directement dans votre boite mail.
Articles associes

De la vision par ordinateur à l'Industrie 4.0 : comment Scortex façonne l'inspection visuelle automatisée
Découvrez comment Scortex exploite l'IA et la vision par ordinateur pour l'inspection visuelle automatisée, de la détection de défauts à la détection d'anomalies et aux informations en temps réel.

Maîtriser l'annotation de données pour les projets d'IA en 2025
Cet article aborde l'importance de l'annotation de données en IA ainsi que les bonnes pratiques et stratégies pour surmonter les obstacles du labelling.

Tendances 2025 en vision par ordinateur : à quoi s'attendre
Découvrez les tendances à venir en vision par ordinateur pour 2025.