L'équipe de l'Illinois remporte le premier prix du concours OpenCV AI

Aug 15, 2023

09/08/2023

Debra Levey Larson

La création manuelle d’un ensemble de données d’images étiquetées est coûteuse et nécessite beaucoup d’efforts. Motivée pour réduire ces deux facteurs, une équipe de quatre étudiants de l'Université de l'Illinois à Urbana-Champaign a développé une solution qui automatise le processus de génération et d'annotation des données pour la formation de modèles de vision par ordinateur basés sur l'apprentissage profond.

L’équipe a remporté cette année le premier prix du Core Track du concours OpenCV AI 2022. Leur logiciel appelé COCOpen suit l'approche d'étiquetage d'images introduite dans l'ensemble de données Microsoft « Common Objects in Context ».

Le logiciel qu'ils ont créé produit des données d'image utilisées pour entraîner des modèles permettant d'identifier et de décrire des objets spécifiques dans une scène pouvant contenir plusieurs objets de la même catégorie.

Dans l'exemple de cas d'utilisation de leur référentiel de code, ils génèrent des images qui contiennent plusieurs objets des catégories de périphériques filaires et Ethernet. Ces images synthétiques peuvent être utilisées pour entraîner un modèle d'apprentissage profond afin de détecter ces catégories d'objets sur de nouvelles images que le modèle n'a jamais vues auparavant.

La création et l'étiquetage automatisés de ces images de formation réduisent considérablement le temps et les dépenses associés à ce processus. Le code peut être utilisé dans diverses applications telles que la fabrication, la logistique, la conduite autonome et les services domestiques.

Holly Dinkel , un doctorat. étudiant au Département de génie aérospatial de l'UIUC, a expliqué que COCOpen fonctionne en prenant des images simples et non étiquetées d'objets uniques sur un fond noir.

Le logiciel utilise OpenCV pour créer des masques pour ces objets individuels en fonction de leur couleur. Il combine ensuite plusieurs images d'objets en une seule image à l'aide de la méthode copier-coller d'augmentation des données. De plus, OpenCV est utilisé pour appliquer des améliorations, notamment la randomisation de l'orientation d'un objet ou la modification de sa couleur.

Les données générées par la bibliothèque COCOpen sont validées par la formation d'un modèle Detectron2 Mask R-CNN pour détecter les fils Ethernet et les périphériques réseau pour une application de manipulation robotique.

Yash Rathod, étudiant au Département d'informatique, a déclaré que sa vision pour COCOpen était de prendre la recherche d'un laboratoire et de créer une expérience de génération de données conviviale pour les praticiens de l'apprentissage automatique.

"L'idée était de créer un pipeline dans lequel nous extrayons des milliers d'images du cloud, les prétraitons et appliquons les techniques de génération de données étudiées en laboratoire, pour produire des données au format COCO prêtes à entraîner des modèles de vision par ordinateur", a-t-il déclaré.

Rathod a utilisé son expérience d'un semestre avec le programme de promotion de la recherche de premier cycle en ingénierie à l'UIUC pour développer et tester des logiciels d'interface avec les ressources de stockage de données cloud, à l'origine Microsoft Azure, puis Box.

« La génération automatisée de données signifie que les utilisateurs peuvent simplement cloner un référentiel de code et suivre des instructions d'installation et d'exécution minimales. Nous voulons faire gagner du temps aux utilisateurs et économiser de précieuses ressources de calcul en tirant parti du cloud », a déclaré Rathod.

Harry Zhao , qui a obtenu en mai dernier un baccalauréat en génie aérospatial, a souligné la capacité de COCOpen à résoudre des problèmes réels de vision par ordinateur en utilisant OpenCV avec des applications dans de nombreuses disciplines. Parmi les 45 autres candidatures dans leur catégorie figuraient des solutions à des défis médicaux, environnementaux et de construction.

"La création de l'ensemble de données Microsoft COCO original a nécessité 55 000 heures de travail au total, pas toutes par une seule personne bien sûr", a déclaré Zhao. « Mais il peut y avoir beaucoup d’incohérences. Certaines étiquettes peuvent être inexactes et doivent être rejetées ou affinées, ce qui fait perdre encore plus de temps. COCOpen met les données dans un format que les gens peuvent utiliser pour générer automatiquement des étiquettes dans les images.

Zhao a déclaré que COCOpen s'inspire du code et des données que lui et Dinkel ont créés il y a deux ans lors de son stage au sein du programme d'opportunités de recherche de premier cycle de l'Illinois Space Grant Consortium.

À propos de la complexité de l'étiquetage, Zhao a déclaré : « Si nous nous souciions uniquement de détecter ou de classer les fils, nous dirions simplement : ceci est un fil et ceci n'est pas un fil. C'est zéro ou un. Binaire. La segmentation sémantique consiste à savoir ce que représentent les pixels.

Précédent: L'inventeur du Flyboard a construit un « scooter aérien » que tout le monde peut piloter Suivant: Créer la magie du service client IA

Envoyer une demande

Envoyer