L’émergence de modèles de vision libres a révolutionné le domaine de la vision artificielle et de l’interprétation d’images. Deux exemples notables sont Phi 3 Vision de Microsoft et Llama 3 de Meta. Ces outils puissants sont conçus pour s’attaquer à un large éventail de tâches, allant de la génération de simples descriptions d’images à la réalisation d’analyses d’images complexes.
Si vous souhaitez en savoir plus sur les différents modèles d’IA disponibles et sur leurs performances lors de tests d’analyse visuelle, vous serez heureux d’apprendre que Matthew Berman a réalisé plusieurs tests et observations pour votre plus grand plaisir. Il a comparé les performances de ces modèles de vision artificielle à celles du célèbre GPT-4 dans diverses tâches d’interprétation d’images afin d’évaluer leur efficacité et d’identifier leurs points forts et leurs limites.
Description d’images par la vision artificielle
L’une des principales tâches des modèles de vision est de fournir des descriptions précises et détaillées des images. Voyons comment chaque modèle se comporte à cet égard :
- Phi 3 Vision excelle dans la fourniture de descriptions rapides et précises. Il peut décrire une scène avec des détails précis, en capturant les éléments essentiels de l’image.
- Llama 3 avec Llama 3 adopte une approche plus artistique, offrant des descriptions détaillées et créatives qui ajoutent une touche unique à ses interprétations.
- Le GPT-4, bien que plus lent que les autres modèles, démontre sa précision en identifiant correctement des objets spécifiques dans une image, comme un lama.
Identification des personnes
Reconnaître des individus spécifiques à partir d’images est une tâche difficile pour les modèles de vision. Dans nos tests, aucun des modèles n’a pu identifier Bill Gates à partir d’une image, ce qui met en évidence une limitation courante dans ce domaine. Cela indique que des progrès supplémentaires sont nécessaires pour améliorer la capacité des modèles à reconnaître et à identifier des individus spécifiques avec précision.
Reconnaissance des CAPTCHA
La reconnaissance CAPTCHA est une tâche importante qui permet de tester la robustesse des modèles de vision. Voici les performances de chaque modèle :
- Phi 3 Vision a identifié avec succès le CAPTCHA et les lettres, démontrant ainsi ses excellentes performances dans cette tâche.
- Llama 3 avec Llama 3 a fourni des résultats partiellement corrects, montrant une certaine capacité mais n’atteignant pas une précision totale.
- GPT-4 a d’abord échoué, mais a réussi lors d’une deuxième tentative, démontrant ainsi sa capacité d’apprentissage et d’adaptation.
Descriptions d’images complexes
Lorsqu’il s’agit d’analyser des images complexes et de fournir des descriptions détaillées, les modèles présentent des forces différentes :
- Phi 3 Vision et Llama 3 with Llama 3 excellent dans la production de descriptions complètes, démontrant leur compétence dans l’analyse d’images complexes.
- Le modèle GPT-4 fournit des descriptions précises mais moins détaillées, trouvant un équilibre entre exactitude et concision.
Paramètres de stockage de l’iPhone
L’interprétation des paramètres de stockage d’un iPhone à partir d’une image est une tâche pratique qui met à l’épreuve la capacité des modèles à extraire des informations pertinentes. Les résultats sont les suivants :
- Phi 3 Vision fournit des informations précises et détaillées sur les paramètres de stockage de l’iPhone, démontrant ainsi son efficacité dans ce domaine.
- Llama 3 avec Llama 3 peine à fournir des détails spécifiques, ce qui indique une lacune dans ses performances pour cette tâche particulière.
- GPT-4 surpasse les autres modèles en fournissant des informations complètes et précises sur les paramètres de stockage de l’iPhone.
Lecture des codes QR
L’extraction d’informations à partir de codes QR est une autre application pratique des modèles de vision. Cependant, les trois modèles n’ont pas réussi à extraire l’URL d’un code QR, ce qui révèle une limitation commune qui doit être prise en compte dans les futures itérations de ces modèles.
Explication des mèmes
La compréhension et l’explication des mèmes nécessitent une combinaison de perception visuelle et de connaissances contextuelles. Voyons comment les modèles gèrent cette tâche :
- Phi 3 Vision fournit une explication incorrecte, manquant le contexte et ne parvenant pas à saisir le sens du mème.
- Llama 3 avec Llama 3 offre une explication descriptive mais manque de précision, ce qui indique une compréhension partielle du mème.
- GPT-4 démontre ses capacités en donnant une explication correcte et perspicace, démontrant ainsi sa capacité à comprendre les mèmes de manière efficace.
Conversion de tableaux en fichiers CSV
La conversion de données tabulaires d’une image au format CSV est une fonctionnalité précieuse des modèles de vision. Voici les performances de chaque modèle :
- Phi 3 Vision excelle dans cette tâche, fournissant une conversion rapide et précise, démontrant son efficacité dans le traitement des données structurées.
- Llama 3 avec Llama 3 ne parvient pas à convertir le tableau en CSV, ce qui indique une limitation de ses capacités de traitement des données.
- GPT-4 va plus loin en créant un fichier CSV téléchargeable, démontrant ainsi son utilité pratique dans l’extraction et la manipulation de données.
Performances globales et tests futurs
Sur la base de notre analyse comparative, Phi 3 Vision apparaît comme le modèle le plus impressionnant dans l’ensemble, excellant dans de multiples tâches et démontrant sa polyvalence. Llama 3 obtient de bons résultats initiaux, mais il éprouve des difficultés dans certaines tâches, ce qui indique qu’il y a des points à améliorer. Le GPT-4 présente des résultats mitigés, certaines tâches étant exceptionnellement bien exécutées alors que d’autres ne le sont pas.
Pour mieux évaluer les capacités et les limites de ces modèles de vision, nous vous encourageons à proposer d’autres façons de les tester. En élargissant l’éventail des tâches et des scénarios, nous pourrons mieux comprendre leurs forces et leurs faiblesses, ce qui nous aidera à sélectionner l’outil le plus adapté à des besoins spécifiques d’interprétation d’images par l’IA.
En conclusion, l’émergence de modèles de vision open-source tels que Phi 3 Vision et Llama 3 avec Llama 3 a ouvert de nouvelles possibilités dans l’interprétation d’images par l’IA. En comparant leurs performances à celles du GPT-4, nous pouvons évaluer leur efficacité et identifier les domaines à améliorer. Comme ces modèles continuent d’évoluer, nous pouvons nous attendre à des capacités encore plus avancées à l’avenir, révolutionnant la façon dont nous analysons et comprenons les données visuelles.
Crédit vidéo : Source
Lire plus Guide:
- Test de performance et démonstration pratique du Llama 3
- Llama 3 sur Groq Cloud offre des vitesses d’inférence incroyables
- ChatGPT-4o vs Google Gemini 1.5 Pro
- Comment créer des applications avec les agents d’intelligence artificielle Llama 3 – Guide du débutant
- Comment installer Llama 3 8B AI localement sur votre PC ou réseau domestique
- La nouvelle mise à jour d’Ollama ajoute le Llama 3, la possibilité de poser plusieurs questions à la fois et plus encore.