Dans le domaine de l’édition d’images numériques, la récente présentation par Apple du système MGIE (Multimodal Large Language Model-Guided Image Editing) marque une étape importante. Cet outil d’IA de pointe exploite les capacités des grands modèles de langage pour interpréter et exécuter des modifications d’images complexes basées sur des instructions, offrant ainsi aux utilisateurs un niveau de contrôle et de flexibilité sans précédent. L’approche innovante de MGIE combine la puissance des entrées textuelles et visuelles pour faciliter les ajustements de type Photoshop, les améliorations globales des photos et les modifications locales précises avec une efficacité remarquable.
Apple MGIE
Le développement de MGIE incarne l’engagement d’Apple à repousser les limites de la technologie et de la créativité, en fournissant une plateforme qui non seulement simplifie les tâches d’édition sophistiquées, mais encourage également la collaboration et l’innovation au sein de la communauté open-source. En intégrant des techniques d’apprentissage multimodal, MGIE améliore considérablement les systèmes de retouche d’images précédents, en permettant des interprétations plus expressives et plus précises des instructions de l’utilisateur. Il offre une concurrence open source à des systèmes tels que Midjourney et DallE 3 d’OpenAI.
Éditeur d’images open source
Ces dernières années, le croisement de l’intelligence artificielle et des outils de création a conduit à des avancées révolutionnaires dans la manière dont nous interagissons avec les médias numériques. L’introduction par Apple du système MGIE témoigne de cette transformation en cours, établissant une nouvelle norme pour la créativité alimentée par l’IA.
MGIE (MLLM-Guided Image Editing) est un modèle d’IA open-source développé en collaboration avec des chercheurs de l’université de Californie. Ce modèle, qui se distingue par sa capacité à effectuer des manipulations d’images complexes sur la base d’instructions en langage naturel, s’appuie sur des modèles multimodaux à grand langage (MLLM) pour interpréter avec précision les demandes des utilisateurs. MGIE permet d’effectuer un large éventail de modifications, depuis les améliorations globales des photos, comme le réglage de la luminosité et du contraste, jusqu’aux modifications locales et aux modifications de type Photoshop, comme le recadrage, le redimensionnement et l’ajout de filtres.
iOS 18
Sa capacité à comprendre et à exécuter des commandes telles que l’amélioration de la santé d’une pizza ou la modification de la mise au point d’une photo témoigne de son bon sens avancé et de ses compétences en matière de manipulation au niveau du pixel. Le développement de MGIE, présenté lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024 et disponible sur GitHub, représente une avancée majeure dans la recherche sur l’IA pour Apple, suivant de près d’autres projets d’IA importants et l’anticipation de fonctionnalités d’IA générative dans iOS 18.
MGIE représente un pont entre les capacités avancées de l’IA et l’édition d’images conviviale, permettant une pléthore de modifications allant de l’amélioration globale des photos, comme les ajustements de luminosité, de contraste et de netteté, à des éditions locales plus ciblées qui peuvent modifier la forme, la taille, la couleur ou la texture d’éléments spécifiques de l’image. En outre, il excelle dans les opérations de type Photoshop, notamment le recadrage, le redimensionnement, la rotation et l’application de divers filtres, offrant ainsi aux utilisateurs un niveau de contrôle sans précédent sur leurs environnements numériques.
Édition d’images multimodale guidée par un modèle de langage étendu
L’un des aspects les plus remarquables du MGIE est sa capacité à raisonner avec bon sens, qui lui permet d’effectuer des tâches telles que l’ajout de garnitures végétales à une pizza pour la faire paraître plus saine ou l’amélioration du contraste d’une photo pour simuler une lumière supplémentaire. Ce niveau de fonctionnement intuitif ouvre la voie à une édition d’images plus créative et personnalisée, repoussant les limites de ce qui peut être réalisé avec la technologie de l’IA.
La collaboration avec l’Université de Californie et la présentation de MGIE à la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024 marquent une étape importante dans les efforts de recherche d’Apple en matière d’IA. Disponible sur GitHub, MGIE invite à poursuivre l’exploration et le développement, en donnant accès à son code, à ses données et à ses modèles pré-entraînés à l’ensemble des communautés scientifiques et créatives.
Recherche sur la génération et la manipulation d’images par l’IA
Cette initiative s’inscrit dans le cadre de l’engagement plus large d’Apple en faveur de la recherche sur l’IA, comme en témoignent ses récentes réalisations en matière de déploiement de grands modèles de langage sur les iPhones et d’autres appareils à mémoire limitée. Le développement d’un rival « Apple GPT » et le cadre « Ajax » pour les grands modèles de langage soulignent l’engagement de l’entreprise à faire progresser la technologie de l’IA. En outre, l’anticipation des fonctions d’IA générative dans iOS 18, y compris une version améliorée de Siri avec une fonctionnalité de type ChatGPT, signale un changement important dans la façon dont l’IA s’intégrera dans les appareils de tous les jours, marquant potentiellement la « plus grande » mise à jour logicielle dans l’histoire de l’iPhone selon les analystes de l’industrie.
MGIE n’est pas seulement un outil, mais aussi un signe avant-coureur de l’avenir de la créativité numérique, car il fait le lien entre l’innovation technologique et l’expression artistique. Son développement et sa diffusion en code source libre soulignent la vision d’Apple d’un monde où la technologie sert non seulement à améliorer la productivité, mais aussi à favoriser la créativité et l’expression personnelle grâce à des outils intuitifs, accessibles et puissants. Au fur et à mesure de son évolution, MGIE devrait redéfinir le paysage de l’édition d’images, en rendant accessible à un plus large public la manipulation avancée d’images pilotée par l’IA et en encourageant une nouvelle ère d’art numérique.
Lire plus Guide:
- Ce qu’Apple prévoit pour ses iPads
- Siri d’Apple contre Apple Intelligence
- Apple met à la disposition des développeurs la version 17.1 Release Candidate d’iOS
- L’anneau d’Apple : est-ce la prochaine grande nouveauté en matière de technologie portable ?
- Apple lance iOS 17.1.1 et iPadOS 17.1.1
- Les nouveaux iPads d’Apple lancés en mars 2024