Apple Réinvente le Futur : Découvrez Comment une Technique d’IA Oubliée Transforme la Création d’Images !

Dans un monde en constante évolution technologique, redécouvre une technique d’IA oubliée pour générer des images. Cette approche innovante, ancrée dans les années 80, pourrait révolutionner le secteur, conjuguant et science. Avec des applications potentielles dans la réalité augmentée et le design, l’avenir s’annonce prometteur.

Qu’est-ce que les Normalizing Flows ?

Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données du monde réel, comme des images, en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. L’un des grands avantages de cette méthode réside dans sa capacité à calculer la probabilité exacte de chaque image générée, une propriété que les modèles de diffusion ne possèdent pas.

Si les Normalizing Flows sont peu connus, c’est en partie à cause des limitations des modèles antérieurs, qui produisaient souvent des images floues ou manquant de détails comparés aux systèmes basés sur la diffusion ou les transformateurs.

Étude n°1 : TarFlow

Dans l’article intitulé « Normalizing Flows are Capable Generative Models« , Apple introduit un nouveau modèle appelé TarFlow, abréviation de Transformer AutoRegressive Flow. TarFlow remplace les anciennes couches artisanales utilisées dans les modèles de flux précédents par des blocs de transformateurs.

Ce modèle divise les images en petits patches, générant ces derniers par blocs, chaque bloc étant prédit en fonction de ceux qui l’ont précédé. Cela correspond à ce que l’on appelle l’approche autoregressive, semblable à celle utilisée par OpenAI pour la génération d’images. Une distinction majeure réside dans le fait qu’Apple génère directement des valeurs de pixels, sans tokeniser l’image au préalable, permettant ainsi d’atteindre une meilleure qualité sans pertes associées.

Vous aimerez aussi :  Apple Tax : La Vengeance de Trump contre Cook pour Son Voyage Manqué au Moyen-Orient !
Image: Apple
Images générées par les modèles TarFlow. Source : Normalizing Flows are Capable Generative Models

Cependant, des limitations demeurent, notamment lors de l’augmentation des images à haute résolution. C’est dans ce contexte qu’intervient la seconde étude.

Étude n°2 : STARFlow

Dans le document intitulé « STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis« , Apple bâtit directement sur TarFlow pour présenter STARFlow (Scalable Transformer AutoRegressive Flow)/. L’une des principales innovations ici est que STARFlow ne génère plus les images directement dans l’espace pixel.

Au lieu de cela, il opère sur une version compressée de l’image, avant de confier le traitement à un décodeur qui rétablit le tout à la résolution complète. Ce passage à l’espace latent vise à concentrer l’apprentissage sur la structure d’image plus large, en laissant les détails fins aux soins du décodeur.

Image: Apple
Échantillons aléatoires de STARFlow. Source : STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Une autre amélioration majeure concerne la gestion des invites textuelles. Plutôt que de développer un encodeur de texte distinct, STARFlow a été conçu pour se connecter aux modèles de langage existants, comme le modèle linguistique de petite taille Gemma de , pour gérer la compréhension linguistique lorsque l’utilisateur demande la création d’une image. Cela permet de maintenir le focus sur les détails visuels.

Comparaison entre STARFlow et le générateur d’images GPT-4o d’OpenAI

Tandis qu’Apple réexamine les flux, OpenAI a également récemment évolué au-delà de la diffusion avec son modèle GPT-4o. Néanmoins, leur approche reste fondamentalement différente. GPT-4o traite les images comme des séquences de tokens discrets, semblables aux mots dans une phrase.

Lorsque l’on demande à ChatGPT de créer une image, le modèle prédit un token à la fois, construisant l’image petit à petit. Cela offre à OpenAI une flexibilité énorme, permettant au même modèle de générer du texte, des images et de l’audio. Cependant, cette méthode de génération par token peut être lente, surtout pour des images de grande taille.

Vous aimerez aussi :  Découvrez les Nouvelles Fonctionnalités Étonnantes d’iOS 18.5 Beta 2 d'Apple !

En résumé, bien qu’Apple et OpenAI avancent dans de nouvelles directions, leurs objectifs diffèrent. Apple semble se concentrer sur le développement de technologies destinées à des applications locales, tandis qu’OpenAI construit pour des centres de données situés dans le cloud.

Qu’est-ce que les Normalizing Flows ?

Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données du monde réel (comme des images) en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. Leur grand avantage est qu’ils peuvent calculer la probabilité exacte de chaque image qu’ils génèrent.

Qu’est-ce que TarFlow ?

TarFlow est un nouveau modèle d’Apple qui remplace les anciennes couches fabriquées à la main utilisées dans les modèles de flow précédents par des blocs de Transformer. Il génère des images en blocs, chaque bloc étant prédit en fonction de ceux qui l’ont précédé, permettant ainsi une génération plus efficace et de qualité supérieure.

Comment STARFlow fonctionne-t-il ?

STARFlow travaille sur une version compressée de l’image, puis transmet le tout à un décodeur qui upscale tout à la résolution finale. Cela permet à STARFlow de se concentrer sur la structure globale de l’image, tout en laissant les détails fins au décodeur.

Comment STARFlow se compare-t-il au générateur d’images d’OpenAI ?

Alors qu’Apple repense les flows, OpenAI a également évolué avec son modèle GPT-4o. Cependant, leur approche est fondamentalement différente, car GPT-4o traite les images comme des séquences de tokens discrets, ce qui peut ralentir le processus et être coûteux en termes de calcul.

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use
Add a comment Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Previous Post

Découvrez la Nouvelle Fonctionnalité d’AirTag : JetBlue Prend le Devant, Voici Pourquoi Ça Va Tout Changer !

Next Post

Sylvia Bréger décode la gestuelle et le langage non verbal dans une interview révélatrice