Dans un monde en constante évolution technologique, Apple redécouvre une technique d’IA oubliée pour générer des images. Cette approche innovante, ancrée dans les années 80, pourrait révolutionner le secteur, conjuguant art et science. Avec des applications potentielles dans la réalité augmentée et le design, l’avenir s’annonce prometteur.

Qu’est-ce que les Normalizing Flows ?
Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données du monde réel, comme des images, en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. L’un des grands avantages de cette méthode réside dans sa capacité à calculer la probabilité exacte de chaque image générée, une propriété que les modèles de diffusion ne possèdent pas.
Si les Normalizing Flows sont peu connus, c’est en partie à cause des limitations des modèles antérieurs, qui produisaient souvent des images floues ou manquant de détails comparés aux systèmes basés sur la diffusion ou les transformateurs.
Étude n°1 : TarFlow
Dans l’article intitulé « Normalizing Flows are Capable Generative Models« , Apple introduit un nouveau modèle appelé TarFlow, abréviation de Transformer AutoRegressive Flow. TarFlow remplace les anciennes couches artisanales utilisées dans les modèles de flux précédents par des blocs de transformateurs.
Ce modèle divise les images en petits patches, générant ces derniers par blocs, chaque bloc étant prédit en fonction de ceux qui l’ont précédé. Cela correspond à ce que l’on appelle l’approche autoregressive, semblable à celle utilisée par OpenAI pour la génération d’images. Une distinction majeure réside dans le fait qu’Apple génère directement des valeurs de pixels, sans tokeniser l’image au préalable, permettant ainsi d’atteindre une meilleure qualité sans pertes associées.

Cependant, des limitations demeurent, notamment lors de l’augmentation des images à haute résolution. C’est dans ce contexte qu’intervient la seconde étude.
Étude n°2 : STARFlow
Dans le document intitulé « STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis« , Apple bâtit directement sur TarFlow pour présenter STARFlow (Scalable Transformer AutoRegressive Flow)/. L’une des principales innovations ici est que STARFlow ne génère plus les images directement dans l’espace pixel.
Au lieu de cela, il opère sur une version compressée de l’image, avant de confier le traitement à un décodeur qui rétablit le tout à la résolution complète. Ce passage à l’espace latent vise à concentrer l’apprentissage sur la structure d’image plus large, en laissant les détails fins aux soins du décodeur.

Une autre amélioration majeure concerne la gestion des invites textuelles. Plutôt que de développer un encodeur de texte distinct, STARFlow a été conçu pour se connecter aux modèles de langage existants, comme le modèle linguistique de petite taille Gemma de Google, pour gérer la compréhension linguistique lorsque l’utilisateur demande la création d’une image. Cela permet de maintenir le focus sur les détails visuels.
Comparaison entre STARFlow et le générateur d’images GPT-4o d’OpenAI
Tandis qu’Apple réexamine les flux, OpenAI a également récemment évolué au-delà de la diffusion avec son modèle GPT-4o. Néanmoins, leur approche reste fondamentalement différente. GPT-4o traite les images comme des séquences de tokens discrets, semblables aux mots dans une phrase.
Lorsque l’on demande à ChatGPT de créer une image, le modèle prédit un token à la fois, construisant l’image petit à petit. Cela offre à OpenAI une flexibilité énorme, permettant au même modèle de générer du texte, des images et de l’audio. Cependant, cette méthode de génération par token peut être lente, surtout pour des images de grande taille.
En résumé, bien qu’Apple et OpenAI avancent dans de nouvelles directions, leurs objectifs diffèrent. Apple semble se concentrer sur le développement de technologies destinées à des applications locales, tandis qu’OpenAI construit pour des centres de données situés dans le cloud.
Qu’est-ce que les Normalizing Flows ?
Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données du monde réel (comme des images) en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. Leur grand avantage est qu’ils peuvent calculer la probabilité exacte de chaque image qu’ils génèrent.
Qu’est-ce que TarFlow ?
TarFlow est un nouveau modèle d’Apple qui remplace les anciennes couches fabriquées à la main utilisées dans les modèles de flow précédents par des blocs de Transformer. Il génère des images en blocs, chaque bloc étant prédit en fonction de ceux qui l’ont précédé, permettant ainsi une génération plus efficace et de qualité supérieure.
Comment STARFlow fonctionne-t-il ?
STARFlow travaille sur une version compressée de l’image, puis transmet le tout à un décodeur qui upscale tout à la résolution finale. Cela permet à STARFlow de se concentrer sur la structure globale de l’image, tout en laissant les détails fins au décodeur.
Comment STARFlow se compare-t-il au générateur d’images d’OpenAI ?
Alors qu’Apple repense les flows, OpenAI a également évolué avec son modèle GPT-4o. Cependant, leur approche est fondamentalement différente, car GPT-4o traite les images comme des séquences de tokens discrets, ce qui peut ralentir le processus et être coûteux en termes de calcul.

Bonjour, je m’appelle Manu Dibango et j’ai 37 ans. Cadre supérieur dans l’administration, je suis passionné par la gestion et l’organisation. Bienvenue sur Camernews où je partage ma veille sur les nouvelles technologies et l’innovation.