Révélations Choquantes : Un Nouveau Document Conteste l’Étude sur l’'Effondrement du Raisonnement' des LLM d’Apple !

Un nouvel article remet en question l’étude d’Apple sur l’effondrement du raisonnement des modèles linguistiques. Cette analyse soulève des préoccupations sur la robustesse des systèmes d’intelligence artificielle, mettant en lumière l’importance croissante de la recherche en IA dans un paysage technologique en rapide évolution.

L'enquête d'Apple sur l'intelligence artificielle est futile, mais nous allons la financer

Le récent article de recherche d’Apple, intitulé « L’Illusion de la Pensée« , a suscité des débats en raison de sa conclusion sans détour : même les modèles de raisonnement de grande taille (LRMs) les plus avancés s’effondrent sur des tâches complexes. Toutefois, cette interprétation ne fait pas l’unanimité.

Aujourd’hui, Alex Lawsen, chercheur chez Open Philanthropy, a publié une réfutation détaillée soutenant que de nombreuses conclusions attirant l’attention d’Apple reposent sur des défauts de conception expérimentale plutôt que sur de réelles limites de raisonnement. Cet article souligne également le modèle Claude Opus d’Anthropic en tant que co-auteur.

La réfutation : Moins d’“illusion de pensée”, plus d’“illusion d’évaluation”

La critique de Lawsen, judicieusement intitulée « L’Illusion de l’Illusion de la Pensée », ne nie pas que les LRMs actuels ont des difficultés avec des énigmes de planification complexes. Cependant, il soutient que l’article d’Apple confond les contraintes pratiques de sortie et les configurations d’évaluation défaillantes avec un échec réel de raisonnement.

Voici les trois principaux problèmes soulevés par Lawsen :

Les limites de budget de tokens ont été ignorées dans l’interprétation d’Apple :
Au moment où Apple affirme que les modèles « s’effondrent » sur les énigmes de la Tour de Hanoi avec plus de 8 disques, des modèles comme Claude étaient déjà en train de rencontrer leurs plafonds de sortie de tokens. Lawsen cite des sorties réelles où les modèles déclarent explicitement : « Le motif continue, mais je vais m’arrêter ici pour économiser des tokens. »
Des énigmes impossibles ont été comptées comme des échecs :
Le test de traversée de la rivière d’Apple a apparemment inclus des cas d’énigmes impossibles (par exemple, 6+ paires acteur/agent avec une capacité de bateau qui ne peut mathématiquement pas transporter tout le monde sous les contraintes données). Lawsen souligne que les modèles ont été pénalisés pour avoir reconnu cela et avoir refusé de les résoudre.
Les scripts d’évaluation ne distinguaient pas échec de raisonnement et troncature de sortie :
Apple a utilisé des pipelines automatisés qui jugeaient les modèles uniquement par des listes de mouvements complètes et énumérées, même dans les cas où la tâche dépasserait la limite de tokens. Lawsen soutient que cette évaluation rigide a classé injustement les sorties partielles ou stratégiques comme des échecs totaux.

Vous aimerez aussi : Découvrez le Meilleur iPad pour Vous : Les Conseils Incontournables d'Apple!

Tests alternatifs : Laisser le modèle écrire du code à la place

Pour appuyer son argument, Lawsen a refait une partie des tests de la Tour de Hanoi en utilisant un format différent : demander aux modèles de générer une fonction Lua récursive qui imprime la solution au lieu de lister de manière exhaustive tous les mouvements.

Le résultat ? Des modèles comme Claude, Gemini et o3 d’OpenAI n’ont rencontré aucun problème pour produire des solutions algorithmiquement correctes pour des problèmes de Hanoi à 15 disques, bien au-delà de la complexité où Apple a rapporté zéro succès.

La conclusion de Lawsen : Lorsque l’on supprime les contraintes artificielles de sortie, les LRMs semblent parfaitement capables de raisonner sur des tâches de haute complexité, du moins en termes de génération d’algorithmes.

Pourquoi ce débat est important

À première vue, cela peut sembler être une simple critique du domaine de la recherche en IA. Cependant, les enjeux ici sont bien plus importants. L’article d’Apple a été largement cité comme preuve que les LLMs actuels manquent fondamentalement de capacité de raisonnement évolutive, ce qui, comme je l’ai soutenu, pourrait ne pas avoir été la façon la plus juste de cadrer l’étude dès le départ.

La réfutation de Lawsen suggère que la vérité pourrait être plus nuancée : oui, les LLMs luttent avec l’énumération de tokens sur le long terme sous les contraintes de déploiement actuelles, mais leurs moteurs de raisonnement ne sont peut-être pas aussi fragiles que l’article original l’implique. Ou, mieux encore, que beaucoup ont dit qu’ils impliquaient.

Bien sûr, rien de tout cela ne dédouane les LRMs. Même Lawsen reconnaît que la véritable généralisation algorithmique reste un défi, et ses re-tests sont encore préliminaires. Il formule également des suggestions pour les futures travaux sur le sujet :

Concevoir des évaluations qui distinguent entre les capacités de raisonnement et les contraintes de sortie.

Vérifier la solvabilité des énigmes avant d’évaluer la performance du modèle.

Utiliser des métriques de complexité qui reflètent la difficulté computationnelle, et pas seulement la longueur de la solution.

Considérer plusieurs représentations de solution pour séparer la compréhension algorithmique de l’exécution.

La question n’est pas de savoir si les LRMs peuvent raisonner, mais si nos évaluations peuvent distinguer le raisonnement de la simple saisie.

Vous aimerez aussi : Pourquoi le nouveau nom de l'OS d'Apple pourrait rendre l'‘iPhone 17’ totalement déroutant !

Ref : MIT Technology Review

Qu’est-ce que le rapport de recherche d’Apple sur l’IA ?

Le rapport de recherche d’Apple, intitulé « L’Illusion de la Pensée », conclut que même les modèles de raisonnement avancés échouent sur des tâches complexes.

Quels sont les principaux arguments de la réfutation d’Alex Lawsen ?

Lawsen conteste que les limites des budgets de jetons n’ont pas été prises en compte, que des énigmes impossibles ont été comptées comme des échecs et que les scripts d’évaluation n’ont pas distingué entre l’échec de raisonnement et la troncation de la sortie.

Comment Lawsen propose-t-il de tester les modèles différemment ?

Lawsen suggère de laisser les modèles générer du code, comme une fonction Lua récursive, pour prouver leurs capacités de raisonnement au lieu de lister toutes les étapes.

Pourquoi ce débat est-il important ?

Ce débat souligne l’importance des méthodes d’évaluation et leur impact sur la perception des capacités des modèles de langage, indiquant que les LLMs peuvent ne pas être aussi limités que le rapport d’Apple le suggère.

Manu Dibango

Bonjour, je m’appelle Manu Dibango et j’ai 37 ans. Cadre supérieur dans l’administration, je suis passionné par la gestion et l’organisation. Bienvenue sur Camernews où je partage ma veille sur les nouvelles technologies et l’innovation.

Révélations Choquantes : Un Nouveau Document Conteste l’Étude sur l’’Effondrement du Raisonnement’ des LLM d’Apple !

Tesla Attire un Talent Phare : Un Scientifique d’Apple Rejoint l’Équipe Optimus

Tesla Adopte Apple CarPlay : Pourquoi Android Reste à l’Écart !

Tesla Owners Unveil Intriguing Theory Linking Apple CarPlay to EV Tax Credits!