Comparaison Choc : L'Intelligence Artificielle de Transcription d'Apple Face à Whisper et Parakeet - Qui Gagne ?

Dans un monde où la transcription audio devient essentielle, nous avons évalué l’efficacité de la nouvelle IA de transcription d’Apple, en la comparant à Whisper et Parakeet. Découvrez les résultats de cette confrontation technologique et comment cela pourrait révolutionner notre interaction avec la voix et le texte.

Précision de l’intelligence artificielle de transcription d’Apple

Évaluation des performances

En cherchant à comprendre la précision de l’API de transcription d’Apple, plusieurs outils de transcription ont été mis en comparaison, notamment Whisper d’OpenAI et Parakeet de NVIDIA. Le test a été effectué par un développeur qui a enregistré un échantillon audio en anglais. Ce dernier, non natif, a utilisé une série d’outils pour évaluer l’efficacité de chacun.

Outils testés :

API de transcription d’Apple
Whisper Large v3 Turbo d’OpenAI
Parakeet v2 de NVIDIA

Méthodologie des tests

Pour effectuer les tests, un épisode du podcast 9to5Mac Daily, d’une durée de 7 minutes et 31 secondes, a été choisi. Le testeur a utilisé MacWhisper pour exécuter Whisper et Parakeet, tout en s’appuyant sur le projet Yap pour la transcription via l’API d’Apple. Les tests ont été réalisés sur un MacBook Pro M2 Pro avec 16 Go de RAM.

Les évaluations des taux d’erreurs de caractère (CER) et de mot (WER) ont été calculées à l’aide de deux outils disponibles sur Hugging Face :

Ces outils ont permis d’assurer une comparaison cohérente entre les modèles.

Résultats des tests

Les résultats des tests sont révélateurs de la performance de chaque modèle. Voici un tableau récapitulatif des temps de transcription et des taux d’erreurs :

Vous aimerez aussi : Découvrez les Nouvelles Fonctionnalités Éblouissantes des Apps Final Cut: L'Intelligence d'Apple à l'Honneur!

Modèle	Temps de transcription	Taux d’erreur de caractère (CER)	Taux d’erreur de mot (WER)
Parakeet v2	2 secondes	5.8%	12.3%
Whisper Large V3 Turbo	40 secondes	0.2%	1.5%
API d’Apple	9 secondes	1.9%	10.3%

Analyse approfondie des résultats

Une analyse plus poussée a été effectuée en utilisant les modèles ChatGPT, Claude et Gemini pour également calculer les CER et WER.

ChatGPT

Les résultats pour ChatGPT ont montré que l’API d’Apple obtenait un CER de 2.1% et un WER de 10.2%, avec un temps de transcription de 9 secondes. Ces résultats suggèrent une certaine compétence, bien que loin de la précision de Whisper.

Modèle	Temps de transcription	CER	WER
Parakeet v2	2 secondes	6.0%	12.3%
Whisper Large V3 Turbo	40 secondes	0.4%	1.4%
API d’Apple	9 secondes	2.1%	10.2%

Claude

Les résultats obtenus avec Claude ont révélé un CER pour l’API d’Apple de 3.5% et un WER de 8.2%. La rapidité de transcription de 9 secondes demeure un aspect positif de la performance.

Modèle	Temps de transcription	CER	WER
Parakeet v2	2 secondes	8.4%	11.0%
Whisper Large V3 Turbo	40 secondes	0.1%	1.0%
API d’Apple	9 secondes	3.5%	8.2%

Gemini

Les résultats de Gemini montrent que l’API d’Apple se défend bien malgré des erreurs plus élevées par rapport à Whisper.

Modèle	Temps de transcription	CER	WER
Parakeet v2	2 secondes	7.6%	12.3%
Whisper Large V3 Turbo	40 secondes	0.3%	0.4%
API d’Apple	9 secondes	3.4%	5.3%

Interprétation des résultats

Il est clair que Whisper reste le modèle le plus précis, mais il requiert un temps de traitement significatif. Parakeet est idéal pour des projets nécessitant une rapidité accrue, tandis que l’API d’Apple se situe entre les deux en termes de vitesse et de précision.

Vous aimerez aussi : Taylor Swift Dévoile les Secrets d'Apple et Transforme la Musique sur Apple Music!

Apple a réussi à offrir un système qui, même s’il nécessite encore des améliorations pour atteindre la précision de Whisper, gère la transcription rapidement sans dépendre d’API tierces. Cette avancée pourrait représenter un atout majeur à mesure que de plus en plus de développeurs adoptent cette technologie.

Pour explorer davantage sur le sujet des technologies de transcription, vous pouvez consulter OpenAI.

Qu’est-ce que l’API de transcription d’Apple ?

L’API de transcription d’Apple est un nouvel outil de transcription qui permet de convertir la parole en texte, et qui est plus rapide que le modèle Whisper d’OpenAI.

Comment l’API de transcription d’Apple se compare-t-elle aux autres modèles ?

Elle se situe entre la rapidité de Parakeet et la précision de Whisper, offrant un bon compromis pour des projets nécessitant à la fois vitesse et précision.

Quels outils ont été utilisés pour tester l’API ?

Trois outils ont été testés : l’API de transcription d’Apple, Whisper Large v3 Turbo d’OpenAI et le scribe v1 d’Eleven Lab. Les tests ont été réalisés sur un MacBook Pro M2 Pro.

Quels sont les résultats des tests de précision ?

Les résultats ayant été calculés en termes de taux d’erreur des caractères (CER) et de taux d’erreur des mots (WER) montrent que Whisper est le plus précis, alors que Parakeet est le plus rapide et qu’Apple se situe entre les deux.

Manu Dibango

Bonjour, je m’appelle Manu Dibango et j’ai 37 ans. Cadre supérieur dans l’administration, je suis passionné par la gestion et l’organisation. Bienvenue sur Camernews où je partage ma veille sur les nouvelles technologies et l’innovation.

Vous aimerez aussi : Apple Évite une Amende de l'UE : Découvrez Pourquoi son Choix de Navigateur a Fait Bouger les Lignes !

Comparaison Choc : L’Intelligence Artificielle de Transcription d’Apple Face à Whisper et Parakeet – Qui Gagne ?

les raisons derrière l’échec de 95 % des projets d’intelligence artificielle en entreprise

Meta introduit la traduction audio par intelligence artificielle et l’option d’ajout de pistes manuelles pour les Reels

Comment les agents IA transforment le service client en e-commerce