Dans un monde où la transcription audio devient essentielle, nous avons évalué l’efficacité de la nouvelle IA de transcription d’Apple, en la comparant à Whisper et Parakeet. Découvrez les résultats de cette confrontation technologique et comment cela pourrait révolutionner notre interaction avec la voix et le texte.
Précision de l’intelligence artificielle de transcription d’Apple
Évaluation des performances
En cherchant à comprendre la précision de l’API de transcription d’Apple, plusieurs outils de transcription ont été mis en comparaison, notamment Whisper d’OpenAI et Parakeet de NVIDIA. Le test a été effectué par un développeur qui a enregistré un échantillon audio en anglais. Ce dernier, non natif, a utilisé une série d’outils pour évaluer l’efficacité de chacun.
Outils testés :
- API de transcription d’Apple
- Whisper Large v3 Turbo d’OpenAI
- Parakeet v2 de NVIDIA
Méthodologie des tests
Pour effectuer les tests, un épisode du podcast 9to5Mac Daily, d’une durée de 7 minutes et 31 secondes, a été choisi. Le testeur a utilisé MacWhisper pour exécuter Whisper et Parakeet, tout en s’appuyant sur le projet Yap pour la transcription via l’API d’Apple. Les tests ont été réalisés sur un MacBook Pro M2 Pro avec 16 Go de RAM.
Les évaluations des taux d’erreurs de caractère (CER) et de mot (WER) ont été calculées à l’aide de deux outils disponibles sur Hugging Face :
Ces outils ont permis d’assurer une comparaison cohérente entre les modèles.
Résultats des tests
Les résultats des tests sont révélateurs de la performance de chaque modèle. Voici un tableau récapitulatif des temps de transcription et des taux d’erreurs :
Modèle | Temps de transcription | Taux d’erreur de caractère (CER) | Taux d’erreur de mot (WER) |
---|---|---|---|
Parakeet v2 | 2 secondes | 5.8% | 12.3% |
Whisper Large V3 Turbo | 40 secondes | 0.2% | 1.5% |
API d’Apple | 9 secondes | 1.9% | 10.3% |
Analyse approfondie des résultats
Une analyse plus poussée a été effectuée en utilisant les modèles ChatGPT, Claude et Gemini pour également calculer les CER et WER.
ChatGPT
Les résultats pour ChatGPT ont montré que l’API d’Apple obtenait un CER de 2.1% et un WER de 10.2%, avec un temps de transcription de 9 secondes. Ces résultats suggèrent une certaine compétence, bien que loin de la précision de Whisper.
Modèle | Temps de transcription | CER | WER |
---|---|---|---|
Parakeet v2 | 2 secondes | 6.0% | 12.3% |
Whisper Large V3 Turbo | 40 secondes | 0.4% | 1.4% |
API d’Apple | 9 secondes | 2.1% | 10.2% |
Claude
Les résultats obtenus avec Claude ont révélé un CER pour l’API d’Apple de 3.5% et un WER de 8.2%. La rapidité de transcription de 9 secondes demeure un aspect positif de la performance.
Modèle | Temps de transcription | CER | WER |
---|---|---|---|
Parakeet v2 | 2 secondes | 8.4% | 11.0% |
Whisper Large V3 Turbo | 40 secondes | 0.1% | 1.0% |
API d’Apple | 9 secondes | 3.5% | 8.2% |
Gemini
Les résultats de Gemini montrent que l’API d’Apple se défend bien malgré des erreurs plus élevées par rapport à Whisper.
Modèle | Temps de transcription | CER | WER |
---|---|---|---|
Parakeet v2 | 2 secondes | 7.6% | 12.3% |
Whisper Large V3 Turbo | 40 secondes | 0.3% | 0.4% |
API d’Apple | 9 secondes | 3.4% | 5.3% |
Interprétation des résultats
Il est clair que Whisper reste le modèle le plus précis, mais il requiert un temps de traitement significatif. Parakeet est idéal pour des projets nécessitant une rapidité accrue, tandis que l’API d’Apple se situe entre les deux en termes de vitesse et de précision.
Apple a réussi à offrir un système qui, même s’il nécessite encore des améliorations pour atteindre la précision de Whisper, gère la transcription rapidement sans dépendre d’API tierces. Cette avancée pourrait représenter un atout majeur à mesure que de plus en plus de développeurs adoptent cette technologie.
Pour explorer davantage sur le sujet des technologies de transcription, vous pouvez consulter OpenAI.
Qu’est-ce que l’API de transcription d’Apple ?
L’API de transcription d’Apple est un nouvel outil de transcription qui permet de convertir la parole en texte, et qui est plus rapide que le modèle Whisper d’OpenAI.
Comment l’API de transcription d’Apple se compare-t-elle aux autres modèles ?
Elle se situe entre la rapidité de Parakeet et la précision de Whisper, offrant un bon compromis pour des projets nécessitant à la fois vitesse et précision.
Quels outils ont été utilisés pour tester l’API ?
Trois outils ont été testés : l’API de transcription d’Apple, Whisper Large v3 Turbo d’OpenAI et le scribe v1 d’Eleven Lab. Les tests ont été réalisés sur un MacBook Pro M2 Pro.
Quels sont les résultats des tests de précision ?
Les résultats ayant été calculés en termes de taux d’erreur des caractères (CER) et de taux d’erreur des mots (WER) montrent que Whisper est le plus précis, alors que Parakeet est le plus rapide et qu’Apple se situe entre les deux.

Bonjour, je m’appelle Manu Dibango et j’ai 37 ans. Cadre supérieur dans l’administration, je suis passionné par la gestion et l’organisation. Bienvenue sur Camernews où je partage ma veille sur les nouvelles technologies et l’innovation.