Comparaison Choc : L’Intelligence Artificielle de Transcription d’Apple Face à Whisper et Parakeet – Qui Gagne ?

Dans un monde où la transcription audio devient essentielle, nous avons évalué l’efficacité de la nouvelle de transcription d’, en la comparant à Whisper et Parakeet. Découvrez les résultats de cette confrontation technologique et comment cela pourrait révolutionner notre interaction avec la voix et le texte.

Précision de l’ de transcription d’Apple

Évaluation des performances

En cherchant à comprendre la précision de l’API de transcription d’Apple, plusieurs outils de transcription ont été mis en comparaison, notamment Whisper d’OpenAI et Parakeet de NVIDIA. Le test a été effectué par un développeur qui a enregistré un échantillon audio en anglais. Ce dernier, non natif, a utilisé une série d’outils pour évaluer l’efficacité de chacun.

Outils testés :

  • API de transcription d’Apple
  • Whisper Large v3 Turbo d’OpenAI
  • Parakeet v2 de NVIDIA

Méthodologie des tests

Pour effectuer les tests, un épisode du podcast 9to5Mac Daily, d’une durée de 7 minutes et 31 secondes, a été choisi. Le testeur a utilisé MacWhisper pour exécuter Whisper et Parakeet, tout en s’appuyant sur le projet Yap pour la transcription via l’API d’Apple. Les tests ont été réalisés sur un MacBook Pro M2 Pro avec 16 de RAM.

Les évaluations des taux d’erreurs de caractère (CER) et de mot (WER) ont été calculées à l’aide de deux outils disponibles sur Hugging Face :

Ces outils ont permis d’assurer une comparaison cohérente entre les modèles.

Résultats des tests

Les résultats des tests sont révélateurs de la performance de chaque modèle. Voici un tableau récapitulatif des temps de transcription et des taux d’erreurs :

Vous aimerez aussi :  Découvrez les Nouvelles Fonctionnalités Éblouissantes des Apps Final Cut: L'Intelligence d'Apple à l'Honneur!
Modèle Temps de transcription Taux d’erreur de caractère (CER) Taux d’erreur de mot (WER)
Parakeet v2 2 secondes 5.8% 12.3%
Whisper Large V3 Turbo 40 secondes 0.2% 1.5%
API d’Apple 9 secondes 1.9% 10.3%

Analyse approfondie des résultats

Une analyse plus poussée a été effectuée en utilisant les modèles ChatGPT, Claude et Gemini pour également calculer les CER et WER.

ChatGPT

Les résultats pour ChatGPT ont montré que l’API d’Apple obtenait un CER de 2.1% et un WER de 10.2%, avec un temps de transcription de 9 secondes. Ces résultats suggèrent une certaine compétence, bien que loin de la précision de Whisper.

Modèle Temps de transcription CER WER
Parakeet v2 2 secondes 6.0% 12.3%
Whisper Large V3 Turbo 40 secondes 0.4% 1.4%
API d’Apple 9 secondes 2.1% 10.2%

Claude

Les résultats obtenus avec Claude ont révélé un CER pour l’API d’Apple de 3.5% et un WER de 8.2%. La rapidité de transcription de 9 secondes demeure un aspect positif de la performance.

Modèle Temps de transcription CER WER
Parakeet v2 2 secondes 8.4% 11.0%
Whisper Large V3 Turbo 40 secondes 0.1% 1.0%
API d’Apple 9 secondes 3.5% 8.2%

Gemini

Les résultats de Gemini montrent que l’API d’Apple se défend bien malgré des erreurs plus élevées par rapport à Whisper.

Modèle Temps de transcription CER WER
Parakeet v2 2 secondes 7.6% 12.3%
Whisper Large V3 Turbo 40 secondes 0.3% 0.4%
API d’Apple 9 secondes 3.4% 5.3%

Interprétation des résultats

Il est clair que Whisper reste le modèle le plus précis, mais il requiert un temps de traitement significatif. Parakeet est idéal pour des projets nécessitant une rapidité accrue, tandis que l’API d’Apple se situe entre les deux en termes de vitesse et de précision.

Vous aimerez aussi :  Taylor Swift Dévoile les Secrets d'Apple et Transforme la Musique sur Apple Music!

Apple a réussi à offrir un système qui, même s’il nécessite encore des améliorations pour atteindre la précision de Whisper, gère la transcription rapidement sans dépendre d’API tierces. Cette avancée pourrait représenter un atout majeur à mesure que de plus en plus de développeurs adoptent cette .

Pour explorer davantage sur le sujet des technologies de transcription, vous pouvez consulter OpenAI.

Qu’est-ce que l’API de transcription d’Apple ?

L’API de transcription d’Apple est un nouvel outil de transcription qui permet de convertir la parole en texte, et qui est plus rapide que le modèle Whisper d’OpenAI.

Comment l’API de transcription d’Apple se compare-t-elle aux autres modèles ?

Elle se situe entre la rapidité de Parakeet et la précision de Whisper, offrant un bon compromis pour des projets nécessitant à la fois vitesse et précision.

Quels outils ont été utilisés pour tester l’API ?

Trois outils ont été testés : l’API de transcription d’Apple, Whisper Large v3 Turbo d’OpenAI et le scribe v1 d’Eleven Lab. Les tests ont été réalisés sur un MacBook Pro M2 Pro.

Quels sont les résultats des tests de précision ?

Les résultats ayant été calculés en termes de taux d’erreur des caractères (CER) et de taux d’erreur des mots (WER) montrent que Whisper est le plus précis, alors que Parakeet est le plus rapide et qu’Apple se situe entre les deux.

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use
Add a comment Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Previous Post

Découvrez les Nouveaux Indispensables : MacBook, iPad Pro, Chargeur MagSafe et la Fonctionnalité Find My Gear sur 9to5Mac!

Next Post

Découvrez le Nouvel Univers Visuel d'Apple : Nouveaux Fond d'Écran Éblouissants pour iPhone, iPad et Mac à Ne Pas Manquer !