Collections de données audio (.mp3) + transcript (.txt) servant de source de vérité pour mener des évaluations des modèles de STT