Un schéma en format 16:9 avec un fond blanc, dans le style des schémas d'articles scientifiques courants. Le flux d'informations va de gauche à droite, divisé en trois bandes fonctionnelles horizontales : la couche sémantique, la couche de représentation intermédiaire et la couche acoustique. La couche sémantique et le module T2U sont situés au centre du schéma, avec une taille et un poids visuel significativement plus élevés que les autres modules, soulignant leur importance dans le modèle. ──────────────────────── Couche Sémantique (Haut, Composant Central) Module Central : "Encodeur BERT Chinois + Adaptateur + LoRA" Description Textuelle Interne (Académique, Concise) : Entrée : Séquence de texte chinois X Sortie : Représentation sémantique sensible au contexte H′ Fine-tuning économe en paramètres utilisant Adaptateur et LoRA. Points Forts de la Conception Visuelle : Le module a une bordure légèrement plus épaisse et une plus grande surface, soulignant son rôle de cœur de la modélisation sémantique. Le module se concentre uniquement sur les représentations sémantiques abstraites, sans impliquer de phonèmes, de prononciation ou de texte de la langue cible. Connexions (Clé) : Une seule flèche pleine part de ce module, pointant directement vers le module T2U en dessous, étiquetée comme : "Représentation Sémantique → Espace de Prédiction d'Unités de Parole Discrètes" Représentant le flux d'informations principal pendant l'inférence. ──────────────────────── Module T2U (Hub Central entre les Couches Sémantique et Acoustique, Centre Visuel) Nom du Module : "T2U : Mappage Texte-vers-Unité & Durée" Description du Positionnement du Module (Petit texte ou annotation dans le module) : "Interface intermédiaire reliant l'espace sémantique et l'espace de la parole" Description Fonctionnelle (Non divisée en sous-modules, exprimée en texte) : Entrée : Représentation sémantique H′ Sortie 1 : Séquence d'unités de parole discrètes Ũ Sortie 2 : Séquence de durée des unités de parole D̂ Signification de la Modélisation (Style SCI) : Le module T2U apprend un mappage stable de l'espace sémantique chinois vers un espace d'unités de parole discrètes indépendant de la langue, sans s'appuyer sur le texte de la langue cible ou sur des règles phonétiques manuelles pendant l'inférence. Connexions (Concentrez-vous sur la réponse à la question "Quelle est la connexion intermédiaire ?") : 1) Flèche Pleine vers le Bas → Couche Acoustique (indiquant l'utilisation de l'unité et de la durée prédites pendant l'inférence) 2) Flèche Grise en Pointillés depuis la Couche de Représentation Intermédiaire → T2U (indiquant le signal de supervision pendant l'entraînement) ──────────────────────── Couche de Représentation Intermédiaire (Milieu, Auxiliaire mais Critique) Chaîne de Modules (Disposition Horizontale) : "Parole Brute → HuBERT (Encodage de la Parole Auto-Supervisé) → Clustering k-means → Unités de Parole Discrètes + Alignement Temporel" Description du Positionnement Fonctionnel (Annotation) : "Cette couche n'est utilisée que pendant l'entraînement."
Basé sur le cadre de recherche de la Fondation Nationale des...