Uno schema schematico in formato 16:9 con sfondo bianco, nello stile dei comuni schemi degli articoli SCI. Il flusso di informazioni va da sinistra a destra, suddiviso in tre bande funzionali orizzontali: il livello semantico, il livello di rappresentazione intermedio e il livello acustico. Il livello semantico e il modulo T2U si trovano al centro del diagramma, con dimensioni e peso visivo significativamente superiori rispetto agli altri moduli, enfatizzando la loro importanza nel modello. ──────────────────────── Livello Semantico (In Alto, Componente Centrale) Modulo Centrale: "Chinese BERT Encoder + Adapter + LoRA" Descrizione Testuale Interna (Accademica, Concisa): Input: Sequenza di testo cinese X Output: Rappresentazione semantica consapevole del contesto H′ Fine-tuning efficiente in termini di parametri utilizzando Adapter e LoRA. Punti Salienti del Design Visivo: Il modulo ha un bordo leggermente più spesso e un'area più ampia, enfatizzando il suo ruolo come nucleo della modellazione semantica. Il modulo si concentra esclusivamente su rappresentazioni semantiche astratte, senza coinvolgere fonemi, pronuncia o testo della lingua di destinazione. Connessioni (Chiave): Una singola freccia continua ha origine da questo modulo, puntando direttamente al modulo T2U sottostante, etichettata come: "Rappresentazione Semantica → Spazio di Predizione di Unità Vocali Discrete" Rappresenta il flusso di informazioni primario durante l'inferenza. ──────────────────────── Modulo T2U (Hub Centrale tra Livello Semantico e Acustico, Centro Visivo) Nome del Modulo: "T2U: Mappatura Testo-a-Unità e Durata" Descrizione del Posizionamento del Modulo (Testo piccolo o annotazione all'interno del modulo): "Interfaccia intermedia che collega lo spazio semantico e lo spazio vocale" Descrizione Funzionale (Non suddivisa in sottomoduli, espressa in testo): Input: Rappresentazione semantica H′ Output 1: Sequenza di unità vocali discrete Ũ Output 2: Sequenza di durata delle unità vocali D̂ Significato della Modellazione (Stile SCI): Il modulo T2U apprende una mappatura stabile dallo spazio semantico cinese a uno spazio di unità vocali discrete indipendente dalla lingua, senza fare affidamento sul testo della lingua di destinazione o su regole fonetiche manuali durante l'inferenza. Connessioni (Focus sulla risposta a "Qual è la connessione intermedia?"): 1) Freccia Continua verso il Basso → Livello Acustico (che indica l'uso dell'unità e della durata previste durante l'inferenza) 2) Freccia Tratteggiata Grigia dal Livello di Rappresentazione Intermedio → T2U (che indica il segnale di supervisione durante l'addestramento) ──────────────────────── Livello di Rappresentazione Intermedio (Centrale, Ausiliario ma Critico) Catena di Moduli (Disposizione Orizzontale): "Voce Grezza → HuBERT (Codifica Vocale Auto-Supervisionata) → Clustering k-means → Unità Vocali Discrete + Allineamento Temporale" Descrizione del Posizionamento Funzionale (Annotazione): Questo livello viene utilizzato solo durante l'addestramento.
Basato sul quadro di ricerca della National Natural Science ...