Un diagrama esquemático en formato 16:9 con un fondo blanco, con el estilo de los esquemas comunes de artículos científicos (SCI). El flujo de información es de izquierda a derecha, dividido en tres bandas funcionales horizontales: la capa semántica, la capa de representación intermedia y la capa acústica. La capa semántica y el módulo T2U están ubicados en el centro del diagrama, con un tamaño y peso visual significativamente mayores que otros módulos, enfatizando su importancia en el modelo. ──────────────────────── Capa Semántica (Superior, Componente Central) Módulo Central: "Codificador BERT Chino + Adaptador + LoRA" Descripción de Texto Interna (Académica, Concisa): Entrada: Secuencia de texto chino X Salida: Representación semántica consciente del contexto H′ Ajuste fino eficiente en parámetros utilizando Adaptador y LoRA. Aspectos Destacados del Diseño Visual: El módulo tiene un borde ligeramente más grueso y un área más grande, enfatizando su papel como el núcleo del modelado semántico. El módulo se centra únicamente en representaciones semánticas abstractas, sin involucrar fonemas, pronunciación o texto en el idioma de destino. Conexiones (Clave): Una única flecha sólida se origina en este módulo, apuntando directamente al módulo T2U debajo, etiquetada como: "Representación Semántica → Espacio de Predicción de Unidades de Habla Discretas" Representando el flujo de información primario durante la inferencia. ──────────────────────── Módulo T2U (Centro Neurálgico entre las Capas Semántica y Acústica, Centro Visual) Nombre del Módulo: "T2U: Mapeo de Texto a Unidad y Duración" Descripción del Posicionamiento del Módulo (Texto pequeño o anotación dentro del módulo): "Interfaz intermedia que conecta el espacio semántico y el espacio del habla" Descripción Funcional (No dividido en sub-módulos, expresado en texto): Entrada: Representación semántica H′ Salida 1: Secuencia de unidades de habla discretas Ũ Salida 2: Secuencia de duración de unidades de habla D̂ Significado del Modelado (Estilo SCI): El módulo T2U aprende un mapeo estable desde el espacio semántico chino a un espacio de unidades de habla discretas agnóstico al idioma, sin depender del texto en el idioma de destino o reglas fonéticas manuales durante la inferencia. Conexiones (Enfoque en responder "¿Cuál es la conexión intermedia?"): 1) Flecha Sólida hacia Abajo → Capa Acústica (indicando el uso de la unidad y duración predichas durante la inferencia) 2) Flecha Discontinua Gris desde la Capa de Representación Intermedia → T2U (indicando la señal de supervisión durante el entrenamiento) ──────────────────────── Capa de Representación Intermedia (Media, Auxiliar pero Crítica) Cadena de Módulos (Disposición Horizontal): "Habla Bruta → HuBERT (Codificación de Habla Auto-Supervisada) → Agrupamiento k-means → Unidades de Habla Discretas + Alineación Temporal" Descripción del Posicionamiento Funcional (Anotación): Esta capa solo se utiliza durante el entrenamiento.
Basado en el marco de investigación de la Fundación Nacional...