Um diagrama esquemático em formato 16:9 com fundo branco, no estilo de esquemas comuns de artigos científicos (SCI). O fluxo de informação é da esquerda para a direita, dividido em três faixas funcionais horizontais: a camada semântica, a camada de representação intermediária e a camada acústica. A camada semântica e o módulo T2U estão localizados no centro do diagrama, com seu tamanho e peso visual significativamente maiores do que outros módulos, enfatizando sua importância no modelo. ──────────────────────── Camada Semântica (Superior, Componente Central) Módulo Central: "Chinese BERT Encoder + Adapter + LoRA" Descrição Interna do Texto (Acadêmica, Concisa): Entrada: Sequência de texto chinês X Saída: Representação semântica com reconhecimento de contexto H′ Ajuste fino com eficiência de parâmetros usando Adapter e LoRA. Destaques do Design Visual: O módulo tem uma borda ligeiramente mais espessa e uma área maior, enfatizando seu papel como o núcleo da modelagem semântica. O módulo se concentra exclusivamente em representações semânticas abstratas, sem envolver fonemas, pronúncia ou texto da língua alvo. Conexões (Chave): Uma única seta sólida se origina deste módulo, apontando diretamente para o módulo T2U abaixo, rotulada como: "Representação Semântica → Espaço de Predição de Unidade de Fala Discreta" Representando o fluxo de informação primário durante a inferência. ──────────────────────── Módulo T2U (Hub Central entre as Camadas Semântica e Acústica, Centro Visual) Nome do Módulo: "T2U: Mapeamento Texto-para-Unidade & Duração" Descrição do Posicionamento do Módulo (Texto pequeno ou anotação dentro do módulo): "Interface intermediária conectando o espaço semântico e o espaço da fala" Descrição Funcional (Não dividido em sub-módulos, expresso em texto): Entrada: Representação semântica H′ Saída 1: Sequência de unidade de fala discreta Ũ Saída 2: Sequência de duração da unidade de fala D̂ Significado da Modelagem (Estilo SCI): O módulo T2U aprende um mapeamento estável do espaço semântico chinês para um espaço de unidade de fala discreta agnóstico à linguagem, sem depender do texto da língua alvo ou de regras fonéticas manuais durante a inferência. Conexões (Foco em responder "Qual é a conexão intermediária?"): 1) Seta Sólida para Baixo → Camada Acústica (indicando o uso da unidade e duração previstas durante a inferência) 2) Seta Tracejada Cinza da Camada de Representação Intermediária → T2U (indicando o sinal de supervisão durante o treinamento) ──────────────────────── Camada de Representação Intermediária (Meio, Auxiliar, mas Crítica) Cadeia de Módulos (Arranjo Horizontal): "Fala Bruta → HuBERT (Codificação de Fala Auto-Supervisionada) → Agrupamento k-means → Unidades de Fala Discretas + Alinhamento Temporal" Descrição do Posicionamento Funcional (Anotação): Esta camada é usada apenas durante o treinamento.
Com base na estrutura de pesquisa da Fundação Nacional de Ci...