Схематическая диаграмма в формате 16:9 с белым фоном, стилизованная под типичные схемы научных статей (SCI). Поток информации слева направо, разделен на три горизонтальные функциональные полосы: семантический слой, слой промежуточного представления и акустический слой. Семантический слой и модуль T2U расположены в центре диаграммы, их размер и визуальный вес значительно больше, чем у других модулей, что подчеркивает их важность в модели. ──────────────────────── Семантический слой (Верхний, Основной компонент) Основной модуль: "Chinese BERT Encoder + Adapter + LoRA" Внутреннее текстовое описание (Академическое, Краткое): Вход: Китайская текстовая последовательность X Выход: Контекстно-зависимое семантическое представление H′ Параметрически-эффективная донастройка с использованием Adapter и LoRA. Визуальные акценты: Модуль имеет немного более толстую границу и большую площадь, подчеркивая его роль как ядра семантического моделирования. Модуль фокусируется исключительно на абстрактных семантических представлениях, не затрагивая фонемы, произношение или текст целевого языка. Соединения (Ключевые): Одна сплошная стрелка исходит из этого модуля, указывая прямо на модуль T2U ниже, с надписью: "Семантическое представление → Пространство предсказания дискретных речевых единиц" Представляющая основной поток информации во время инференса. ──────────────────────── Модуль T2U (Центральный узел между семантическим и акустическим слоями, Визуальный центр) Название модуля: "T2U: Text-to-Unit & Duration Mapping" (Сопоставление текста с единицами и длительностью) Описание позиционирования модуля (Небольшой текст или аннотация внутри модуля): "Промежуточный интерфейс, соединяющий семантическое пространство и речевое пространство" Функциональное описание (Не разделено на подмодули, выражено текстом): Вход: Семантическое представление H′ Выход 1: Последовательность дискретных речевых единиц Ũ Выход 2: Последовательность длительности речевых единиц D̂ Смысл моделирования (В стиле SCI): Модуль T2U изучает стабильное отображение из китайского семантического пространства в языково-независимое пространство дискретных речевых единиц, не полагаясь на текст целевого языка или ручные фонетические правила во время инференса. Соединения (Сосредоточьтесь на ответе на вопрос "Какова промежуточная связь?"): 1) Вниз Сплошная стрелка → Акустический слой (указывает на использование предсказанной единицы и длительности во время инференса) 2) Серая Пунктирная стрелка из слоя промежуточного представления → T2U (указывает на сигнал обучения с учителем во время обучения) ──────────────────────── Слой промежуточного представления (Средний, Вспомогательный, но Критический) Цепочка модулей (Горизонтальное расположение): "Raw Speech → HuBERT (Самообучающееся кодирование речи) → k-means Clustering → Дискретные речевые единицы + Выравнивание по времени" Описание функционального позиционирования (Аннотация): "Этот слой используется только во время обучения."
Основываясь на исследовательской структуре Государственного ...