Ein schematisches Diagramm im 16:9-Format mit weißem Hintergrund, im Stil gängiger SCI-Paper-Schemata. Der Informationsfluss verläuft von links nach rechts, unterteilt in drei horizontale Funktionsbereiche: die semantische Schicht, die mittlere Repräsentationsschicht und die akustische Schicht. Die semantische Schicht und das T2U-Modul befinden sich im Zentrum des Diagramms, wobei ihre Größe und ihr visuelles Gewicht deutlich höher sind als bei anderen Modulen, um ihre Bedeutung im Modell hervorzuheben. ──────────────────────── Semantische Schicht (Oben, Kernkomponente) Kernmodul: "Chinesischer BERT Encoder + Adapter + LoRA" Interne Textbeschreibung (Akademisch, Prägnant): Eingabe: Chinesische Textsequenz X Ausgabe: Kontextbezogene semantische Repräsentation H′ Parameter-effizientes Fine-Tuning mit Adapter und LoRA. Visuelle Design-Highlights: Das Modul hat einen etwas dickeren Rand und eine größere Fläche, um seine Rolle als Kern der semantischen Modellierung hervorzuheben. Das Modul konzentriert sich ausschließlich auf abstrakte semantische Repräsentationen, ohne Phoneme, Aussprache oder Zielsprachentext einzubeziehen. Verbindungen (Schlüssel): Ein einzelner durchgezogener Pfeil geht von diesem Modul aus und zeigt direkt auf das T2U-Modul darunter, beschriftet als: "Semantische Repräsentation → Diskreter Sprachbaustein-Vorhersageraum" Darstellung des primären Informationsflusses während der Inferenz. ──────────────────────── T2U-Modul (Zentrale Drehscheibe zwischen semantischer und akustischer Schicht, Visuelles Zentrum) Modulname: "T2U: Text-to-Unit & Dauer-Mapping" Modul-Positionierungsbeschreibung (Kleiner Text oder Annotation innerhalb des Moduls): "Zwischenschnittstelle, die semantischen Raum und Sprachraum verbindet" Funktionsbeschreibung (Nicht in Submodule unterteilt, in Text ausgedrückt): Eingabe: Semantische Repräsentation H′ Ausgabe 1: Diskrete Sprachbausteinsequenz Ũ Ausgabe 2: Sprachbaustein-Dauersequenz D̂ Modellierungsbedeutung (SCI-Stil): Das T2U-Modul lernt ein stabiles Mapping vom chinesischen semantischen Raum zu einem sprachunabhängigen diskreten Sprachbausteinraum, ohne sich während der Inferenz auf Zielsprachentext oder manuelle phonetische Regeln zu verlassen. Verbindungen (Fokus auf die Beantwortung von "Was ist die Zwischenverbindung?"): 1) Abwärts gerichteter durchgezogener Pfeil → Akustische Schicht (der die Verwendung von vorhergesagter Einheit und Dauer während der Inferenz anzeigt) 2) Grauer gestrichelter Pfeil von der mittleren Repräsentationsschicht → T2U (der das Überwachungssignal während des Trainings anzeigt) ──────────────────────── Mittlere Repräsentationsschicht (Mitte, Hilfs-, aber Kritisch) Modulkette (Horizontale Anordnung): "Rohe Sprache → HuBERT (Selbstüberwachtes Sprach-Encoding) → k-Means-Clustering → Diskrete Sprachbausteine + Zeitausrichtung" Funktionale Positionierungsbeschreibung (Annotation): Diese Schicht wird nur während des Trainings verwendet."
Basierend auf dem Forschungsrahmen der National Natural Scie...