
16:9形式の模式図。背景は白。一般的な科学論文の模式図のスタイル。情報の流れは左から右。意味層、中間表現層、音響層の3つの水平な機能帯に分割。意味層とT2Uモジュールは図の中央に配置し、他のモジュールよりもサイズと視覚的な重みを大幅に大きくして、モデルにおける重要性を強調する。 ──────────────────────── 意味層(上部、コアコンポーネント) コアモジュール: 「Chinese BERT Encoder + Adapter + LoRA」 内部テキスト説明(学術的、簡潔): 入力:中国語テキストシーケンス X 出力:文脈を考慮した意味表現 H′ AdapterとLoRAを用いたパラメータ効率の良いファインチューニング。 視覚デザインのハイライト: モジュールは、境界線をわずかに太くし、面積を大きくして、意味モデリングのコアとしての役割を強調。モジュールは、音素、発音、またはターゲット言語のテキストを含まず、抽象的な意味表現のみに焦点を当てる。 接続(重要): このモジュールから1本の太い実線矢印が出て、下のT2Uモジュールに直接向かい、次のようにラベル付けされている: 「意味表現 → 離散音声ユニット予測空間」 推論時の主要な情報の流れを表す。 ──────────────────────── T2Uモジュール(意味層と音響層の中央ハブ、視覚的中心) モジュール名: 「T2U:Text-to-Unit & Duration Mapping」 モジュールの位置付けの説明(モジュール内の小さなテキストまたは注釈): 「意味空間と音声空間を接続する中間インターフェース」 機能説明(サブモジュールに分割せず、テキストで表現): 入力:意味表現 H′ 出力1:離散音声ユニットシーケンス Ũ 出力2:音声ユニット持続時間シーケンス D̂ モデリングの意味(科学論文スタイル): T2Uモジュールは、推論時にターゲット言語のテキストや手動の音声規則に依存せず、中国語の意味空間から言語に依存しない離散音声ユニット空間への安定したマッピングを学習する。 接続(「中間接続は何ですか?」に焦点を当てる): 1)下向きの実線矢印 → 音響層(推論時に予測されたユニットと持続時間を使用することを示す) 2)中間表現層からの灰色の破線矢印 → T2U(トレーニング中の教師信号を示す) ──────────────────────── 中間表現層(中央、補助的だが重要) モジュールチェーン(水平配置): 「Raw Speech → HuBERT(自己教師あり音声エンコーディング)→ k-meansクラスタリング → 離散音声ユニット + 時間アライメント」 機能的な位置付けの説明(注釈): 「この層はトレーニング中にのみ使用される。」
この図は、コンピュータサイエンスの分野における静的プロンプト生成と動的プロンプト生成の違いを示しています。図中の例は以下...