
以 16:9 比例的示意圖,白色背景,風格仿照常見的 SCI 論文示意圖。資訊流向為從左至右,分為三個水平功能層:語義層、中間表示層和聲學層。語義層和 T2U 模組位於圖表中心,其大小和視覺權重明顯高於其他模組,以強調它們在模型中的重要性。 ──────────────────────── 語義層(頂部,核心組件) 核心模組: 「中文 BERT 編碼器 + Adapter + LoRA」 內部文字描述(學術,簡潔): 輸入:中文文本序列 X 輸出:上下文感知的語義表示 H′ 使用 Adapter 和 LoRA 進行參數高效的微調。 視覺設計亮點: 該模組具有稍粗的邊框和更大的面積,強調其作為語義建模核心的作用。該模組僅關注抽象的語義表示,不涉及音素、發音或目標語言文本。 連接(關鍵): 從該模組發出一個單一的實線箭頭,直接指向下方的 T2U 模組,標記為: 「語義表示 → 離散語音單元預測空間」 代表推理期間的主要資訊流。 ──────────────────────── T2U 模組(語義層和聲學層之間的中心樞紐,視覺中心) 模組名稱: 「T2U:文本到單元 & 時長映射」 模組定位描述(模組內的小字或註釋): 「連接語義空間和語音空間的中間介面」 功能描述(不劃分為子模組,以文字表達): 輸入:語義表示 H′ 輸出 1:離散語音單元序列 Ũ 輸出 2:語音單元時長序列 D̂ 建模意義(SCI 風格): T2U 模組學習從中文語義空間到與語言無關的離散語音單元空間的穩定映射,在推理期間不依賴於目標語言文本或手動語音規則。 連接(重點回答「中間連接是什麼?」): 1) 向下實線箭頭 → 聲學層(指示在推理期間使用預測的單元和時長) 2) 從中間表示層到 T2U 的灰色虛線箭頭(指示訓練期間的監督信號) ──────────────────────── 中間表示層(中間,輔助但關鍵) 模組鏈(水平排列): 「原始語音 → HuBERT(自監督語音編碼)→ k-means 聚類 → 離散語音單元 + 時間對齊」 功能定位描述(註釋): 「此層僅在訓練期間使用。」
此圖表闡述電腦科學領域中靜態提示生成與動態提示生成之間的差異。圖例說明如下: 1. 靜態提示範例(多跳問答任務情境):...