
16:9 비율의 흰색 배경에 일반적인 SCI 논문 도식 스타일로 제작된 개략도. 정보 흐름은 왼쪽에서 오른쪽으로 진행되며, 의미 계층, 중간 표현 계층, 음향 계층의 세 가지 수평 기능 밴드로 나뉩니다. 의미 계층과 T2U 모듈은 다이어그램 중앙에 위치하며, 크기와 시각적 비중이 다른 모듈보다 훨씬 높아 모델에서 차지하는 중요성을 강조합니다. ──────────────────────── 의미 계층 (상단, 핵심 구성 요소) 핵심 모듈: "Chinese BERT Encoder + Adapter + LoRA" 내부 텍스트 설명 (학문적, 간결): 입력: 중국어 텍스트 시퀀스 X 출력: 문맥 인식 의미 표현 H′ Adapter 및 LoRA를 사용한 파라미터 효율적인 미세 조정. 시각 디자인 강조 사항: 모듈은 약간 더 두꺼운 테두리와 더 넓은 영역을 가지며, 의미 모델링의 핵심 역할임을 강조합니다. 모듈은 음소, 발음 또는 대상 언어 텍스트를 포함하지 않고 추상적인 의미 표현에만 집중합니다. 연결 (핵심): 이 모듈에서 시작되는 단일 실선 화살표는 아래의 T2U 모듈을 직접 가리키며 다음과 같이 레이블이 지정됩니다. "의미 표현 → 이산 음성 단위 예측 공간" 추론 중 주요 정보 흐름을 나타냅니다. ──────────────────────── T2U 모듈 (의미 및 음향 계층 간의 중앙 허브, 시각적 중심) 모듈 이름: "T2U: Text-to-Unit & Duration Mapping" 모듈 위치 설명 (모듈 내 작은 텍스트 또는 주석): "의미 공간과 음성 공간을 연결하는 중간 인터페이스" 기능 설명 (하위 모듈로 나누지 않고 텍스트로 표현): 입력: 의미 표현 H′ 출력 1: 이산 음성 단위 시퀀스 Ũ 출력 2: 음성 단위 지속 시간 시퀀스 D̂ 모델링 의미 (SCI 스타일): T2U 모듈은 추론 중에 대상 언어 텍스트 또는 수동 음성 규칙에 의존하지 않고 중국어 의미 공간에서 언어에 구애받지 않는 이산 음성 단위 공간으로의 안정적인 매핑을 학습합니다. 연결 ( "중간 연결은 무엇입니까?"에 대한 답변에 집중): 1) 아래쪽 실선 화살표 → 음향 계층 (추론 중 예측된 단위 및 지속 시간 사용을 나타냄) 2) 중간 표현 계층에서 T2U로의 회색 점선 화살표 (훈련 중 감독 신호를 나타냄) ──────────────────────── 중간 표현 계층 (중간, 보조적이지만 중요) 모듈 체인 (수평 배열): "Raw Speech → HuBERT (Self-Supervised Speech Encoding) → k-means Clustering → 이산 음성 단위 + 시간 정렬" 기능적 위치 설명 (주석): "이 계층은 훈련 중에만 사용됩니다."
이 다이어그램은 컴퓨터 과학 분야에서 정적 프롬프트 생성과 동적 프롬프트 생성의 차이점을 보여줍니다. 이미지...