
연쇄 협업 학습 프레임워크: 데이터 복구, 증강 및 의사 레이블 학습의 협업 프로세스 이 프레임워크는 "연쇄 협업"을 중심으로 데이터 논리 복구를 위한 자동 경로 추적, 데이터 품질을 보장하기 위한 CTGAN 및 분위수 변환, 일반화 능력을 향상시키기 위한 의사 레이블 기반 다중 모델 협업 학습을 통해 "데이터 생성 - 논리 복구 - 모델 최적화"의 폐쇄 루프를 달성합니다. 다음은 핵심 논리, 기술 지원 및 프로세스 구현에 대해 자세히 설명하며, 특히 의사 레이블 학습의 동적 프로세스에 중점을 둡니다. I. 핵심 논리: 데이터 복구에서 모델 협업으로 이 프레임워크는 데이터의 "논리적 단절" 문제를 해결하는 것으로 시작합니다. 점프 규칙을 포함하는 문제를 자동 경로 추적을 통해 노드로 추상화하고, 방향성 점프 그래프를 구성하고, 순회하여 방문하지 않은 노드(경로 절단)와 중복 노드(루프 논리)를 감지합니다. 규칙은 "반복 원칙"(고빈도 경로 선택) 또는 "통계 원칙"(중앙값/평균 경로 길이)에 따라 완료되어 데이터 생성이 모든 합리적인 분기를 포괄하도록 보장합니다. 이를 바탕으로 연속형 특징은 전처리(그룹화된 분위수 변환)를 통해 이산 조합으로 그룹화되고 확률 적분 변환을 사용하여 정규 분포에 매핑됩니다. CTGAN 모델은 조건부 WGAN-GP를 사용하여 합성 데이터를 생성하고, 모드별 정규화(가우시안 혼합 모델링) 및 PAC 부분 적대적 생성(특징 생성기 분리)과 결합하여 품질을 향상시킵니다. 후처리에서는 분위수 매칭을 사용하여 생성된 데이터를 원본 데이터 분포에 맞추고, 왜도를 수정하기 위해 Box-Cox 변환을 보완하며, 마지막으로 비즈니스 규칙(경계 자르기, 시간 논리)을 통해 데이터 적용 가능성을 보장합니다. 핵심 협업 포인트는 의사 레이블 학습이 복구된 데이터와 합성 데이터를 결합하고, 여러 모델을 통해 고품질 의사 레이블을 생성하고, 모델 재학습에 피드백하여 "데이터 증강 - 모델 개선"의 긍정적인 피드백 루프를 달성한다는 것입니다. II. 기술 지원: 수학 및 엔지니어링의 이중 보장 • 데이터 생성: 분위수 변환(확률 적분 + 역 CDF 매핑), CTGAN(조건부 WGAN-GP 목적 함수, Wasserstein 손실 + 기울기 페널티), 후처리(분위수 매칭 + Kolmogorov-Smirnov 정리를 통해 분포 일관성 보장)는 합성 데이터의 통계적 충실도를 보장합니다. • 모델 협업: 8개 모델(ANN, LightGBM, Random Forest 등)의 통합, 특징 주의 메커니즘(핵심 특징 가중치 강화) 및 음수 학습(경계 샘플에 대한 KL 발산 제약)을 사용하여 견고성을 향상시킵니다. • 이론적 기반: Brenier의 정리(분위수 변환 = 최적 수송), WGAN의 Kantorovich-Rubinstein 쌍대성(전역 수렴), Gliklikh의 정리(분위수 매칭은 점근적으로 불편함), 통계적 엄격성과 비즈니스 합리성의 균형을 맞춥니다. III. 프로세스 구현: 의사 레이블 학습의 핵심 중추 역할 (I) 사전 준비: 초기 모델 및 레이블이 없는 데이터 먼저 8개의 초기 교사 모델(ANN, LightGBM 등)을 학습시키고, 검증 세트를 사용하여 정확도를 평가하고 기록합니다. 실제/합성 데이터에서 30%를 계층화 샘플링하여 레이블이 없는 데이터로 사용합니다.
체인 기반 협업 학습 프레임워크: 데이터 보완, 증강 및 의사 레이블 학습을 위한 협업 프로세스 이 프레임...