Marco Colaborativo de Aprendizaje Colaborativo Encadenado: Un Proceso Colaborativo de Reparación, Aumento y Entrenamiento con Pseudoetiquetas de Datos Este marco, centrado en la "colaboración encadenada", logra un ciclo cerrado de "generación de datos - reparación lógica - optimización del modelo" a través del rastreo automatizado de rutas para la reparación de la lógica de datos, CTGAN y transformación cuantil para garantizar la calidad de los datos, y el entrenamiento colaborativo multi-modelo impulsado por pseudoetiquetas para mejorar la capacidad de generalización. A continuación, se detalla la lógica central, el soporte técnico y la implementación del proceso, con un enfoque en detallar el proceso dinámico del entrenamiento con pseudoetiquetas. I. Lógica Central: De la Reparación de Datos a la Colaboración del Modelo El marco comienza abordando el problema de las "rupturas lógicas" en los datos: abstrayendo los problemas que contienen reglas de salto en nodos a través del rastreo automatizado de rutas, construyendo un gráfico de salto dirigido y recorriendo para detectar nodos no visitados (truncamiento de ruta) y nodos duplicados (lógica de bucle). Las reglas se completan de acuerdo con el "principio de repetición" (seleccionando rutas de alta frecuencia) o el "principio estadístico" (longitud de ruta mediana/promedio), asegurando que la generación de datos cubra todas las ramas razonables. Sobre esta base, las características continuas se agrupan en combinaciones discretas a través del preprocesamiento (transformación cuantil agrupada) y se mapean a una distribución normal utilizando la transformación integral de probabilidad. El modelo CTGAN genera datos sintéticos utilizando un WGAN-GP condicional, combinado con la normalización específica del modo (modelado de modelos de mezcla gaussiana) y la generación adversarial parcial PAC (desacoplamiento de generadores de características) para mejorar la calidad. El post-procesamiento utiliza la coincidencia de cuantiles para alinear los datos generados con la distribución de datos original, complementado con la transformación de Box-Cox para corregir la asimetría, y finalmente asegura la aplicabilidad de los datos a través de reglas de negocio (recorte de límites, lógica temporal). El punto central de colaboración es que el entrenamiento con pseudoetiquetas combina datos reparados con datos sintéticos, genera pseudoetiquetas de alta calidad a través de múltiples modelos y se retroalimenta en el reentrenamiento del modelo, logrando un ciclo de retroalimentación positiva de "aumento de datos - mejora del modelo". II. Soporte Técnico: Doble Garantía de Matemáticas e Ingeniería • Generación de Datos: La transformación cuantil (integral de probabilidad + mapeo CDF inverso), CTGAN (función objetivo WGAN-GP condicional, pérdida de Wasserstein + penalización de gradiente), post-procesamiento (coincidencia de cuantiles + teorema de Kolmogorov-Smirnov para garantizar la consistencia de la distribución) garantizan la fidelidad estadística de los datos sintéticos. • Colaboración del Modelo: Integración de 8 modelos (ANN, LightGBM, Random Forest, etc.), utilizando mecanismos de atención de características (mejora de los pesos de las características clave) y aprendizaje negativo (restricción de divergencia KL en muestras de límite) para mejorar la robustez. • Fundamento Teórico: Teorema de Brenier (transformación cuantil = transporte óptimo), dualidad de Kantorovich-Rubinstein de WGAN (convergencia global), teorema de Gliklikh (la coincidencia de cuantiles es asintóticamente insesgada), equilibrando el rigor estadístico y la racionalidad empresarial. III. Implementación del Proceso: El Papel Pivotal Central del Entrenamiento con Pseudoetiquetas (I) Preparación Preliminar: Modelos Iniciales y Datos No Etiquetados Primero, entrenar 8 modelos maestros iniciales (ANN, LightGBM, etc.), evaluar la precisión utilizando el conjunto de validación y registrarla; Muestreo estratificado del 30% de datos reales/sintéticos como datos no etiquetados.
Esta red neuronal totalmente conectada adopta una arquitectu...