Marco de Aprendizaje Colaborativo Basado en Cadenas: Un Proceso Colaborativo para la Imputación, Aumento y Entrenamiento con Pseudoetiquetas de Datos Este marco, centrado en la "colaboración basada en cadenas", logra un enfoque unificado de la fidelidad estadística, la racionalidad empresarial y la generalización del modelo en datos sintéticos a través de tres pilares clave: rastreo automatizado de rutas (imputación de datos), generación y optimización de datos multi-módulo (CTGAN + post-procesamiento) y entrenamiento colaborativo multi-modelo impulsado por pseudoetiquetas. Las siguientes secciones proporcionan una explicación integrada desde las perspectivas de los algoritmos centrales, los módulos técnicos y la implementación del proceso. I. Algoritmo Central: Rastreo Automatizado de Rutas (Lógica de Imputación de Datos) Para abordar el problema de las interrupciones de ruta causadas por reglas de salto faltantes en cuestionarios/datos, se diseña un algoritmo de rastreo y finalización de rutas como la herramienta central para la "imputación de datos". 1. Pasos del Algoritmo • Definición de Nodo de Ruta: Abstraer preguntas con lógica de salto en nodos, marcando su tipo (opción única/opción múltiple), atributos lógicos (obligatorio/vinculado a preguntas posteriores) y espacio de valores. • Modelado de Gráfico de Saltos: Convertir reglas de salto (por ejemplo, "P1='Sí' → P3") en aristas dirigidas, construyendo un "gráfico de saltos de lógica de cuestionario" en forma de árbol. • Recorrido y Detección: Recorrer los nodos desde el punto de partida, registrando la ruta de acceso. Si hay nodos no visitados (truncamiento de ruta), falta una regla; si hay nodos visitados repetidamente (ruta cíclica), existe una contradicción lógica. • Finalización de la Ruta: • Rutas Truncadas: Seleccionar rutas de alta frecuencia según el "principio de repetición" o reparar según el "principio estadístico" (longitud de ruta mediana/promedio). • Rutas Cíclicas: Después de eliminar los nodos duplicados, completar la ruta utilizando el método de ruta truncada. • Verificación y Optimización: Verificar si hay bucles/redundancias/omisiones en la ruta completada, ajustar los pesos de las aristas o redefinir las reglas. 2. Rol en la Colaboración Basada en Cadenas Proporciona lógica estructurada para la imputación de datos: Identifica nodos rotos (como asociaciones de salto faltantes) a través del rastreo de rutas y completa las reglas combinando principios estadísticos, asegurando la integridad de la generación de datos (por ejemplo, las rutas del cuestionario cubren todas las ramas razonables). II. Módulos Técnicos: Fundamentos Matemáticos de la Generación y Optimización de Datos El marco integra la teoría de la probabilidad, la teoría del transporte óptimo y el aprendizaje profundo para garantizar la calidad de los datos a través de tres etapas: preprocesamiento, generación y post-procesamiento. 1. Preprocesamiento: Transformación Cuantil Agrupada (Estandarización de Datos) • Principio Matemático: Para una característica continua X, mapearla a una distribución uniforme U(0,1) utilizando la función de distribución acumulativa F_X(x), y luego transformarla en la distribución objetivo utilizando la CDF inversa \Phi^{-1} de la distribución normal estándar: X_{\text{trans}} = \Phi^{-1}(F_X(X)), \quad X_{\text{trans}c} = \Phi^{-1}(F_{X|c}(X)) (La transformación agrupada calcula la distribución condicional F_{X|c} según la combinación de características discretas c). • Base Teórica: Teorema de la transformación integral de probabilidad (U=F_X(X)\sim\text{Uniforme}(0,1))
Esta red neuronal totalmente conectada adopta una arquitectu...