Цепочечная структура для совместного обучения: процесс совместной работы для вменения данных, их расширения и обучения с использованием псевдометок. Эта структура, основанная на "цепочечном взаимодействии", обеспечивает унифицированный подход к статистической достоверности, деловой рациональности и обобщению модели в синтетических данных посредством трех ключевых столпов: автоматизированное отслеживание путей (вменение данных), многомодульная генерация и оптимизация данных (CTGAN + постобработка) и совместное обучение с использованием нескольких моделей, управляемое псевдометками. В следующих разделах представлено комплексное объяснение с точек зрения основных алгоритмов, технических модулей и реализации процесса. I. Основной алгоритм: Автоматизированное отслеживание путей (логика вменения данных) Для решения проблемы разрывов путей, вызванных отсутствием правил перехода в анкетах/данных, алгоритм отслеживания и завершения путей разработан в качестве основного инструмента для "вменения данных". 1. Этапы алгоритма • Определение узла пути: Абстрагирование вопросов с логикой перехода в узлы, с указанием их типа (одиночный выбор/множественный выбор), логических атрибутов (обязательный/связанный с последующими вопросами) и пространства значений. • Моделирование графа переходов: Преобразование правил перехода (например, "Q1='Да' → Q3") в направленные ребра, построение древовидного "графа логических переходов анкеты". • Обход и обнаружение: Обход узлов, начиная с начальной точки, с записью пути доступа. Если есть непосещенные узлы (усечение пути), правило отсутствует; если есть повторно посещенные узлы (циклический путь), существует логическое противоречие. • Завершение пути: • Усеченные пути: Выбор высокочастотных путей в соответствии с "принципом повторения" или восстановление в соответствии со "статистическим принципом" (медианная/средняя длина пути). • Циклические пути: После удаления повторяющихся узлов завершение пути с использованием метода усеченного пути. • Проверка и оптимизация: Проверка на наличие циклов/избыточностей/пропусков в завершенном пути, корректировка весов ребер или переопределение правил. 2. Роль в цепочечном взаимодействии Обеспечивает структурированную логику для вменения данных: Определяет разорванные узлы (например, отсутствующие ассоциации переходов) посредством отслеживания путей и завершает правила, объединяя статистические принципы, обеспечивая целостность генерации данных (например, пути анкеты охватывают все разумные ветви). II. Технические модули: Математические основы генерации и оптимизации данных Структура объединяет теорию вероятностей, теорию оптимальной транспортировки и глубокое обучение для обеспечения качества данных на трех этапах: предварительная обработка, генерация и постобработка. 1. Предварительная обработка: Групповое квантильное преобразование (стандартизация данных) • Математический принцип: Для непрерывного признака X отобразите его в равномерное распределение U(0,1) с использованием кумулятивной функции распределения F_X(x), а затем преобразуйте его в целевое распределение с использованием обратной CDF \Phi^{-1} стандартного нормального распределения: X_{\text{trans}} = \Phi^{-1}(F_X(X)), \quad X_{\text{trans}c} = \Phi^{-1}(F_{X|c}(X)) (Групповое преобразование вычисляет условное распределение F_{X|c} в соответствии с дискретной комбинацией признаков c). • Теоретическая основа: Теорема интегрального преобразования вероятностей (U=F_X(X)\sim\text{Uniform}(0,1))
Эта полносвязная нейронная сеть использует иерархическую пос...