Пожалуйста, создайте четкую блок-схему, иллюстрирующую архитектуру следующей модели нейронной сети: Название модели: SAT-MoE. С левой стороны расположены два входных блока: 1) Признаки процессов `opes` с формой [batch, num_opes, in_size_ope]; 2) Признаки машин `mas` с формой [batch, num_mas, in_size_ma]. Сначала примените две линейные проекции для получения скрытых представлений одинаковой размерности, затем добавьте эмбеддинги типов (тип процесса = 0, тип машины = 1) и дополнительно добавьте позиционное кодирование к последовательности процессов. Впоследствии примените LayerNorm к обоим путям раздельно, а затем объедините их вдоль размерности последовательности в длинную последовательность, которая подается в многослойный Transformer Encoder (само-внимание, многоголовое внимание, сеть прямого распространения). Модуль Mixture-of-Experts (MoE) может быть подключен посередине: сеть стробирования выдает веса для нескольких MLP-экспертов, а выходы экспертов для каждого токена взвешиваются и суммируются, за которыми следуют остаточное соединение и LayerNorm. Затем выход Transformer разделяется обратно на два пути в соответствии с исходным количеством процессов и машин: представление процесса и представление машины. Затем пропустите их через два слоя перекрестного внимания последовательно: Первое внимание "Процесс → Машина": признаки процесса служат в качестве Query, а признаки машины служат в качестве Key/Value, чтобы получить обновленное представление процесса; Второе внимание "Машина → Процесс": признаки машины служат в качестве Query, а признаки процесса служат в качестве Key/Value, чтобы получить обновленное представление машины. Конечными выходами являются обновленные признаки процесса `out_opes` и признаки машины `out_mas`. Пожалуйста, используйте макет потока данных слева направо, соедините модули стрелками, подпишите название каждого модуля (например, Input Projection, Type Embedding, Positional Encoding, Transformer Encoder, MoE, Ope-to-Machine Attention, Machine-to-Ope Attention и т. д.) и сделайте стиль диаграммы лаконичным и подходящим для презентации в статье.
Эта диаграмма иллюстрирует разницу между статичной и динамич...