Por favor, genera un diagrama de bloques claro que ilustre la arquitectura del siguiente modelo de red neuronal: Nombre del modelo: SAT-MoE. El lado izquierdo tiene dos bloques de entrada: 1) Características del proceso `opes` con forma [batch, num_opes, in_size_ope]; 2) Características de la máquina `mas` con forma [batch, num_mas, in_size_ma]. Primero, aplica dos proyecciones lineales para obtener representaciones ocultas de la misma dimensión, luego agrega incrustaciones de tipo (tipo de proceso = 0, tipo de máquina = 1), y adicionalmente agrega codificación posicional a la secuencia del proceso. Posteriormente, aplica LayerNorm a ambos caminos por separado, y luego concaténalos a lo largo de la dimensión de la secuencia en una secuencia larga, que se introduce en un codificador Transformer apilado (auto-atención, atención multi-cabeza, red feed-forward). Se puede conectar un módulo de Mixture-of-Experts (MoE) en el medio: una red de gating genera pesos para múltiples expertos MLP, y las salidas de los expertos para cada token se ponderan y se suman, seguido de una conexión residual y LayerNorm. La salida del Transformer se divide nuevamente en dos caminos de acuerdo con el número original de procesos y máquinas: representación del proceso y representación de la máquina. Luego, pásalos a través de dos capas de atención cruzada secuencialmente: La primera atención "Proceso → Máquina": las características del proceso sirven como Query, y las características de la máquina sirven como Key/Value, para obtener la representación del proceso actualizada; La segunda atención "Máquina → Proceso": las características de la máquina sirven como Query, y las características del proceso sirven como Key/Value, para obtener la representación de la máquina actualizada. Las salidas finales son las características del proceso actualizadas `out_opes` y las características de la máquina `out_mas`. Por favor, utiliza un diseño de flujo de datos de izquierda a derecha, conecta los módulos con flechas, etiqueta el nombre de cada módulo (como Proyección de Entrada, Incrustación de Tipo, Codificación Posicional, Codificador Transformer, MoE, Atención Ope-a-Máquina, Atención Máquina-a-Ope, etc.), y haz que el estilo del diagrama sea conciso y adecuado para la presentación en un artículo.
Este diagrama ilustra la diferencia entre la generación de p...