Por favor, gere um diagrama de blocos claro ilustrando a arquitetura do seguinte modelo de rede neural: Nome do Modelo: SAT-MoE. O lado esquerdo tem dois blocos de entrada: 1) Características do processo `opes` com formato [batch, num_opes, in_size_ope]; 2) Características da máquina `mas` com formato [batch, num_mas, in_size_ma]. Primeiro, aplique duas projeções lineares para obter representações ocultas da mesma dimensão, depois adicione embeddings de tipo (tipo de processo = 0, tipo de máquina = 1) e, adicionalmente, adicione codificação posicional à sequência do processo. Subsequentemente, aplique LayerNorm a ambos os caminhos separadamente e, em seguida, concatene-os ao longo da dimensão da sequência em uma sequência longa, que é alimentada em um Transformer Encoder empilhado (auto-atenção, atenção multi-cabeça, rede feed-forward). Um módulo Mixture-of-Experts (MoE) pode ser conectado no meio: uma rede de gating produz pesos para múltiplos experts MLP, e as saídas dos experts para cada token são ponderadas e somadas, seguidas por uma conexão residual e LayerNorm. A saída do Transformer é então dividida de volta em dois caminhos de acordo com o número original de processos e máquinas: representação do processo e representação da máquina. Em seguida, passe-os através de duas camadas de atenção cruzada sequencialmente: A primeira atenção "Processo → Máquina": as características do processo servem como Query, e as características da máquina servem como Key/Value, para obter a representação do processo atualizada; A segunda atenção "Máquina → Processo": as características da máquina servem como Query, e as características do processo servem como Key/Value, para obter a representação da máquina atualizada. As saídas finais são as características do processo atualizadas `out_opes` e as características da máquina `out_mas`. Por favor, use um layout de fluxo de dados da esquerda para a direita, conecte os módulos com setas, rotule o nome de cada módulo (como Projeção de Entrada, Embedding de Tipo, Codificação Posicional, Transformer Encoder, MoE, Atenção Ope-para-Máquina, Atenção Máquina-para-Ope, etc.) e torne o estilo do diagrama conciso e adequado para apresentação em artigos.
Este diagrama ilustra a diferença entre a geração de prompts...