Genera un diagramma a blocchi chiaro che illustri l'architettura del seguente modello di rete neurale: Nome del modello: SAT-MoE. Il lato sinistro ha due blocchi di input: 1) Feature di processo `opes` con shape [batch, num_opes, in_size_ope]; 2) Feature di macchina `mas` con shape [batch, num_mas, in_size_ma]. Innanzitutto, applica due proiezioni lineari per ottenere rappresentazioni nascoste della stessa dimensione, quindi aggiungi embedding di tipo (tipo processo = 0, tipo macchina = 1) e, inoltre, aggiungi codifica posizionale alla sequenza di processo. Successivamente, applica LayerNorm a entrambi i percorsi separatamente, e poi concatenali lungo la dimensione della sequenza in una sequenza lunga, che viene alimentata a un Transformer Encoder impilato (self-attention, multi-head attention, feed-forward network). Un modulo Mixture-of-Experts (MoE) può essere collegato nel mezzo: una rete di gating produce pesi per molteplici esperti MLP, e gli output degli esperti per ogni token sono pesati e sommati, seguiti da una connessione residua e LayerNorm. L'output del Transformer viene quindi suddiviso nuovamente in due percorsi in base al numero originale di processi e macchine: rappresentazione del processo e rappresentazione della macchina. Quindi, falli passare attraverso due layer di cross-attention in sequenza: La prima attenzione "Processo → Macchina": le feature di processo fungono da Query e le feature di macchina fungono da Key/Value, per ottenere la rappresentazione del processo aggiornata; La seconda attenzione "Macchina → Processo": le feature di macchina fungono da Query e le feature di processo fungono da Key/Value, per ottenere la rappresentazione della macchina aggiornata. Gli output finali sono le feature di processo aggiornate `out_opes` e le feature di macchina `out_mas`. Utilizza un layout di flusso di dati da sinistra a destra, collega i moduli con frecce, etichetta il nome di ciascun modulo (come Proiezione di Input, Embedding di Tipo, Codifica Posizionale, Transformer Encoder, MoE, Attenzione Ope-to-Machine, Attenzione Machine-to-Ope, ecc.) e rendi lo stile del diagramma conciso e adatto alla presentazione in un articolo.
Questo diagramma illustra la differenza tra la generazione d...