Bitte erstellen Sie ein übersichtliches Blockdiagramm, das die Architektur des folgenden neuronalen Netzwerkmodells veranschaulicht: Modellname: SAT-MoE. Die linke Seite hat zwei Eingangsblöcke: 1) Prozessmerkmale `opes` mit Form [Batch, num_opes, in_size_ope]; 2) Maschinenmerkmale `mas` mit Form [Batch, num_mas, in_size_ma]. Wenden Sie zuerst zwei lineare Projektionen an, um verborgene Repräsentationen derselben Dimension zu erhalten, fügen Sie dann Typ-Einbettungen hinzu (Prozesstyp = 0, Maschinentyp = 1) und zusätzlich eine Positionskodierung zur Prozesssequenz. Wenden Sie anschließend LayerNorm auf beide Pfade separat an und verketten Sie sie dann entlang der Sequenzdimension zu einer langen Sequenz, die in einen gestapelten Transformer Encoder eingespeist wird (Selbstaufmerksamkeit, Multi-Head-Aufmerksamkeit, Feed-Forward-Netzwerk). Ein Mixture-of-Experts (MoE)-Modul kann in der Mitte verbunden werden: ein Gating-Netzwerk gibt Gewichte für mehrere MLP-Experten aus, und die Expertenausgaben für jedes Token werden gewichtet und summiert, gefolgt von einer residualen Verbindung und LayerNorm. Die Transformer-Ausgabe wird dann gemäß der ursprünglichen Anzahl von Prozessen und Maschinen wieder in zwei Pfade aufgeteilt: Prozessrepräsentation und Maschinenrepräsentation. Leiten Sie sie dann nacheinander durch zwei Cross-Attention-Schichten: Die erste "Prozess → Maschine"-Aufmerksamkeit: Prozessmerkmale dienen als Query und Maschinenmerkmale dienen als Key/Value, um die aktualisierte Prozessrepräsentation zu erhalten; Die zweite "Maschine → Prozess"-Aufmerksamkeit: Maschinenmerkmale dienen als Query und Prozessmerkmale dienen als Key/Value, um die aktualisierte Maschinenrepräsentation zu erhalten. Die endgültigen Ausgaben sind die aktualisierten Prozessmerkmale `out_opes` und Maschinenmerkmale `out_mas`. Bitte verwenden Sie ein Links-nach-Rechts-Datenflusslayout, verbinden Sie die Module mit Pfeilen, beschriften Sie den Namen jedes Moduls (wie z. B. Eingabeprojektion, Typ-Einbettung, Positionskodierung, Transformer Encoder, MoE, Ope-zu-Maschine-Aufmerksamkeit, Maschine-zu-Ope-Aufmerksamkeit usw.) und gestalten Sie den Diagrammstil prägnant und geeignet für die Präsentation in wissenschaftlichen Arbeiten.
Dieses Diagramm veranschaulicht den Unterschied zwischen sta...