Veuillez générer un schéma bloc clair illustrant l'architecture du modèle de réseau neuronal suivant : Nom du modèle : SAT-MoE. Le côté gauche comporte deux blocs d'entrée : 1) Caractéristiques du processus `opes` avec la forme [batch, num_opes, in_size_ope] ; 2) Caractéristiques de la machine `mas` avec la forme [batch, num_mas, in_size_ma]. Appliquer d'abord deux projections linéaires pour obtenir des représentations cachées de la même dimension, puis ajouter des embeddings de type (type de processus = 0, type de machine = 1), et ajouter en plus un encodage positionnel à la séquence de processus. Appliquer ensuite LayerNorm aux deux chemins séparément, puis les concaténer le long de la dimension de la séquence en une longue séquence, qui est introduite dans un encodeur Transformer empilé (auto-attention, attention multi-tête, réseau feed-forward). Un module Mixture-of-Experts (MoE) peut être connecté au milieu : un réseau de gating produit des poids pour plusieurs experts MLP, et les sorties d'experts pour chaque token sont pondérées et additionnées, suivies d'une connexion résiduelle et de LayerNorm. La sortie du Transformer est ensuite divisée en deux chemins selon le nombre original de processus et de machines : représentation du processus et représentation de la machine. Ensuite, les faire passer séquentiellement à travers deux couches d'attention croisée : La première attention "Processus → Machine" : les caractéristiques du processus servent de Query, et les caractéristiques de la machine servent de Key/Value, pour obtenir la représentation du processus mise à jour ; La deuxième attention "Machine → Processus" : les caractéristiques de la machine servent de Query, et les caractéristiques du processus servent de Key/Value, pour obtenir la représentation de la machine mise à jour. Les sorties finales sont les caractéristiques du processus mises à jour `out_opes` et les caractéristiques de la machine mises à jour `out_mas`. Veuillez utiliser une disposition de flux de données de gauche à droite, connecter les modules avec des flèches, étiqueter le nom de chaque module (tel que Projection d'entrée, Embedding de type, Encodage positionnel, Encodeur Transformer, MoE, Attention Ope-vers-Machine, Attention Machine-vers-Ope, etc.), et rendre le style du diagramme concis et adapté à une présentation dans un article.
Ce diagramme illustre la différence entre la génération de p...