![以下のニューラルネットワークモデルのアーキテクチャを示す明確なブロック図を生成してください。モデル名:SAT-MoE。左側には2つの入力ブロックがあります:1) 形状[batch, num_opes, in_size_ope]のプロセス特徴`opes`; 2) 形状[batch, num_mas, in_size_ma]の機械特徴`mas`。まず、2つの線形射影を適用して、同じ次元の隠れ表現を取得し、次にタイプ埋め込み(プロセスタイプ=0、機械タイプ=1)を追加し、さらに位置エンコーディングをプロセスシーケンスに追加します。その後、LayerNormを両方のパスに個別に適用し、それらをシーケンス次元に沿って連結して長いシーケンスにし、それを積み重ねられたTransformer Encoder(自己注意、マルチヘッド注意、フィードフォワードネットワーク)に入力します。 Mixture-of-Experts(MoE)モジュールを途中に接続できます:ゲーティングネットワークは複数のMLPエキスパートの重みを出力し、各トークンのエキスパート出力は重み付けされて合計され、その後に残差接続とLayerNormが続きます。 Transformerの出力は、元のプロセス数と機械数に応じて、プロセス表現と機械表現の2つのパスに分割されます。次に、それらを2つのクロスアテンションレイヤーに順番に通します:最初の「プロセス→機械」アテンション:プロセス特徴はQueryとして機能し、機械特徴はKey/Valueとして機能し、更新されたプロセス表現を取得します。2番目の「機械→プロセス」アテンション:機械特徴はQueryとして機能し、プロセス特徴はKey/Valueとして機能し、更新された機械表現を取得します。最終的な出力は、更新されたプロセス特徴`out_opes`と機械特徴`out_mas`です。左から右へのデータフローレイアウトを使用し、モジュールを矢印で接続し、各モジュールの名前(入力射影、タイプ埋め込み、位置エンコーディング、Transformer Encoder、MoE、Ope-to-Machine Attention、Machine-to-Ope Attentionなど)にラベルを付け、図のスタイルを簡潔にし、論文発表に適したものにしてください。](/_next/image?url=https%3A%2F%2Fpub-8c0ddfa5c0454d40822bc9944fe6f303.r2.dev%2Fai-drawings%2FQrRrIgUwJnufqN4Havc2b4pFYV84PSTW%2F763c7d61-fe20-46a0-af4e-ddec53f57135%2F26fdf95b-f6f5-47a1-bf67-976f398ab221.png&w=3840&q=75)
以下のニューラルネットワークモデルのアーキテクチャを示す明確なブロック図を生成してください。モデル名:SAT-MoE。左側には2つの入力ブロックがあります:1) 形状[batch, num_opes, in_size_ope]のプロセス特徴`opes`; 2) 形状[batch, num_mas, in_size_ma]の機械特徴`mas`。まず、2つの線形射影を適用して、同じ次元の隠れ表現を取得し、次にタイプ埋め込み(プロセスタイプ=0、機械タイプ=1)を追加し、さらに位置エンコーディングをプロセスシーケンスに追加します。その後、LayerNormを両方のパスに個別に適用し、それらをシーケンス次元に沿って連結して長いシーケンスにし、それを積み重ねられたTransformer Encoder(自己注意、マルチヘッド注意、フィードフォワードネットワーク)に入力します。 Mixture-of-Experts(MoE)モジュールを途中に接続できます:ゲーティングネットワークは複数のMLPエキスパートの重みを出力し、各トークンのエキスパート出力は重み付けされて合計され、その後に残差接続とLayerNormが続きます。 Transformerの出力は、元のプロセス数と機械数に応じて、プロセス表現と機械表現の2つのパスに分割されます。次に、それらを2つのクロスアテンションレイヤーに順番に通します:最初の「プロセス→機械」アテンション:プロセス特徴はQueryとして機能し、機械特徴はKey/Valueとして機能し、更新されたプロセス表現を取得します。2番目の「機械→プロセス」アテンション:機械特徴はQueryとして機能し、プロセス特徴はKey/Valueとして機能し、更新された機械表現を取得します。最終的な出力は、更新されたプロセス特徴`out_opes`と機械特徴`out_mas`です。左から右へのデータフローレイアウトを使用し、モジュールを矢印で接続し、各モジュールの名前(入力射影、タイプ埋め込み、位置エンコーディング、Transformer Encoder、MoE、Ope-to-Machine Attention、Machine-to-Ope Attentionなど)にラベルを付け、図のスタイルを簡潔にし、論文発表に適したものにしてください。