![請生成一張清晰的方塊圖,說明以下神經網路模型的架構:模型名稱:SAT-MoE。左側有兩個輸入區塊:1) 製程特徵 `opes`,形狀為 [batch, num_opes, in_size_ope];2) 機器特徵 `mas`,形狀為 [batch, num_mas, in_size_ma]。首先,應用兩個線性投影以獲得相同維度的隱藏表示,然後添加類型嵌入(製程類型 = 0,機器類型 = 1),並額外將位置編碼添加到製程序列。隨後,分別對兩個路徑應用 LayerNorm,然後沿序列維度將它們連接成一個長序列,該序列被饋送到堆疊的 Transformer 編碼器(自注意力、多頭注意力、前饋網路)。可以在中間連接一個混合專家(MoE)模組:一個閘控網路輸出多個 MLP 專家的權重,並且每個 token 的專家輸出被加權和求和,然後進行殘差連接和 LayerNorm。Transformer 的輸出然後根據原始的製程和機器數量拆分回兩個路徑:製程表示和機器表示。然後,依次通過兩個交叉注意力層:第一個「製程 → 機器」注意力:製程特徵用作 Query,機器特徵用作 Key/Value,以獲得更新的製程表示;第二個「機器 → 製程」注意力:機器特徵用作 Query,製程特徵用作 Key/Value,以獲得更新的機器表示。最終輸出是更新的製程特徵 `out_opes` 和機器特徵 `out_mas`。請使用從左到右的資料流佈局,用箭頭連接模組,標記每個模組的名稱(例如,輸入投影、類型嵌入、位置編碼、Transformer 編碼器、MoE、製程到機器注意力、機器到製程注意力等),並使圖表風格簡潔且適合論文展示。](/_next/image?url=https%3A%2F%2Fpub-8c0ddfa5c0454d40822bc9944fe6f303.r2.dev%2Fai-drawings%2FQrRrIgUwJnufqN4Havc2b4pFYV84PSTW%2F763c7d61-fe20-46a0-af4e-ddec53f57135%2F26fdf95b-f6f5-47a1-bf67-976f398ab221.png&w=3840&q=75)
請生成一張清晰的方塊圖,說明以下神經網路模型的架構:模型名稱:SAT-MoE。左側有兩個輸入區塊:1) 製程特徵 `opes`,形狀為 [batch, num_opes, in_size_ope];2) 機器特徵 `mas`,形狀為 [batch, num_mas, in_size_ma]。首先,應用兩個線性投影以獲得相同維度的隱藏表示,然後添加類型嵌入(製程類型 = 0,機器類型 = 1),並額外將位置編碼添加到製程序列。隨後,分別對兩個路徑應用 LayerNorm,然後沿序列維度將它們連接成一個長序列,該序列被饋送到堆疊的 Transformer 編碼器(自注意力、多頭注意力、前饋網路)。可以在中間連接一個混合專家(MoE)模組:一個閘控網路輸出多個 MLP 專家的權重,並且每個 token 的專家輸出被加權和求和,然後進行殘差連接和 LayerNorm。Transformer 的輸出然後根據原始的製程和機器數量拆分回兩個路徑:製程表示和機器表示。然後,依次通過兩個交叉注意力層:第一個「製程 → 機器」注意力:製程特徵用作 Query,機器特徵用作 Key/Value,以獲得更新的製程表示;第二個「機器 → 製程」注意力:機器特徵用作 Query,製程特徵用作 Key/Value,以獲得更新的機器表示。最終輸出是更新的製程特徵 `out_opes` 和機器特徵 `out_mas`。請使用從左到右的資料流佈局,用箭頭連接模組,標記每個模組的名稱(例如,輸入投影、類型嵌入、位置編碼、Transformer 編碼器、MoE、製程到機器注意力、機器到製程注意力等),並使圖表風格簡潔且適合論文展示。
每次迭代的核心在於生成滿足約束條件的子代個體,並完成整個族群的適應度評估。這為選擇新一代族群提供了完整的基礎。此階段分為...