Veuillez générer un diagramme architectural détaillé du modèle YOLO11s-seg amélioré. Le diagramme doit illustrer chaque couche de la structure du réseau de manière aussi exhaustive que possible, en utilisant potentiellement des modules pour représenter des groupes de couches, tout en garantissant la précision structurelle. La disposition générale doit être divisée en sections gauche et droite. Le côté gauche doit représenter la structure dorsale améliorée, et le côté droit doit afficher les composants améliorés du cou et de la tête. Chaque bloc structurel doit être clair et complet. La palette de couleurs doit être dans des tons chauds, et le style doit imiter les figures que l'on trouve dans les articles de conférences ou de revues informatiques de premier plan. Les améliorations spécifiques sont basées sur les éléments suivants : Cette version améliorée utilise une stratégie d'optimisation hiérarchique et un mécanisme d'attention à double branche pour améliorer YOLO11s-seg. Dans le Backbone, MobileNetV4HybridMedium remplace le réseau dorsal d'origine pour améliorer les performances en termes de légèreté. Le cou intègre le module C2PSA_mona, un mécanisme d'attention innovant à double branche qui intègre PSA (Position Sensitive Attention) et Mona (Multi-scale Operator) dans des branches parallèles. La fusion des caractéristiques est réalisée grâce à des poids apprenables, ce qui améliore considérablement la représentation des caractéristiques multi-échelles et la robustesse dans des scénarios complexes. Dans la tête, une stratégie d'amélioration hiérarchique des caractéristiques dérivée de l'article DWRSeg est adoptée : les caractéristiques superficielles (P3/8) conservent le module C3k2 standard pour maintenir des caractéristiques de légèreté ; les caractéristiques intermédiaires (P4/16) utilisent le module C3k2_SIR, qui combine la convolution en profondeur et l'attention des canaux grâce à un mécanisme de raffinement de l'information spatiale pour affiner les caractéristiques et améliorer la localisation des bords, particulièrement adapté à la segmentation d'objets irréguliers ; les caractéristiques profondes (P5/32) utilisent le module C3k2_DWR, qui réalise une agrégation contextuelle à grande échelle grâce à une résidualisation régionale (extraction du contexte global) et une résidualisation sémantique (convolution atrous multi-branches avec des taux de dilatation de [1,3,5]), compensant efficacement le champ réceptif limité du réseau dorsal léger.