Por favor, gere um diagrama arquitetônico detalhado do modelo YOLO11s-seg aprimorado. O diagrama deve ilustrar cada camada da estrutura da rede da forma mais abrangente possível, potencialmente usando módulos para representar grupos de camadas, garantindo a precisão estrutural. O layout geral deve ser dividido em seções esquerda e direita. O lado esquerdo deve representar a estrutura backbone aprimorada, e o lado direito deve exibir os componentes neck e head melhorados. Cada bloco estrutural deve ser claro e completo. O esquema de cores deve ser em tons quentes, e o estilo deve emular as figuras encontradas em artigos de conferências ou periódicos de alto nível em ciência da computação. As melhorias específicas são baseadas no seguinte: Esta versão aprimorada emprega uma estratégia de otimização hierárquica e um mecanismo de atenção de ramificação dupla para aprimorar o YOLO11s-seg. No Backbone, o MobileNetV4HybridMedium substitui a rede backbone original para melhorar o desempenho leve. O neck incorpora o módulo C2PSA_mona, um mecanismo de atenção de ramificação dupla inovador que integra PSA (Position Sensitive Attention) e Mona (Multi-scale Operator) em ramificações paralelas. A fusão de recursos é alcançada por meio de pesos aprendíveis, aprimorando significativamente a representação de recursos multiescala e a robustez em cenários complexos. No Head, uma estratégia de aprimoramento de recursos hierárquica derivada do artigo DWRSeg é adotada: recursos rasos (P3/8) retêm o módulo C3k2 padrão para manter características leves; recursos intermediários (P4/16) usam o módulo C3k2_SIR, que combina convolução depthwise e atenção de canal por meio de um mecanismo de Refinamento de Informação Espacial para aguçar os recursos e aprimorar a localização de bordas, particularmente adequado para segmentar objetos irregulares; recursos profundos (P5/32) empregam o C3k2_DWR, que alcança agregação de contexto em larga escala por meio de residualização regional (extração de contexto global) e residualização semântica (convolução atrous multi-ramo com taxas de dilatação de [1,3,5]), compensando efetivamente o campo receptivo limitado da rede backbone leve.

Um paradigma generativo de quatro etapas baseado em "constru...