Por favor, genera un diagrama arquitectónico detallado del modelo YOLO11s-seg mejorado. El diagrama debe ilustrar cada capa de la estructura de la red de la manera más completa posible, potencialmente utilizando módulos para representar grupos de capas, garantizando al mismo tiempo la precisión estructural. El diseño general debe dividirse en secciones izquierda y derecha. El lado izquierdo debe representar la estructura de backbone mejorada, y el lado derecho debe mostrar los componentes de cuello y cabeza mejorados. Cada bloque estructural debe ser claro y completo. El esquema de color debe ser de tonos cálidos, y el estilo debe emular las figuras que se encuentran en los artículos de conferencias o revistas de informática de primer nivel. Las mejoras específicas se basan en lo siguiente: Esta versión mejorada emplea una estrategia de optimización jerárquica y un mecanismo de atención de doble rama para mejorar YOLO11s-seg. En el Backbone, MobileNetV4HybridMedium reemplaza la red de backbone original para mejorar el rendimiento ligero. El cuello incorpora el módulo C2PSA_mona, un innovador mecanismo de atención de doble rama que integra PSA (Atención Sensible a la Posición) y Mona (Operador Multiescala) en ramas paralelas. La fusión de características se logra a través de pesos aprendibles, lo que mejora significativamente la representación de características multiescala y la robustez en escenarios complejos. En la Cabeza, se adopta una estrategia de mejora de características jerárquica derivada del artículo DWRSeg: las características superficiales (P3/8) conservan el módulo C3k2 estándar para mantener las características ligeras; las características intermedias (P4/16) utilizan el módulo C3k2_SIR, que combina la convolución separable en profundidad y la atención de canal a través de un mecanismo de Refinamiento de Información Espacial para afinar las características y mejorar la localización de bordes, particularmente adecuado para segmentar objetos irregulares; las características profundas (P5/32) emplean el C3k2_DWR módulo, que logra la agregación de contexto a gran escala a través de la residualización regional (extracción de contexto global) y la residualización semántica (convolución atrous multirama con tasas de dilatación de [1,3,5]), compensando eficazmente el campo receptivo limitado de la red de backbone ligera.