Por favor, genere un diagrama de estructura de red que ilustre los módulos mejorados C3k2_DWR y C3k2_SIR basados en el módulo C3k2 en YOLOv11. Presente ambos módulos en un solo diagrama, dispuestos vertical u horizontalmente. El estilo del diagrama debe adherirse a los estándares de las revistas académicas de visión artificial de primer nivel, como CVPR, conforme a las convenciones estructurales de los artículos académicos. Las mejoras específicas se detallan en el siguiente texto: La idea central detrás de los módulos C3k2_DWR y C3k2_SIR es reemplazar las capas convolucionales estándar dentro del Bottleneck del módulo C3K2 original con componentes mejorados. Específicamente, C3k2_DWR incrusta un módulo DWR entre cv1 y cv2 en el Bottleneck. Este módulo DWR reemplaza la convolución 3x3 única original con una estructura que concatena la residualización regional (pooling global + convolución 1x1) y la residualización semántica (convolución separable profunda dilatada de múltiples ramas). Esto agrega explícitamente información contextual multiescala en rutas de características profundas para mejorar el razonamiento de oclusión. C3k2_SIR, por otro lado, incrusta un módulo SIR en la misma ubicación. Este módulo extrae detalles espaciales a través de la convolución profunda y luego los recalibra utilizando la atención de canal, mejorando sinérgicamente las respuestas de los bordes. Está diseñado específicamente para rutas de características de capa intermedia para recuperar la información de textura y contorno perdida por los backbones ligeros. Ambos módulos mantienen la topología de doble rama y el marco de conexión residual de C3K2, implementando solo mejoras específicas dentro del Bottleneck. Para la estructura específica de los módulos DWR y SIR, consulte el siguiente texto. También puede recopilar información relevante usted mismo (como el artículo original de DWRSeg) para complementar los detalles. El módulo DWR adopta una estructura de dos etapas: primero, extrae el contexto global a través de la residualización regional (pooling promedio global + convolución 1x1). Luego, captura características locales multiescala a través de la residualización semántica (convolución separable profunda dilatada de múltiples ramas, con tasas de dilatación configurables). Finalmente, fusiona las características y agrega una conexión residual. El módulo SIR emplea un diseño ligero: primero mejora los detalles espaciales a través de la convolución profunda, y luego recalibra la importancia de las características utilizando un mecanismo de atención de canal (estructura squeeze-and-excitation) para afinar los bordes. Ambos módulos mantienen las mismas dimensiones de entrada y salida, lo que permite la mejora de características plug-and-play.

El perro robot etiqueta automáticamente objetos ambientales ...