Veuillez générer un diagramme de structure de réseau illustrant les modules améliorés C3k2_DWR et C3k2_SIR basés sur le module C3k2 dans YOLOv11. Présentez les deux modules dans un seul diagramme, disposés verticalement ou horizontalement. Le style du diagramme doit respecter les normes des revues académiques de premier plan en vision par ordinateur telles que CVPR, en se conformant aux conventions structurelles des articles académiques. Les améliorations spécifiques sont détaillées dans le texte suivant : L'idée centrale derrière les modules C3k2_DWR et C3k2_SIR est de remplacer les couches convolutionnelles standard au sein du Bottleneck du module C3K2 original par des composants améliorés. Plus précisément, C3k2_DWR intègre un module DWR entre cv1 et cv2 dans le Bottleneck. Ce module DWR remplace la convolution 3x3 unique d'origine par une structure qui concatène la résidualisation régionale (pooling global + convolution 1x1) et la résidualisation sémantique (convolution diluée séparable en profondeur multi-branche). Cela agrège explicitement les informations contextuelles multi-échelles sur les chemins de caractéristiques profondes pour améliorer le raisonnement sur l'occlusion. C3k2_SIR, d'autre part, intègre un module SIR au même endroit. Ce module extrait les détails spatiaux par le biais d'une convolution en profondeur, puis les recalibre à l'aide de l'attention de canal, améliorant ainsi de manière synergique les réponses de bord. Il est spécifiquement conçu pour les chemins de caractéristiques de la couche intermédiaire afin de récupérer les informations de texture et de contour perdues par les backbones légers. Les deux modules conservent la topologie à double branche et le cadre de connexion résiduelle de C3K2, en mettant en œuvre uniquement des améliorations ciblées au sein du Bottleneck. Pour la structure spécifique des modules DWR et SIR, veuillez vous référer au texte suivant. Vous pouvez également recueillir vous-même des informations pertinentes (telles que l'article original DWRSeg) pour compléter les détails. Le module DWR adopte une structure en deux étapes : d'abord, il extrait le contexte global par le biais de la résidualisation régionale (pooling moyen global + convolution 1x1). Ensuite, il capture les caractéristiques locales multi-échelles via la résidualisation sémantique (convolution diluée séparable en profondeur multi-branche, avec des taux de dilatation configurables). Enfin, il fusionne les caractéristiques et ajoute une connexion résiduelle. Le module SIR utilise une conception légère : il améliore d'abord les détails spatiaux grâce à la convolution en profondeur, puis recalibre l'importance des caractéristiques à l'aide d'un mécanisme d'attention de canal (structure squeeze-and-excitation) pour affiner les bords. Les deux modules conservent les mêmes dimensions d'entrée et de sortie, ce qui permet une amélioration des caractéristiques de type "plug-and-play".

Le chien robot étiquette automatiquement les objets environn...