Bitte erstellen Sie ein Netzwerkstrukturdiagramm, das die verbesserten C3k2_DWR- und C3k2_SIR-Module basierend auf dem C3k2-Modul in YOLOv11 veranschaulicht. Stellen Sie beide Module in einem einzigen Diagramm dar, entweder vertikal oder horizontal angeordnet. Der Stil des Diagramms sollte den Standards von erstklassigen Computer-Vision-Fachzeitschriften wie CVPR entsprechen und sich an die strukturellen Konventionen akademischer Arbeiten halten. Die spezifischen Verbesserungen sind im folgenden Text detailliert beschrieben: Die Kernidee hinter den C3k2_DWR- und C3k2_SIR-Modulen ist der Austausch von Standard-Faltungsschichten innerhalb des Bottleneck des ursprünglichen C3K2-Moduls durch verbesserte Komponenten. Insbesondere bettet C3k2_DWR ein DWR-Modul zwischen cv1 und cv2 im Bottleneck ein. Dieses DWR-Modul ersetzt die ursprüngliche einzelne 3x3-Faltung durch eine Struktur, die regionale Residualisierung (Global Pooling + 1x1-Faltung) und semantische Residualisierung (Multi-Branch Depthwise Separable Dilated Convolution) verkettet. Dies aggregiert explizit multiskalige Kontextinformationen auf tiefen Feature-Pfaden, um die Okklusionserkennung zu verbessern. C3k2_SIR hingegen bettet ein SIR-Modul an derselben Stelle ein. Dieses Modul extrahiert räumliche Details durch Depthwise-Faltung und rekalibriert sie dann mithilfe von Kanalaufmerksamkeit, wodurch Kantenreaktionen synergistisch verbessert werden. Es wurde speziell für Feature-Pfade der mittleren Schicht entwickelt, um Textur- und Konturinformationen wiederherzustellen, die durch Lightweight-Backbones verloren gegangen sind. Beide Module behalten die Dual-Branch-Topologie und das Residual-Connection-Framework von C3K2 bei und implementieren lediglich gezielte Verbesserungen innerhalb des Bottleneck. Für die spezifische Struktur der DWR- und SIR-Module beziehen Sie sich bitte auf den folgenden Text. Sie können auch selbst relevante Informationen sammeln (z. B. das Original-DWRSeg-Paper), um die Details zu ergänzen. Das DWR-Modul verwendet eine zweistufige Struktur: Zuerst extrahiert es globalen Kontext durch regionale Residualisierung (Global Average Pooling + 1x1-Faltung). Dann erfasst es multiskalige lokale Features über semantische Residualisierung (Multi-Branch Depthwise Separable Dilated Convolution, mit konfigurierbaren Dilationsraten). Schließlich werden die Features fusioniert und eine Residual Connection hinzugefügt. Das SIR-Modul verwendet ein leichtgewichtiges Design: Es verbessert zunächst räumliche Details durch Depthwise-Faltung und rekalibriert dann die Feature-Wichtigkeit mithilfe eines Kanalaufmerksamkeitsmechanismus (Squeeze-and-Excitation-Struktur), um Kanten zu schärfen. Beide Module behalten die gleichen Eingangs- und Ausgangsdimensionen bei, was eine Plug-and-Play-Feature-Verbesserung ermöglicht.

Der Roboterhund etikettiert automatisch Umgebungsobjekte als...