Gere um diagrama de estrutura de rede ilustrando os módulos aprimorados C3k2_DWR e C3k2_SIR, baseados no módulo C3k2 do YOLOv11. Apresente ambos os módulos em um único diagrama, dispostos verticalmente ou horizontalmente. O estilo do diagrama deve seguir os padrões de periódicos acadêmicos de alto nível em visão computacional, como CVPR, em conformidade com as convenções estruturais de artigos acadêmicos. As melhorias específicas estão detalhadas no seguinte texto: A ideia central por trás dos módulos C3k2_DWR e C3k2_SIR é substituir as camadas convolucionais padrão dentro do Bottleneck do módulo C3K2 original por componentes aprimorados. Especificamente, C3k2_DWR incorpora um módulo DWR entre cv1 e cv2 no Bottleneck. Este módulo DWR substitui a convolução 3x3 original por uma estrutura que concatena residualização regional (pooling global + convolução 1x1) e residualização semântica (convolução depthwise separable dilatada multi-branch). Isso agrega explicitamente informações contextuais multi-escala em caminhos de features profundas para aprimorar o raciocínio de oclusão. C3k2_SIR, por outro lado, incorpora um módulo SIR no mesmo local. Este módulo extrai detalhes espaciais através de convolução depthwise e, em seguida, os recalibra usando atenção de canal, sinergicamente aprimorando as respostas de borda. Ele é especificamente projetado para caminhos de features de camada intermediária para recuperar informações de textura e contorno perdidas por backbones leves. Ambos os módulos mantêm a topologia de dual-branch e a estrutura de conexão residual do C3K2, implementando apenas aprimoramentos direcionados dentro do Bottleneck. Para a estrutura específica dos módulos DWR e SIR, consulte o seguinte texto. Você também pode coletar informações relevantes por conta própria (como o artigo original do DWRSeg) para complementar os detalhes. O módulo DWR adota uma estrutura de dois estágios: primeiro, ele extrai o contexto global através da residualização regional (pooling médio global + convolução 1x1). Em seguida, ele captura features locais multi-escala através da residualização semântica (convolução depthwise separable dilatada multi-branch, com taxas de dilatação configuráveis). Finalmente, ele funde as features e adiciona uma conexão residual. O módulo SIR emprega um design leve: ele primeiro aprimora os detalhes espaciais através da convolução depthwise e, em seguida, recalibra a importância das features usando um mecanismo de atenção de canal (estrutura squeeze-and-excitation) para afiar as bordas. Ambos os módulos mantêm as mesmas dimensões de entrada e saída, permitindo o aprimoramento de features plug-and-play.

O cão robô rotula automaticamente objetos ambientais como "o...