
Gere um fluxograma, dividido principalmente em três partes. Primeiro, abordando a distribuição não uniforme dos pesos de modelos grandes e valores de ativação, bem como sua sensibilidade ao ruído de quantização, pesquise técnicas de compressão de baixa precisão baseadas em análise de sensibilidade de segunda ordem e quantização não uniforme. Segundo, com base na compressão por quantização, investigue como avaliar automaticamente a sensibilidade de diferentes parâmetros de módulo (camada/cabeçalho/canal) à função de perda final. Ao analisar a variância do gradiente ou derivação diferencial, gere uma estratégia de configuração de precisão mista para o modelo alvo, alcançando um equilíbrio secundário entre precisão e velocidade dentro da estrutura de quantização. Posteriormente, para garantir a confiabilidade numérica do modelo otimizado, pesquise métodos eficientes de detecção de erros adequados para modelos grandes, realize modelagem de propagação e estimativa de limites de erros numéricos introduzidos por operações de precisão mista e quantização, e forneça garantias de precisão para estratégias de otimização. Finalmente, pesquise e construa uma estrutura de compilação automatizada unificada, de código-fonte para código-fonte, que integre as três tecnologias acima. Esta estrutura integrará as três tecnologias principais acima, com base em representações intermediárias como MLIR, para realizar um processo totalmente automatizado desde a análise do modelo, busca conjunta de estratégia de otimização, análise de erros até a geração de código de alto desempenho para o hardware alvo.
1. Título da Página * Texto: Reinvenção do Sistema · Inve...