
Genera un diagramma di flusso, suddiviso principalmente in tre parti. Primo, affrontando la distribuzione non uniforme dei pesi e dei valori di attivazione dei modelli di grandi dimensioni, nonché la loro sensibilità al rumore di quantizzazione, ricerca tecniche di compressione a basso bit basate sull'analisi di sensibilità del secondo ordine e sulla quantizzazione non uniforme. Secondo, basandosi sulla compressione tramite quantizzazione, studia come valutare automaticamente la sensibilità dei diversi parametri del modulo (layer/head/channel) alla funzione di perdita finale. Analizzando la varianza del gradiente o la derivazione differenziale, genera una strategia di configurazione a precisione mista per il modello target, ottenendo un equilibrio secondario tra accuratezza e velocità all'interno del framework di quantizzazione. Successivamente, per garantire l'affidabilità numerica del modello ottimizzato, ricerca metodi efficienti di rilevamento degli errori adatti a modelli di grandi dimensioni, esegui la modellazione della propagazione e la stima dei limiti degli errori numerici introdotti da operazioni di precisione mista e quantizzazione, e fornisci garanzie di accuratezza per le strategie di ottimizzazione. Infine, ricerca e costruisci un framework di compilazione automatizzato unificato, source-to-source, che integri le tre tecnologie di cui sopra. Questo framework integrerà le tre tecnologie principali, basandosi su rappresentazioni intermedie come MLIR, per realizzare un processo completamente automatizzato dall'analisi del modello, alla ricerca congiunta di strategie di ottimizzazione, all'analisi degli errori fino alla generazione di codice ad alte prestazioni per l'hardware di destinazione.
1. Titolo della Pagina * Testo: Reinvenzione del Sistema ...