
Générer un organigramme, principalement divisé en trois parties. Premièrement, en abordant la distribution non uniforme des poids et des valeurs d'activation des grands modèles, ainsi que leur sensibilité au bruit de quantification, étudier les techniques de compression à faible nombre de bits basées sur l'analyse de sensibilité du second ordre et la quantification non uniforme. Deuxièmement, sur la base de la compression par quantification, étudier comment évaluer automatiquement la sensibilité des différents paramètres de module (couche/tête/canal) à la fonction de perte finale. En analysant la variance du gradient ou la dérivation différentielle, générer une stratégie de configuration de précision mixte pour le modèle cible, permettant d'atteindre un équilibre secondaire entre la précision et la vitesse dans le cadre de la quantification. Ensuite, pour garantir la fiabilité numérique du modèle optimisé, étudier des méthodes efficaces de détection d'erreurs adaptées aux grands modèles, effectuer une modélisation de la propagation et une estimation des limites des erreurs numériques introduites par les opérations de précision mixte et de quantification, et fournir des garanties de précision pour les stratégies d'optimisation. Enfin, étudier et construire un cadre de compilation automatisé unifié, source à source, qui intègre les trois technologies ci-dessus. Ce cadre intégrera les trois technologies de base susmentionnées, basées sur des représentations intermédiaires telles que MLIR, pour réaliser un processus entièrement automatisé allant de l'analyse du modèle, la recherche conjointe de stratégies d'optimisation, l'analyse des erreurs à la génération de code haute performance pour le matériel cible.
1. Titre de la page * Texte : Réinvention du système · In...