
Erstelle ein Flussdiagramm, hauptsächlich unterteilt in drei Teile. Erstens, adressiere die ungleichmäßige Verteilung von Gewichten und Aktivierungswerten großer Modelle sowie deren Empfindlichkeit gegenüber Quantisierungsrauschen, erforsche Low-Bit-Komprimierungstechniken basierend auf Sensitivitätsanalyse zweiter Ordnung und nicht-uniformer Quantisierung. Zweitens, basierend auf Quantisierungskomprimierung, untersuche, wie die Sensitivität verschiedener Modul- (Layer/Head/Kanal-) Parameter gegenüber der finalen Verlustfunktion automatisch bewertet werden kann. Durch die Analyse der Gradientenvarianz oder differentieller Ableitung, generiere eine Mixed-Precision-Konfigurationsstrategie für das Zielmodell, wodurch ein sekundäres Gleichgewicht zwischen Genauigkeit und Geschwindigkeit innerhalb des Quantisierungsrahmens erreicht wird. Anschließend, um die numerische Zuverlässigkeit des optimierten Modells sicherzustellen, erforsche effiziente Fehlererkennungsmethoden, die für große Modelle geeignet sind, führe Propagationsmodellierung und Grenzwertschätzung von numerischen Fehlern durch, die durch Mixed-Precision- und Quantisierungsoperationen eingeführt werden, und biete Genauigkeitsgarantien für Optimierungsstrategien. Schließlich, erforsche und konstruiere ein einheitliches, Source-to-Source-basiertes, automatisiertes Kompilierungsframework, das die oben genannten drei Technologien integriert. Dieses Framework wird die oben genannten drei Kerntechnologien integrieren, basierend auf Zwischenrepräsentationen wie MLIR, um einen vollautomatischen Prozess von der Modellanalyse, der gemeinsamen Optimierungsstrategiesuche, der Fehleranalyse bis zur Generierung von hochperformantem Code für die Zielhardware zu realisieren.
1. Seitentitel * Text: Systemerneuerung · Präzise Investi...