
Generar un diagrama de flujo, dividido principalmente en tres partes. Primero, abordando la distribución no uniforme de los pesos y valores de activación de los modelos grandes, así como su sensibilidad al ruido de cuantización, investigar técnicas de compresión de baja precisión basadas en el análisis de sensibilidad de segundo orden y la cuantización no uniforme. Segundo, basándose en la compresión por cuantización, investigar cómo evaluar automáticamente la sensibilidad de los diferentes parámetros del módulo (capa/cabeza/canal) a la función de pérdida final. Mediante el análisis de la varianza del gradiente o la derivación diferencial, generar una estrategia de configuración de precisión mixta para el modelo objetivo, logrando un equilibrio secundario entre precisión y velocidad dentro del marco de cuantización. Posteriormente, para garantizar la fiabilidad numérica del modelo optimizado, investigar métodos eficientes de detección de errores adecuados para modelos grandes, realizar modelado de propagación y estimación de límites de los errores numéricos introducidos por las operaciones de precisión mixta y cuantización, y proporcionar garantías de precisión para las estrategias de optimización. Finalmente, investigar y construir un marco de compilación automatizado unificado, de código fuente a código fuente, que integre las tres tecnologías anteriores. Este marco integrará las tres tecnologías centrales anteriores, basándose en representaciones intermedias como MLIR, para realizar un proceso totalmente automatizado desde el análisis del modelo, la búsqueda conjunta de estrategias de optimización, el análisis de errores hasta la generación de código de alto rendimiento para el hardware objetivo.
1. Título de la página * Texto: Reinversión del Sistema ·...