
Создайте блок-схему, в основном разделенную на три части. Во-первых, учитывая неравномерное распределение весов и значений активации больших моделей, а также их чувствительность к шуму квантования, исследуйте методы низкобитного сжатия на основе анализа чувствительности второго порядка и неравномерного квантования. Во-вторых, на основе квантованного сжатия, исследуйте, как автоматически оценивать чувствительность параметров различных модулей (слоев/голов/каналов) к конечной функции потерь. Анализируя дисперсию градиента или дифференциальное вычисление, сгенерируйте стратегию конфигурации смешанной точности для целевой модели, достигая вторичного баланса между точностью и скоростью в рамках квантования. Впоследствии, для обеспечения численной надежности оптимизированной модели, исследуйте эффективные методы обнаружения ошибок, подходящие для больших моделей, выполните моделирование распространения и оценку границ численных ошибок, вносимых операциями смешанной точности и квантования, и предоставьте гарантии точности для стратегий оптимизации. Наконец, исследуйте и постройте унифицированный, source-to-source автоматизированный компиляционный фреймворк, интегрирующий вышеуказанные три технологии. Этот фреймворк будет интегрировать вышеуказанные три ключевые технологии, на основе промежуточных представлений, таких как MLIR, для реализации полностью автоматизированного процесса от разбора модели, совместного поиска стратегии оптимизации, анализа ошибок до генерации высокопроизводительного кода для целевого оборудования.
1. Название страницы * Текст: Переосмысление системы · То...