
주로 세 부분으로 나뉜 순서도를 생성합니다. 첫째, 대형 모델 가중치 및 활성화 값의 불균일한 분포와 양자화 노이즈에 대한 민감도를 해결하기 위해 2차 민감도 분석 및 비균일 양자화 기반의 저비트 압축 기술을 연구합니다. 둘째, 양자화 압축을 기반으로 다양한 모듈(레이어/헤드/채널) 파라미터가 최종 손실 함수에 미치는 민감도를 자동으로 평가하는 방법을 조사합니다. 기울기 분산 또는 미분 유도를 분석하여 대상 모델에 대한 혼합 정밀도 구성 전략을 생성하고 양자화 프레임워크 내에서 정확도와 속도 간의 2차 균형을 달성합니다. 그 후, 최적화된 모델의 수치적 신뢰성을 보장하기 위해 대형 모델에 적합한 효율적인 오류 감지 방법을 연구하고, 혼합 정밀도 및 양자화 연산으로 인해 발생하는 수치적 오류의 전파 모델링 및 경계 추정을 수행하여 최적화 전략에 대한 정확도 보장을 제공합니다. 마지막으로, 위의 세 가지 기술을 통합하는 통합된 소스-투-소스 자동 컴파일 프레임워크를 연구하고 구축합니다. 이 프레임워크는 MLIR과 같은 중간 표현을 기반으로 위의 세 가지 핵심 기술을 통합하여 모델 파싱, 공동 최적화 전략 검색, 오류 분석에서 대상 하드웨어에 대한 고성능 코드 생성에 이르기까지 완전 자동화된 프로세스를 실현합니다.
1. 페이지 제목 * 텍스트: 시스템 재구축 · 정밀 투자 · 빠른 수익성 전략적 재탄생 계획 ...