알리바바, 호퍼 GPU에서 모델 속도 3배 향상하는 ‘플래시QLA’ 공개 | IT피드

대형언어모델(LLM)의 성능 경쟁이 모델 구조나 하드웨어를 넘어 실제 연산을 수행하는 ‘GPU 커널’ 영역으로까지 확장되고 있다. 알리바바가 이를 통해 모델 추론 속도를 최대 3배까지 가속하는 기술을 공개했다.알리바바는 29일(현지시간) 저수준 연산 최적화를 통해 엔비디아의 '호퍼(Hopper)' GPU에서 최대 3배의 속도 향상을 구현할 수 있는 고성능 선형 어텐션 커널 라이브러리 ‘플래시QLA(FlashQLA)’를 공개했다. 플래시QLA 코드는 깃허브에서 오픈소스로 제공된다GPU 커널은 AI 모델 안에서 실제 계산을 처리하는 핵