스타트업뉴스AI타임스
알리바바, 호퍼 GPU에서 모델 속도 3배 향상하는 ‘플래시QLA’ 공개
2026년 5월 4일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
대형언어모델(LLM)의 성능 경쟁이 모델 구조나 하드웨어를 넘어 실제 연산을 수행하는 ‘GPU 커널’ 영역으로까지 확장되고 있다. 알리바바가 이를 통해 모델 추론 속도를 최대 3배까지 가속하는 기술을 공개했다.알리바바는 29일(현지시간) 저수준 연산 최적화를 통해 엔비디아의 '호퍼(Hopper)' GPU에서 최대 3배의 속도 향상을 구현할 수 있는 고성능 선형 어텐션 커널 라이브러리 ‘플래시QLA(FlashQLA)’를 공개했다. 플래시QLA 코드는 깃허브에서 오픈소스로 제공된다GPU 커널은 AI 모델 안에서 실제 계산을 처리하는 핵