[비욘드포스트 이봉진 기자] 한양대학교 융합전자공학과 최정욱 교수 연구팀이 로봇 조작과 자율주행 등 복잡한 제어 과제를 수행하는 인공지능 모델의 효율성을 획기적으로 개선하는 새로운 학습 기법 ‘Saliency-Aware Quantized Imitation Learning (SQIL, 주목 기반 양자화 모방학습)’을 개발했다고, 22일 밝혔다.
이번 연구는 로봇 팔 조작과 같은 실제 환경에서 대규모 비전-언어-행동(VLA) 모델을 보다 빠르고 저전력으로 실행하면서 정밀도를 유지하는 데 중점을 두었다.
기존의 대규모 VLA 모델은 시각·언어 정보를 통합해 복잡한 조작 과제를 수행할 수 있으나, 수십억 개의 파라미터로 인해 연산 비용과 메모리 사용량이 매우 크다. 이를 줄이기 위해 널리 활용되는 양자화(Quantization) 기법은 모델의 숫자 표현을 줄여 효율성을 높이지만, 로봇 조작 과정에서 임무 성공 여부를 좌우하는 특정 상태(mission-critical states)에서 성능이 크게 저하돼 임무 실패를 유발하는 한계가 있었다.
최 교수 연구팀은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안했다. ▲ ‘상태 중요도 점수(State Importance Score, SIS)’로 로봇 제어 과정에서 임무 성공에 결정적인 상태를 자동 식별하고, ▲ ‘양자화-강건 행동 증류(Quantization-Robust Action Distillation, QRD)’ 기법으로 중요한 상태에서 양자화 모델이 정밀 모델과 동일한 결정을 내리도록 학습을 강화한 것이다.
실험 결과, SQIL은 4비트로 양자화된 로봇 제어 모델(OpenVLA)에서 기존 방법 대비 최대 2.5배 빠른 속도와 2.5배 에너지 절감을 달성하면서도 원래 정밀도 모델과 동일한 성공률을 회복했다. 자율주행 모델(CILRS)에서도 3.7배 속도 향상과 3.1배 에너지 절감을 기록하며 안정적인 주행 성능을 유지했다.
특히, SQIL은 시뮬레이션 환경뿐 아니라 실제 로봇 실험(UR5 로봇, BridgeData V2 재현)에서도 일관되게 성능을 보장했다. 이는 양자화된 대규모 정책 모델이 실제 배터리 기반 로봇에 효율적으로 탑재될 수 있음을 입증한다.
연구를 이끈 최정욱 교수는 “이번 연구 성과는 지능형 로봇의 메모리와 전력 제약을 극복하며 VLA 모델의 효율과 정확성을 동시에 확보한 기술적 혁신”이라며, “Embodied AI의 상용화를 가속하는 핵심 열쇠가 될 것”이라고 전했다.
이번 연구는 과학기술정보통신부 산하 한국연구재단의 중견연구자지원사업, 혁신연구센터사업과 정보통신기획평가원 등의 지원을 받아 수행됐으며, 오는 10월 19일 세계적 컴퓨터 비전 학회인 ‘ICCV 2025 (International Conference on Computer Vision)’에 채택돼 발표될 예정이다.
[논문_그림자료] 주목 기반 양자화 모방학습(SQIL)과 기존 방법론 비교. (사진제공=한양대)
해당 논문 「Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control」에는 한양대 박성민 박사과정생이 제1저자로, 최정욱 교수가 교신저자로 참여했다. 또한 본 연구에는 한양대 오윤선 교수 연구팀과 현대자동차 연구팀이 공동으로 참여했다.