허깅페이스, sLM용 테스트-타임 스케일링 기술 공개
본문 바로가기
AI Insight News

허깅페이스, sLM용 테스트-타임 스케일링 기술 공개

by AI.PixelMind 2024. 12. 23.
반응형

최근 허깅페이스(Hugging Face)는 소형 언어 모델(sLM)의 추론 성능을 획기적으로 향상시킬 수 있는 기술인 '테스트-타임 스케일링(Test-Time Scaling)'을 오픈 소스로 공개했습니다. 이 기술은 대형 언어 모델(LLM)의 성능을 소형 모델에서도 활용할 수 있게 해 주며, 특히 메모리가 제한적인 환경에서 뛰어난 효과를 발휘할 수 있습니다.

 

테스트-타임 스케일링: 소형 모델의 한계를 넘다

테스트-타임 스케일링은 추론 시 추가적인 컴퓨팅 자원과 시간을 투입해 모델의 응답 품질을 높이는 방법입니다. 이는 오픈AI의 '테스트-타임 컴퓨트(Test-Time Compute)' 방식과 유사하며, 다음과 같은 주요 특징을 포함합니다:

  • 응답 정확도 향상: 추가 컴퓨팅을 통해 복잡한 질문에 대해 더 정확한 답변을 생성합니다.
  • LLM 수준의 성능 구현: 소형 모델(sLM)도 대형 모델(LLM)에 준하는 성능을 발휘할 수 있도록 돕습니다.
  • 메모리 최적화: 대형 모델을 실행할 수 없는 환경에서도 고성능 AI 추론을 가능하게 합니다.

이미지를 누르면 확대됩니다.

주요 구성 요소

테스트-타임 스케일링은 다음과 같은 기법과 알고리즘으로 구성됩니다:

  1. 다수결 투표 (Majority Voting)
    동일한 질문을 여러 번 추론하여 가장 자주 등장하는 답을 선택하는 방식으로 간단한 문제에서 효과적입니다.
  2. 베스트 오브 N (Best-of-N)
    여러 답변을 생성한 뒤, 보상 모델(reward model)을 활용해 최적의 답을 선택합니다.
  3. 가중 베스트 오브 N (Weighted Best-of-N)
    베스트 오브 N 방식을 개선한 것으로, 답변의 일관성과 자신감을 평가해 최적의 결과를 도출합니다.
  4. 프로세스 보상 모델 (PRM)
    최종 답변뿐만 아니라 답변 생성 과정을 평가하여 최적의 경로를 찾아냅니다.
  5. 빔 탐색 (Beam Search)
    단계별로 답변을 생성하고 탐색 알고리즘을 적용해 최적의 답변을 찾아내는 방식으로, 복잡한 문제에서 효과적입니다.
  6. DVTS (Diverse Verifier Tree Search)
    빔 탐색의 변형으로, 다양한 경로를 탐색하여 잘못된 추론을 줄이고 최적의 답을 도출합니다.
  7. 연산 최적화 확장 전략 (Compute-Optimal Scaling Strategy)
    문제의 난이도에 따라 동적으로 최적의 추론 방식을 선택합니다.

이미지를 누르면 확대됩니다.

실험 결과: 소형 모델로 대형 모델을 능가하다

테스트-타임 스케일링과 함께 PRM 및 DVTS를 적용한 '라마-3.2 1B' 모델은, 난이도가 높은 MATH-500 벤치마크에서 더 큰 크기의 8B 모델에 근접한 성능을 기록했습니다. 심지어, 3B 모델은 특정 과제에서 70B 모델을 능가하는 결과를 보였습니다.

 

이미지를 누르면 확대됩니다.

기술의 한계와 미래 가능성

허깅페이스는 테스트-타임 스케일링이 코딩, 수학 문제 등 명확한 평가가 가능한 분야에서만 높은 성능을 발휘한다고 설명했습니다. 또한 이 기술은 병렬로 실행되는 두 개 이상의 모델을 필요로 하므로, 추가적인 리소스가 요구될 수 있습니다.

그럼에도 불구하고, 허깅페이스의 오픈 소스화는 기업들이 환각 문제나 비용 부담 없이 고성능 AI 모델을 활용할 수 있도록 돕는 중요한 발걸음으로 평가됩니다.

결론

테스트-타임 스케일링은 소형 모델에서도 대형 모델에 가까운 성능을 발휘할 수 있는 새로운 가능성을 열어주었습니다. 허깅페이스의 이 기술은 특히 리소스가 제한적인 환경에서 고성능 AI 활용을 고민하는 기업들에게 유용하며, AI의 상용화를 더욱 가속화할 전망입니다.


 

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

 

원문 출처

반응형