MS, 차등 트랜스포머로 성능 개선하며 LLM 새로운 아키텍처 공개
본문 바로가기
AI Insight News

MS, 차등 트랜스포머로 성능 개선하며 LLM 새로운 아키텍처 공개

by AI.PixelMind 2024. 10. 24.
반응형

최근 마이크로소프트(MS)와 칭화대학교 연구진이 새로운 AI 기술, '차등 트랜스포머(Diff Transformer)'를 개발했다고 합니다. 이 기술은 AI가 긴 글을 읽을 때, 정말 중요한 부분에만 집중할 수 있도록 만들어줍니다. 이번 글에서는 차등 트랜스포머가 기존 기술보다 왜 더 좋은지, 어떻게 작동하는지, 그리고 우리 일상에 어떤 변화를 가져올 수 있는지 쉽게 설명해 보겠습니다.

차등 트랜스포머란 무엇일까?

우리가 일반적으로 사용하는 AI 기술, 예를 들어 ChatGPT 같은 모델은 '트랜스포머 아키텍처'라는 구조로 만들어져 있어요. 이 구조는 문장 속의 단어들을 이해할 때, 각 단어가 문장 전체에서 얼마나 중요한지 판단하는 '어텐션 메커니즘'을 사용합니다. 그런데 문제는 AI가 글을 읽을 때, 긴 문장일수록 정말 중요한 정보와 덜 중요한 정보를 구분하지 못하고 다 비슷하게 보는 경향이 있다는 것입니다. 그래서 중요한 정보를 놓치는 경우가 생기죠.

 

차등 트랜스포머는 이 문제를 해결하기 위해 개발되었습니다. 이름에서 알 수 있듯이, '차등(differential)' 즉, 차이를 강조하는 새로운 방식으로 AI가 중요한 정보에 더 집중할 수 있게 만든 것이죠.

기존 트랜스포머의 문제점은?

기존의 트랜스포머 모델은 '소프트맥스(softmax)'라는 방법을 사용해서 각 단어가 얼마나 중요한지 판단합니다. 이 과정에서 긴 문장의 모든 단어에 점수를 매기는데, 그 점수들이 균등하게 나뉘는 경우가 많아요. 예를 들어, 우리가 길게 설명한 문장에서 핵심 포인트를 잘 집어내지 못하고, 덜 중요한 단어에도 비슷한 중요도를 부여하는 식이죠.

 

이렇게 되면 AI가 정말 필요한 정보를 제대로 캐치하지 못하고, 엉뚱한 답변을 내놓을 때가 있습니다. 이런 현상을 '환각 현상'이라고 하는데, AI가 마치 환상을 본 것처럼 틀린 정보를 제공하는 문제를 일으키는 원인이 됩니다.

차등 트랜스포머는 어떻게 다를까?

차등 트랜스포머는 기존 방식의 문제를 해결하기 위해 '차등 어텐션(differential attention)'을 사용합니다. 이 방식은 모든 단어에 같은 점수를 매기는 것이 아니라, 정말 중요한 단어에 더 집중할 수 있게 만들어줍니다. 구체적으로는 AI가 단어들을 두 그룹으로 나누고, 이 두 그룹의 차이를 비교해서 더 중요하다고 판단된 부분에 높은 점수를 주는 것입니다.

 

예를 들어, 우리가 “오늘 오후에 중요한 회의가 있어요”라는 문장을 AI에게 줬다고 가정해봅시다. 기존 방식은 '오늘', '오후', '중요한', '회의' 등을 모두 비슷하게 다루려고 할 수 있지만, 차등 트랜스포머는 '중요한 회의' 부분에 더 높은 점수를 주어, 중요한 정보에 집중할 수 있도록 합니다.

 

https://www.aitimes.com/news/articleView.html?idxno=164315

 

MS, 트랜스포머 성능 개선하는 새로운 LLM 아키텍처 공개 - AI타임스

\'트랜스포머\' 기반 대형언어모델(LLM)의 긴 컨텍스트 정보 검색 기능을 개선하는 새로운 아키텍처가 나왔다. 일종의 \'변형 트랜스포머\'라는 설명이다.벤처비트는 16일(현지시간) 마이크로소프

www.aitimes.com

 

차등 트랜스포머의 성과와 기대 효과

연구 결과, 차등 트랜스포머는 기존의 트랜스포머 모델보다 성능이 더 좋았습니다. 기존 모델보다 적은 데이터와 자원으로도 비슷한 결과를 낼 수 있었고, 특히 긴 문장에서 중요한 정보를 잘 찾아내는 데 탁월한 성능을 보여주었어요. 예를 들어, 이전에는 책 한 권을 읽고 핵심 내용을 잘 추출해내지 못했지만, 차등 트랜스포머는 책의 요약본을 훨씬 정확하게 만들어줄 수 있는 것이죠.

일상 속 활용 가능성

차등 트랜스포머는 다양한 분야에서 큰 변화를 가져올 수 있습니다. 예를 들어:

  1. 의료 데이터 분석: 수많은 진료 기록 속에서 중요한 정보를 빠르게 찾아낼 수 있어, 더 정확한 진단을 돕습니다.
  2. 비즈니스 인텔리전스: 수많은 보고서와 이메일을 분석해 핵심 정보만 골라내어, 빠르고 정확한 의사결정을 지원할 수 있습니다.
  3. 고객 서비스: 고객의 긴 문의 내용 속에서 가장 중요한 질문을 파악해, 더 빠르고 적절한 응답을 제공할 수 있습니다.

현재 차등 트랜스포머의 코드는 갓허브에서 사용할 수 있다.

결론

차등 트랜스포머는 기존의 문제점을 개선하고 AI가 더욱 효과적으로 긴 문장을 이해할 수 있게 돕는 새로운 기술입니다. 이 기술 덕분에 AI는 더욱 인간과 비슷한 사고를 할 수 있게 되고, 다양한 분야에서 우리의 삶을 더 편리하게 해줄 것입니다.

 

 

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

반응형