메타의 새로운 AI 음성 모델: 인간의 감정을 담은 AI 비서의 등장!!!
본문 바로가기
AI Insight News

메타의 새로운 AI 음성 모델: 인간의 감정을 담은 AI 비서의 등장!!!

by AI.PixelMind 2024. 10. 20.
반응형

최근 메타(Meta)가 혁신적인 AI 음성 모델을 출시하며 화제를 모으고 있습니다. 이제 AI 비서도 인간과 같은 감정과 톤을 가진 목소리를 낼 수 있게 되었는데요, 이는 기존의 음성 합성 기술을 뛰어넘는 발전으로, AI와 인간의 상호작용을 더 자연스럽게 만듭니다. 메타의 새로운 멀티모달 모델(LMM), 메타 스피릿 LM(Meta Spirit LM)에 대해 알아보겠습니다.

 

이미지를 누르면 확대됩니다.

 

메타 스피릿 LM: 베이스와 익스프레시브 두 가지 버전

메타가 발표한 스피릿 LM은 두 가지 버전으로 구성되어 있습니다.

  1. 스피릿 LM 베이스(Spirit LM Base):
    기본적인 음성 전환 기능을 제공하는 모델로, 간단한 음성-텍스트 변환 작업에 적합합니다. 기존의 TTS(텍스트-음성 변환)와 비슷한 방식이지만, 메타의 독자적인 기술을 사용해 더 자연스러운 음성을 구현했습니다.
  2. 스피릿 LM 익스프레시브(Spirit LM Expressive):
    익스프레시브 버전은 베이스 모델보다 한 단계 더 나아가, 톤, 감정, 피치 등 다양한 뉘앙스를 표현할 수 있습니다. 예를 들어, AI가 감정적인 이야기나 중요한 정보를 전달할 때 흥분, 분노, 슬픔과 같은 감정을 반영한 음성을 사용할 수 있는 것이 특징입니다. 이는 단순히 말소리를 내는 것이 아니라, 사람과 같은 감정 표현을 가능하게 하여, 더욱 몰입감 있는 상호작용을 지원합니다.

이미지를 누르면 확대됩니다.

메타의 혁신: '인터리빙(interleaving)' 학습 방식

기존의 음성 합성 모델은 주로 ASR(자동 음성 인식) 기술을 통해 텍스트를 음성으로 변환하고, 내용을 처리한 뒤 다시 음성으로 출력하는 방식을 사용했습니다. 하지만 메타는 새로운 접근법을 도입했습니다. 바로 인터리빙(interleaving) 방식입니다.

  • 인터리빙 방식이란?
    텍스트와 음성 데이터셋을 동시에 학습하여 두 가지 요소를 자연스럽게 통합하는 기술입니다. 이를 통해 메타의 모델은 텍스트와 음성 간의 전환이 더 원활하고 자연스러운 출력을 제공합니다. 예를 들어, 이전에는 텍스트가 단순히 음성으로 읽히는 수준이었다면, 이제는 말하는 사람의 의도와 감정까지 반영할 수 있게 되었습니다.

감정 표현과 톤 조절로 한층 더 자연스러운 AI

메타 스피릿 LM의 큰 장점은 감정을 담아 말할 수 있다는 것입니다. 특히 익스프레시브 모델은 단순히 단어를 발음하는 데 그치지 않고, 피치와 스타일 토큰을 통합하여 목소리에 감정을 불어넣습니다. 예를 들어, 흥분된 목소리로 뉴스 기사를 읽거나, 차분한 목소리로 정보를 설명하는 등 다양한 감정 표현이 가능합니다.

이 기술은 스토리텔링, 가상 비서, 대화형 시스템 등 다양한 애플리케이션에 유용하게 적용될 수 있습니다. 단순히 AI 비서가 텍스트를 읽어주는 것이 아니라, 더 인간다운 경험을 제공하게 되는 것이죠.

이미지를 누르면 확대됩니다.

STSP 벤치마크에서 뛰어난 성능 입증

메타의 스피릿 LM 익스프레시브 모델은 **STSP(음성-텍스트 벤치마크)**에서 뛰어난 성능을 입증했습니다. 기존의 ASR이나 TTS 기반의 모델보다 훨씬 자연스럽고 감정적인 출력을 제공하여, 감정적 의도를 효과적으로 전달하는 능력을 보여주었습니다. 이는 감정 표현이 중요한 스토리텔링이나 고객 응대 등에서 특히 강력한 장점을 제공합니다.

메타의 자가학습 평가자(Self-Taught Evaluator) 모델 출시

또한, 메타는 기존의 라벨링 작업을 대체할 수 있는 자가학습 평가자 모델도 함께 공개했습니다. 이는 AI가 스스로 학습 데이터를 생성하며, 어떤 응답이 더 나은지 판단할 수 있는 '평가형 LLM(LLM-as-a-Judge)' 개념을 도입했습니다. 이 모델은 인간의 수작업 라벨링 없이도 정확한 학습 데이터를 생성할 수 있어, 비용과 시간을 절약할 수 있는 큰 장점이 있습니다.

 

 

https://www.aitimes.com/news/articleView.html?idxno=164408

 

메타, 음성-텍스트 통합 모델 출시..."AI 비서 음성에 인간 감정까지 포함" - AI타임스

메타가 \'인공지능(AI) 비서\' 목소리에 인간과 같은 감정과 톤을 담을 수 있는 새로운 오픈 소스 모델을 출시했다. 얼마 전 출시된 GPT-4o의 \'고급 음성 모드(AVM)\'에 대응하려는 의도다.메타는 18일

www.aitimes.com

 

다양한 애플리케이션으로 확장 가능한 기술

메타의 이번 발표는 단순히 새로운 AI 음성 모델 출시를 넘어, 미래의 AI 상호작용 방식을 크게 바꿀 잠재력을 보여줍니다. AI 비서가 단순히 명령을 수행하는 것을 넘어서, 사람처럼 말하고 감정을 표현함으로써, 더 자연스럽고 몰입감 있는 사용자 경험을 제공할 수 있게 되었습니다.

결론: 감정과 인간다움을 더한 미래의 AI

메타의 메타 스피릿 LM은 단순한 음성 합성 모델이 아닙니다. 이는 멀티모달 AI 기술의 발전을 보여주는 대표적인 예로, 음성과 텍스트의 완벽한 통합을 통해 인간과 AI의 상호작용을 더욱 자연스럽게 만들어 줄 것입니다. 이 혁신적인 기술은 가상 비서, 대화형 서비스, 스토리텔링 등 다양한 분야에서 그 진가를 발휘할 것입니다.

 

 

 

 

 

 

 

 

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

반응형