챗GPT 음성 기능 업그레이드! 이제 AI가 사람처럼 말한다? 일레븐랩스 내목소리
본문 바로가기
AI Insight News

챗GPT 음성 기능 업그레이드! 이제 AI가 사람처럼 말한다? 일레븐랩스 내목소리

by AI.PixelMind 2025. 6. 14.
반응형

챗GPT 음성 기능, 무엇이 달라졌나?

2025년 6월, 오픈AI는 자사의 대표 AI 챗봇 ‘챗GPT’의 고급 음성 기능 AVM(Audio Voice Model) 업그레이드를 공식 발표했습니다. 이번 업데이트는 단순한 기능 향상을 넘어서, AI가 사람처럼 감정을 담아 말할 수 있는 수준까지 도달했다는 점에서 주목을 받고 있습니다.

AVM 기능은 기존에도 음성 대화 기능을 제공했지만, 이번 업그레이드는 억양, 감정, 멈춤, 강조 등의 요소에서 현저한 자연스러움을 보여줍니다. 특히, 멈춤과 감정의 뉘앙스를 포함한 대화가 가능해졌다는 점에서, 단순한 음성 합성을 넘어선 진정한 ‘음성 상호작용형 AI’로의 전환이 이루어졌다고 할 수 있습니다.

 

또한, 이번 기능은 챗GPT 유료 사용자에게 우선 적용되며, 향후 무료 사용자에게도 점진적으로 공개될 예정입니다.

 

 

사람처럼 말하는 AI: AVM 기능의 핵심은?

 

이번 챗GPT AVM의 핵심은 인간적인 발화 방식의 구현입니다. 오픈AI에 따르면 AVM은 다음과 같은 특징을 갖습니다:

  • 사실적인 운율과 억양: 단조롭고 기계적인 음성이 아닌, 실제 사람처럼 말의 흐름과 강약을 조절함.
  • 감정 표현: 기쁨, 공감, 비꼼 등 복합 감정을 표현할 수 있음.
  • 문맥 기반 대화 유지: 대화를 중단하지 않고, 명령이 있을 때까지 지속적인 언어 간 번역 기능을 제공함.

이는 단순한 기술적 진보를 넘어, 음성 기반 AI 서비스의 새로운 패러다임을 예고하는 지점입니다. AI의 음성 표현이 진짜 사람과의 대화처럼 느껴지기 시작한 것입니다.

 

 

경쟁사와의 기술 경쟁, 일레븐랩스와의 관계는?

이번 오픈AI의 발표는 우연이 아닙니다. 음성 AI 업계에서 유명한 일레븐랩스(ElevenLabs)는 최근 감정 표현이 가능한 ‘일레븐 v3 알파’를 공개하며 업계의 이목을 집중시켰습니다.

양사는 모두 ‘사람처럼 말하는 AI’를 개발하고 있으며, 이 영역은 단순 음성 합성에서 벗어나 감정, 억양, 대화의 흐름까지 컨트롤하는 고차원 기술 전쟁의 중심에 놓여 있습니다.

오픈AI는 챗GPT의 대화형 특성을 강화하기 위해, 음성 기능의 정교함과 실제성 확보에 주력하고 있으며, 이는 AI 비서, 상담 서비스, 교육용 도우미 등 다양한 산업적 응용 가능성을 염두에 둔 전략으로 해석됩니다.

 

일레븐랩스 AI 성우 무료 체험

일레븐랩스로 내 목소리 만들기

 

 

https://www.youtube.com/watch?v=2ioPWjvk_Wc

 

사용자 반응과 문제점은?

기술이 아무리 발전해도, 사용자 경험이 뒷받침되지 않으면 의미 없습니다. 레딧(Reddit) 등 커뮤니티에는 이번 업데이트에 대한 혼재된 반응이 나타났습니다.

긍정적 평가

  • “진짜 사람과 말하는 느낌이다”
  • “감정 표현이 들어가서 소름 돋을 정도”

부정적 우려

  • 일부 사용자는 “음질이 이전보다 낮아졌다”고 평가
  • 예기치 않은 음높이 변화, 배경음이나 광고처럼 들리는 ‘환각 현상’ 보고도 존재

이에 대해 오픈AI는 “업데이트로 인해 일시적으로 음질 저하가 발생할 수 있으며, 오디오 일관성 향상을 위한 추가 개선이 이뤄질 예정”이라고 밝혔습니다.

또한, 음성 모드에서 비의도적인 배경음, 횡설수설하는 오류 등의 ‘환각 현상(hallucination)’에 대한 조사도 진행 중입니다.

 

 

앞으로의 전망: 인간형 AI 음성 기술의 미래

AI 음성 기술은 단순한 기능의 진화를 넘어서, 인간과의 감정적 상호작용을 가능케 하는 핵심 기술로 자리잡고 있습니다.

오픈AI를 비롯한 여러 기업들이 다음과 같은 방향으로 기술을 확장 중입니다:

  • 멀티턴 대화에서의 맥락 유지: 단절 없는 자연 대화 가능
  • 실시간 통역 및 음성 번역: 글로벌 사용자 확대
  • 감정 기반 상호작용 설계: 맞춤형 감성 대응

이는 AI가 단지 ‘정보 전달자’를 넘어서 ‘감성적 동반자’로 진화하고 있음을 의미합니다. 교육, 헬스케어, 상담, 콘텐츠 크리에이션 등 모든 분야에서 인간 중심의 인터페이스가 새롭게 정의될 가능성이 큽니다.

 

반응형