'LLM' 태그의 글 목록
본문 바로가기
반응형

LLM7

딥시크, LLM 추론 성능 혁신! '코드I/O' 오픈 소스 공개 AI 모델, 논리적 사고를 배운다! 🧠대형 언어 모델(LLM)의 한계를 극복하고자 하는 시도가 이어지는 가운데, 딥시크(DeepSeek)가 새로운 AI 훈련 기법 '코드I/O'를 개발하고 이를 오픈 소스로 공개했습니다. 이번 연구는 단순한 코드 기반 학습을 넘어, 자연어 설명과 함께 AI가 논리적 흐름을 더 깊이 이해하도록 설계되었습니다. 북경교통대학교와 홍콩과학기술대학교 연구진과 협력해 진행된 이 프로젝트는 AI의 추론 능력을 획기적으로 향상시킬 가능성이 크며, AI 연구자와 개발자들에게 새로운 학습 방법을 제공할 것으로 기대됩니다.🔍 코드I/O란? – 코드와 자연어의 융합기존의 AI 훈련 방식은 주로 코드 데이터를 사용하여 모델을 학습시키는 것이 일반적이었습니다. 하지만, 코드만으로는 AI가 논리.. 2025. 2. 17.
미니맥스의 혁신적인 오픈 소스 모델 공개 긴 컨텍스트 처리로 AI 에이전트에 새로운 길을 열다중국 AI 스타트업 미니맥스가 역대 최대 컨텍스트 창을 갖춘 오픈 소스 모델 '미니맥스-01 시리즈'를 발표했습니다. 이 모델은 AI 에이전트 개발과 긴 컨텍스트 데이터를 처리하는 데 초점을 맞춘 것이 특징으로, 기존의 기술적 한계를 넘어서며 큰 주목을 받고 있습니다.미니맥스-01: 두 가지 주요 모델미니맥스-텍스트-01:컨텍스트 창: 최대 400만 토큰까지 처리 가능주요 기술: 라이트닝 어텐션 메커니즘과 전문가 혼합(MoE) 아키텍처 도입특징: 긴 입력 데이터를 효율적으로 분석하며, 기존 모델 대비 2배 이상의 용량을 자랑미니맥스-VL-01:비전-언어 모델: 가벼운 비전 트랜스포머(ViT) 모듈과 4단계 학습 파이프라인을 사용처리 능력: 5120억 개.. 2025. 1. 17.
디프봇의 그래프RAG, 실시간 데이터 활용 혁신 원문 출처 : https://www.aitimes.com/news/articleView.html?idxno=167022 AI 기술은 정적인 데이터 학습의 한계를 넘어 실시간 정보 활용이라는 새로운 국면을 맞이하고 있습니다. 디프봇(Diffbot)이 최근 발표한 그래프RAG(GraphRAG) 모델은 이러한 변화를 선도하는 혁신적인 기술입니다. 이번 글에서는 그래프RAG의 개념, 기존 AI의 한계, 디프봇의 접근 방식, 그리고 이 기술의 시사점에 대해 심층 분석합니다.그래프RAG(GraphRAG)란 무엇인가?그래프RAG는 기존의 인공지능 모델이 정적 데이터에 의존하는 방식에서 벗어나, 실시간 데이터베이스를 활용해 정보를 업데이트하고 제공하는 기술입니다.핵심 개념:RAG (Retrieval-Augmented .. 2025. 1. 14.
구글, ‘지식 증류’와 합성 데이터로 LLM 성능 극대화 AI 모델 성능 향상을 위한 ‘지식 증류’란?최근 구글 딥마인드는 대형언어모델(LLM)의 데이터 고갈 문제를 해결하고, 추론 성능을 향상시키기 위해 '지식 증류(distillation)'와 ‘합성 데이터’의 효과를 강조하는 연구 결과를 발표했습니다.지식 증류는 고성능 AI 모델이 생성한 데이터를 사용하여 다른 모델을 학습시키는 기술입니다. 이를 통해 사전 학습 데이터가 부족한 상황에서도 우수한 성능의 AI를 개발할 수 있습니다.테스트-타임 컴퓨트(Test-Time Compute)란?이 기술은 하나의 질문을 여러 단계로 나눠 각 단계를 모델이 해결할 수 있는 프롬프트로 변환하는 방식입니다. 각 단계가 해결될 때마다 모델은 새로운 요청을 처리하여, 단계별로 정확성을 높입니다.주요 특징:사고 사슬(CoT, C.. 2025. 1. 7.
허깅페이스, sLM용 테스트-타임 스케일링 기술 공개 최근 허깅페이스(Hugging Face)는 소형 언어 모델(sLM)의 추론 성능을 획기적으로 향상시킬 수 있는 기술인 '테스트-타임 스케일링(Test-Time Scaling)'을 오픈 소스로 공개했습니다. 이 기술은 대형 언어 모델(LLM)의 성능을 소형 모델에서도 활용할 수 있게 해 주며, 특히 메모리가 제한적인 환경에서 뛰어난 효과를 발휘할 수 있습니다. 테스트-타임 스케일링: 소형 모델의 한계를 넘다테스트-타임 스케일링은 추론 시 추가적인 컴퓨팅 자원과 시간을 투입해 모델의 응답 품질을 높이는 방법입니다. 이는 오픈AI의 '테스트-타임 컴퓨트(Test-Time Compute)' 방식과 유사하며, 다음과 같은 주요 특징을 포함합니다:응답 정확도 향상: 추가 컴퓨팅을 통해 복잡한 질문에 대해 더 정확한.. 2024. 12. 23.
카타네모, 'GPT-4'보다 12배 빠른 AI 모델 출시 - AI 에이전트의 새로운 가능성 AI 스타트업 카타네모가 AI 기술 분야에서 또 한 번의 혁신을 이끌어냈습니다. 카타네모는 최근 기존의 대형언어모델(LLM)보다 훨씬 빠르고 효율적인 '아치-함수' 시리즈를 오픈 소스로 출시했습니다. 이 모델은 AI 에이전트를 구축하는 데 필요한 함수 호출을 최적화하여, 기존의 LLM 모델보다 최대 12배 더 빠른 속도로 작업을 처리할 수 있다고 합니다.  '아치-함수'란 무엇일까? 쉽게 설명하자면아치-함수(Arch-Function)는 복잡한 계산이나 작업을 쉽게 처리할 수 있도록 설계된 AI 모델입니다. 예를 들어, 여러분이 스마트 스피커에게 "이번 주 날씨 알려줘"라고 말하면, 스마트 스피커는 여러분의 요청을 이해하고, 인터넷에서 최신 날씨 정보를 찾아 알려주죠. 마찬가지로, 아치-함수는 사용자가 입.. 2024. 10. 19.
엔비디아, 오픈AI와 앤트로픽을 능가하는 대형 언어 모델(LMM) 출시 - AI 생태계의 새로운 패러다임 엔비디아가 AI 모델 시장에서 다시 한 번 주목받고 있습니다. 이달 초, 대형 멀티모달 모델(LMM)을 선보이며 오픈AI와 같은 주요 경쟁자들과의 모델 경쟁을 선언했던 엔비디아가 이번에는 대형 언어 모델(LLM)도 공개했습니다. 이 모델은 벤치마크 테스트에서 오픈AI의 'GPT-4o'와 앤트로픽의 '클로드 3.5 소네트'를 뛰어넘는 성능을 기록해 큰 화제가 되었습니다.  엔비디아의 새로운 LLM, '라마 3.1-네모트론-70B-인스트럭트' 공개벤처비트에 따르면, 엔비디아는 별다른 홍보 없이 허깅페이스 플랫폼을 통해 '라마 3.1-네모트론-70B-인스트럭트'를 출시했습니다. 이 모델은 엔비디아 전용 플랫폼에서 무료로 사용해볼 수 있어 많은 사용자들이 쉽게 접근할 수 있습니다. 무엇이 특별한가?이번 모델의 .. 2024. 10. 19.
반응형