모델 릴리즈

Meta Llama 4 공개 — 책 80권 한 번에 읽는 무료 AI

Meta가 Llama 4 Scout·Maverick 두 변형을 풀며 10M 토큰 컨텍스트 윈도우를 들고 나왔다. 책 80권 분량을 한 번에 보는 오픈웨이트 사상 최대 기록이다.

2026-05-27

Meta Llama 4 공개 — 책 80권 한 번에 읽는 무료 AI

책 80권 분량을 한 번에 읽히는 모델이 무료로 풀렸다

Meta가 Llama 4의 두 모델(Scout·Maverick)을 공개했다. 한 번에 한글 책 약 80권 분량의 글을 통째로 읽고 답할 수 있는 능력으로, 누구나 무료로 가져다 쓸 수 있는 모델 중 사상 최대 규모다.

Scout와 Maverick — 두 변형으로 갈래를 나눴다

Llama 4 Scout는 가볍고 빠른 변형이다. Maverick은 더 깊은 추론·복잡한 작업을 맡는다. 둘 다 10M 토큰 컨텍스트를 지원하며, Meta는 두 모델 모두를 오픈웨이트로 풀었다.

10M 토큰은 직전 오픈 진영 최대치였던 DeepSeek V4의 1M 컨텍스트를 한 자릿수 위로 끌어올린 수치다. 폐쇄 진영의 Claude·GPT·Gemini도 표준은 1M 안팎이다. Llama 4가 컨텍스트 규모에서는 오픈·폐쇄 통틀어 단독 선두로 올라섰다.

대규모 문서 그리고 코드베이스 처리 — 진짜 쓰임

10M 토큰의 의미는 추상적이지 않다. 회사 전체 법무 문서, 한 프로젝트의 모든 소스 코드, 연구 논문 수십 편을 한 번의 호출에 통째로 넣을 수 있다는 뜻이다. 지금까지는 RAG(검색 보강)나 청킹(chunking, 잘라 넣기) 같은 우회 기법으로 풀던 작업이다.

Meta의 오픈 진영 챔피언 역할은 Llama 1부터 이어진 일관된 전략이다. 폐쇄 모델 가격·정책에 묶이지 않으려는 기업·연구실의 디폴트 선택지가 Llama 라인이고, Llama 4는 그 위치를 다시 확실히 했다. 폐쇄 모델의 차별점이 하나씩 사라지는 흐름이 더 또렷해졌다.

세 청중에게 의미

일반인 — 직접 만져볼 일은 적지만, 곧 쓰게 될 사내 도구·문서 검색 서비스가 Llama 4 위에서 도는 경우가 늘어난다.
개발자/실무자 — 전체 코드베이스를 통째로 모델에 넣는 워크플로우가 가능해진다. RAG·청킹 코드를 단순화하거나 떼어낼 수도.
학습자 — "긴 글 처리는 비싼 폐쇄 모델만의 영역"이라는 인식이 깨졌다. 오픈 모델로 같은 실험을 따라 해볼 수 있다.

긴 글의 평민화

10M 토큰 컨텍스트가 더 이상 프리미엄 특권이 아니게 됐다. 누구나 자체 인프라에서 같은 능력을 굴린다.

🔧 기술 내용 알아보기

오픈웨이트 (Open Weights): 모델의 학습된 가중치(weights)를 공개해 자체 호스팅·수정·재배포가 가능한 모델. 폐쇄 모델(API로만 호출)과 대비.
RAG (Retrieval-Augmented Generation, 검색 보강 생성): 모델 컨텍스트에 다 못 넣을 때 외부 DB·검색에서 필요한 조각만 끌어와 넣는 우회 기법. 컨텍스트가 커지면 RAG 부담이 줄어든다.
청킹 (Chunking): 긴 문서를 모델이 받을 수 있는 작은 조각으로 자르는 작업. 컨텍스트가 작던 시절의 필수 기술이었으나 10M 토큰 시대엔 비중이 줄어든다.