모델 릴리즈
Claude 4.6 더블 업그레이드 — Opus와 Sonnet, 2주 간격 출시
Anthropic이 Opus 4.6과 Sonnet 4.6을 단 2주 간격으로 풀었다. Sonnet 4.6은 컴퓨터 조작 벤치마크 OSWorld에서 72.5%를 찍으며 에이전트 시대의 변곡점을 알린다.
2026-05-27
Claude 4.6 더블 업그레이드 — Opus와 Sonnet, 2주 간격 출시
Anthropic이 12일 만에 두 번 셔터를 내렸다
2026년 2월, Anthropic이 Opus 4.6(2월 5일)에 이어 Sonnet 4.6(2월 17일)을 연달아 공개했다. 회사 사상 가장 빠른 출시 간격이다.
Sonnet 4.6, 컴퓨터 사용 벤치마크 OSWorld 72.5% 돌파
Sonnet 4.6의 가장 큰 변화는 컴퓨터를 직접 조작하는 능력이다. OSWorld 벤치마크에서 72.5%를 기록했는데, 이 점수는 단순 텍스트 생성이 아니라 실제 화면을 보고 마우스·키보드를 움직여 작업을 끝내는 능력을 잰다.
같은 시기 OpenAI는 GPT-5.2 Instant 단계에 머물러 있었다. 비교 가능한 컴퓨터 조작 점수는 공개되지 않았다. Opus 4.6은 추론·코딩 깊이를, Sonnet 4.6은 속도와 에이전트 능력을 맡는 분업이 이번 출시에서 또렷해졌다.
출시 속도전 그리고 에이전트 분기점
두 모델이 빠르게 풀린 배경에는 두 힘이 있다. 하나는 OpenAI·Google과의 출시 경쟁이 분기별이 아닌 격주 단위로 좁혀진 것. 다른 하나는 "Claude로 컴퓨터를 시킨다"는 사용 패턴이 실험에서 실사용으로 넘어가는 시점이라는 것이다.
OSWorld 72.5%는 사람이 일상적으로 컴퓨터로 끝내는 일의 상당 부분을 모델이 따라잡았다는 신호다. 챗봇 시대의 끝과 에이전트 시대의 시작이 같은 분기에 겹쳤다.
세 청중에게 의미
- 일반인 — 같은 Claude 앱 안에서 모델 선택지가 더 빨라진다. Opus는 무거운 작업, Sonnet은 빠른 작업으로 쓰면 된다.
- 개발자/실무자 — Sonnet 4.6은 컴퓨터 자동화·테스트 작업에 우선 후보. API 가격은 같고 능력은 올라간다.
- 학습자 — 모델 버전이 자주 바뀌니 "이번 주 기본 모델은 무엇인지" 확인하는 습관이 필요하다.
격주 출시 시대
Anthropic이 분기 단위 출시에서 격주 단위 출시로 넘어왔다. 사용자도 그 속도에 맞춰 모델 선택을 다시 점검해야 한다.
🔧 기술 내용 알아보기
- OSWorld: 컴퓨터 화면을 보고 마우스·키보드로 실제 작업(파일 정리, 웹 검색, 표 편집)을 끝낼 수 있는지 재는 벤치마크. 챗봇 점수가 아니라 "컴퓨터 시킨다"의 점수.
- Opus / Sonnet: Anthropic 모델 라인. Opus는 추론·깊이 우선, Sonnet은 속도·균형 우선. Haiku(가벼움)까지 셋이 한 묶음.
- 에이전트 능력 (Agent Capability): 사용자가 한 번 시키면 모델이 여러 단계를 스스로 풀어가는 능력. 한 번 질문 → 한 번 답변의 챗봇 모델과 구분되는 지점.
