모델 릴리즈

Claude 4.6 더블 업그레이드 — Opus와 Sonnet, 2주 간격 출시

Anthropic이 Opus 4.6과 Sonnet 4.6을 단 2주 간격으로 풀었다. Sonnet 4.6은 컴퓨터 조작 벤치마크 OSWorld에서 72.5%를 찍으며 에이전트 시대의 변곡점을 알린다.

2026-05-27

2026년 2월, Anthropic이 Opus 4.6(2월 5일)에 이어 Sonnet 4.6(2월 17일)을 연달아 공개했다. 회사 사상 가장 빠른 출시 간격이다.

Sonnet 4.6의 가장 큰 변화는 컴퓨터를 직접 조작하는 능력이다. OSWorld 벤치마크에서 72.5%를 기록했는데, 이 점수는 단순 텍스트 생성이 아니라 실제 화면을 보고 마우스·키보드를 움직여 작업을 끝내는 능력을 잰다.

같은 시기 OpenAI는 GPT-5.2 Instant 단계에 머물러 있었다. 비교 가능한 컴퓨터 조작 점수는 공개되지 않았다. Opus 4.6은 추론·코딩 깊이를, Sonnet 4.6은 속도와 에이전트 능력을 맡는 분업이 이번 출시에서 또렷해졌다.

두 모델이 빠르게 풀린 배경에는 두 힘이 있다. 하나는 OpenAI·Google과의 출시 경쟁이 분기별이 아닌 격주 단위로 좁혀진 것. 다른 하나는 "Claude로 컴퓨터를 시킨다"는 사용 패턴이 실험에서 실사용으로 넘어가는 시점이라는 것이다.

OSWorld 72.5%는 사람이 일상적으로 컴퓨터로 끝내는 일의 상당 부분을 모델이 따라잡았다는 신호다. 챗봇 시대의 끝과 에이전트 시대의 시작이 같은 분기에 겹쳤다.

Anthropic이 분기 단위 출시에서 격주 단위 출시로 넘어왔다. 사용자도 그 속도에 맞춰 모델 선택을 다시 점검해야 한다.

OSWorld: 컴퓨터 화면을 보고 마우스·키보드로 실제 작업(파일 정리, 웹 검색, 표 편집)을 끝낼 수 있는지 재는 벤치마크. 챗봇 점수가 아니라 "컴퓨터 시킨다"의 점수.
Opus / Sonnet: Anthropic 모델 라인. Opus는 추론·깊이 우선, Sonnet은 속도·균형 우선. Haiku(가벼움)까지 셋이 한 묶음.
에이전트 능력 (Agent Capability): 사용자가 한 번 시키면 모델이 여러 단계를 스스로 풀어가는 능력. 한 번 질문 → 한 번 답변의 챗봇 모델과 구분되는 지점.