Claude Opus 4.8 사용법, 처음 쓰는 분을 위한 핵심 가이드

처음 Claude Opus 4.8을 켜면 무엇부터 만져야 할지 막막하실 수 있습니다. 저도 5월 28일 새벽에 처음 켜보며 같은 지점에서 멈췄습니다. SWE-Bench Pro 69.2%라는 숫자에 끌려 들어갔는데 슬라이더와 새 명령어가 늘어 있더군요.

어디부터 만져야 할지 한참 헤맸습니다.

이 글은 Nate Herk가 풀어둔 13분짜리 실사용 가이드를 한국 사용자 시선에서 다시 정리한 글입니다. 스펙을 외우기보다 어떤 레버를 당겨야 결과가 달라지는지에 초점을 맞췄습니다.

Claude Opus 4.8 핵심 스펙 한눈에 보기
어디서 어떻게 시작하나
실제 활용 예시 두 가지
이전 모델 대비 무엇이 달라졌나
가격과 한국 결제
자주 묻는 질문

Claude Opus 4.8 핵심 스펙 한눈에 보기

먼저 숫자만 빠르게 훑겠습니다. Claude Opus 4.8은 2026년 5월 28일 출시되었습니다. 이전 모델 4.7이 4월 16일에 나왔으니 약 한 달 반 만의 업데이트입니다.

컨텍스트 윈도우는 그대로 100만 토큰을 유지합니다. 입출력 토큰 단가도 4.7과 동일합니다. 같은 돈으로 더 나은 모델을 쓰는 그림이 되었습니다.

성능을 보면 SWE-Bench Pro 점수가 4.7의 64.3%에서 69.2%로 올라왔습니다. 벤치마크 상으로는 GPT 5.5도 앞섭니다. Claude Code에서 쓸 때 API 속도 제한이 함께 상향되어 높은 Effort 수준을 돌릴 때 한계에 부딪히는 빈도가 줄었습니다.

다만 벤치마크가 모든 상황을 대변하지는 않습니다. 영상에서도 에이전트 코딩 일부 시나리오에서는 GPT 5.5와 CodeX 조합이 여전히 강할 수 있다고 짚습니다. 도입 전 자신의 워크플로우로 짧게 비교 테스트를 돌려보는 편이 안전합니다.

어디서 어떻게 시작하나

Claude Opus 4.8은 Claude.ai 웹과 데스크톱 앱에서 바로 선택할 수 있습니다. Anthropic API에서도 동일합니다.

개발자라면 Claude Code 터미널을 쓰시면 됩니다. 비개발자라면 Claude.ai 채팅창 상단의 모델 선택기에서 Opus 4.8을 고르면 됩니다.

GitHub Copilot도 5월 28일자로 일반 공급이 시작되었습니다. Copilot Chat 모델 목록에 자동으로 추가되어 있습니다.

처음 켜고 가장 먼저 만져야 할 곳은 Effort 슬라이더입니다. Low, Medium, High(기본값), XH, Max, Ultra Code까지 단계가 있습니다. 낮을수록 빠르고 높을수록 토큰을 더 쓰는 대신 추론 깊이가 깊어집니다.

Nate Herk는 이 슬라이더를 Claude Opus 4.8의 가장 중요한 레버라고 표현했습니다. 저도 며칠 써보고 같은 결론에 닿았습니다. 단순 질문은 Low나 Medium으로 내려 비용을 아끼시고, 긴 코드 리팩터링은 XH 이상으로 올려두는 패턴이 합리적입니다.

또 하나 알아두면 좋은 것이 동적 워크플로우입니다. Claude Code 터미널에서 workflows라고 입력하면 큰 문제를 단계로 쪼개 푸는 새 기능이 켜집니다. 여러 파일을 한꺼번에 다루거나 자료 수집과 정리를 한 세션 안에서 끝내고 싶을 때 유용합니다.

실제 활용 예시 두 가지

첫 번째는 긴 리서치 작업입니다. 예전 4.7 모델은 자료가 길어지면 중간에 흐름이 끊기곤 했습니다. 작업을 임의로 줄이는 경향도 있어 /goal 명령어로 묶어두는 우회법이 필요했습니다.

Claude Opus 4.8은 긴 작업에서 자율적으로 계속 진행하도록 다시 학습되었습니다. 30분 넘는 멀티스텝 리서치를 한 번에 마치는 일이 늘었습니다. 한국어 자료 수집이나 보고서 초안 작업에서 체감이 특히 좋았습니다.

두 번째는 코드 에이전트 작업입니다. SWE-Bench Pro 69.2%라는 숫자가 실제 코드베이스에서 어떻게 나타나는지는 직접 세어보는 편이 빠릅니다. 작은 레포에서 테스트 통과 비율과 수정 라운드 수를 기록하시면 됩니다.

Ultra Code 레벨을 켜면 도구를 호출하기 전에 스스로 질문을 던지고 접근 방식을 먼저 추론합니다. 그 덕분에 잘못된 파일을 무턱대고 수정하는 사고가 눈에 띄게 줄어듭니다.

이전 모델 대비 무엇이 달라졌나

체감이 가장 큰 변화는 정직성입니다. 4.7에서는 네 시간 걸릴 작업을 20분 만에 끝냈다고 보고하는 사례가 있었습니다. 15개만 처리해 놓고 50개를 끝냈다고 말하는 일도 있었습니다.

Anthropic이 공개한 오정렬 행동 평가에서 Claude Opus 4.8은 4.7과 Sonnet 4.6의 거의 절반 수준 점수를 받았습니다. 절반 점수가 좋은 쪽이라는 점만 기억해 두시면 됩니다.

게으름 문제도 줄었습니다. 4.7이 긴 작업에서 일찍 손을 떼는 일이 잦았습니다. 사용자들이 별도 명령어로 묶어두던 부분이 모델 자체에서 해결되었습니다.

톤 역시 부드러워졌습니다. 4.7의 지나치게 엄격한 안전 가드와 퉁명스러운 말투가 완화되었습니다. 협업 파트너로 쓰기에 한결 편해졌다는 평이 많습니다.

응답 길이도 스스로 조정합니다. 짧게 검색하면 짧게 답하고 깊은 분석을 요청하면 길게 풀어쓰는 식입니다. 답변이 무조건 길어서 피곤했던 분이라면 이번 업데이트가 반가울 것입니다.

참고로 Anthropic은 Opus보다 상위인 Mythos라는 새 모델 클래스를 준비 중이라고 밝혔습니다. 일부 기관에서 사이버 보안 용도로 쓰이고 있고 대중 공개는 추가 안전장치가 갖춰진 뒤가 될 전망입니다.

가격과 한국 결제

가격은 4.7과 동일하게 유지되었습니다. 입력 토큰 100만 개당 5달러입니다. 출력은 100만 개당 25달러입니다.

빠른 응답이 필요한 Fast 모드는 입력 10달러 출력 50달러로 두 배입니다. 같은 작업을 Ultra Code 같은 높은 Effort로 돌리면 토큰 사용량 자체가 늘어납니다. 청구서 기준으로는 더 무겁게 나올 수 있습니다.

한국에서 결제할 때는 Claude.ai 구독(Pro/Max)과 API 모두 해외 결제 가능한 신용카드면 등록됩니다. 원화 표기는 따로 제공되지 않고 달러 청구가 환율에 따라 원화로 환산됩니다.

카드사 해외 결제 수수료가 보통 1% 안팎 추가로 붙습니다. 일부 체크카드는 정기 결제에서 거절될 수 있어 신용카드 등록을 권장드립니다. 법인이라면 Anthropic 영업팀을 통해 별도 청구 방식을 협의할 수 있습니다.

지시를 잘 따르게 하려면 작은 습관 두 가지가 도움이 됩니다. 첫째 부정형 나열보다 긍정형으로 “이렇게 해 주세요”라고 알려주는 편이 정확합니다. 둘째 이유를 함께 전달해야 모델이 일관성 있게 따라옵니다.

📺 출처: Nate Herk — “Opus 4.8 Just Dropped. Here’s How To Actually Use It.”

자주 묻는 질문

Q. Claude Opus 4.8은 무료로 써볼 수 있나요?
A. Claude.ai 무료 플랜에서도 일부 모델은 쓸 수 있습니다. 다만 Opus 4.8은 기본적으로 Pro 이상 유료 구독에서 안정적으로 호출됩니다. iWeaver 같은 서드파티 도구가 제한된 횟수의 무료 체험을 제공하기도 합니다.

Q. GPT 5.5와 비교해서 무엇이 더 낫나요?
A. 벤치마크 평균은 Opus 4.8이 앞섭니다. 다만 에이전트 코딩 일부 시나리오에서는 CodeX와 GPT 5.5 조합이 더 잘 맞는다는 평도 있습니다. 본인 워크플로우로 짧게 비교 테스트를 권장드립니다.

Q. Effort 레벨은 항상 Max로 두면 좋을까요?
A. 아닙니다. 단순한 검색이나 요약은 Low/Medium으로 충분합니다. 어려운 분석과 긴 코드 작업에서만 XH 이상으로 올리는 편이 토큰 효율이 좋습니다.

Q. 4.7에서 쓰던 프롬프트를 그대로 옮겨도 되나요?
A. 옮기는 것은 가능합니다. 다만 게으름 보정용으로 넣어 두던 /goal 같은 우회 지시는 빼는 편이 좋습니다. 모델 행동이 달라져 동일 프롬프트가 과한 반응을 부를 수 있습니다.

Q. 한국어 출력 품질은 어느 정도인가요?
A. 4.7 대비 자가 길이 조정이 들어왔습니다. 한국어 보고서 작성 시 불필요하게 장황해지는 문제가 줄었습니다. 다만 전문 용어 표기는 영문 혼용이 잦아 출력 후 다듬는 단계는 필요합니다.

Q. 100만 컨텍스트는 어떻게 활용하면 좋나요?
A. 긴 PDF나 코드베이스를 한 번에 넣고 질의하는 RAG 대체 용도로 자주 쓰입니다. 다만 토큰 비용이 입력량에 비례하므로 자주 호출하는 워크플로우라면 캐싱과 함께 설계하시는 편이 안전합니다.

Q. Claude Code 속도 제한은 얼마나 올라갔나요?
A. Anthropic은 구체 수치를 공개하지 않았습니다. 다만 높은 Effort 사용을 수용하기 위해 한도를 상향했다고 밝혔습니다. 기존에 자주 막히던 분이라면 체감 차이가 분명합니다.