코딩, 이미지 분석, 음성 입력을 하나의 AI로 처리할 수 있다면 AI 구독 숫자를 줄일 수 있을까요? OpenAI가 2026년 4월 23일 공개한 GPT-5.5는 그 방향을 직접 제시하는 모델입니다. 내부 코드명은 Spud. 출시 당일부터 ChatGPT Plus 이상 구독자에게 순차 배포됐습니다.
목차
GPT-5.5가 등장한 배경
GPT 시리즈는 GPT-5 → GPT-5.4를 거쳐 이번에 5.5로 넘어왔습니다. 성능뿐 아니라 가격도 함께 올랐는데, API 기준 GPT-5.4 대비 입력·출력 모두 두 배 수준입니다.
OpenAI의 수석 연구 책임자 Mark Chen은 GPT-5.5를 “지금까지 출시한 모델 중 가장 스마트하고 직관적으로 사용할 수 있는 모델”로 소개했습니다. 실제 사용자가 체감하는 ‘사용하기 쉬움’을 성능만큼 중요하게 다뤘다는 점에서 이전 세대 발표와 다른 톤이었습니다.
핵심 변화 — 네이티브 옴니모달
GPT-5.5에서 가장 눈에 띄는 구조적 변화는 네이티브 옴니모달 처리 방식입니다. 텍스트, 이미지, 오디오, 영상을 하나의 통합 시스템에서 처리합니다.
이전 모델들은 모달리티별 파이프라인이 별도로 존재했습니다. 음성 입력은 먼저 텍스트로 변환된 뒤 언어 모델로 넘어갔고 이미지도 비슷한 중간 단계를 거쳤습니다. GPT-5.5는 이 경계를 없앴습니다. 음성으로 질문하면서 이미지를 동시에 첨부하면 두 입력이 변환 없이 통합 처리됩니다.
실제로 의미가 있는 시나리오는 이런 경우입니다. 회의 중 화이트보드 사진을 찍으면서 동시에 음성으로 “이 내용을 바탕으로 다음 달 일정을 짜줘”라고 요청하는 상황. 이전에는 사진을 업로드하고 텍스트 설명을 다시 타이핑해야 했습니다.
에이전틱 코딩 — 가장 강해진 영역
OpenAI가 GPT-5.5에서 가장 강조한 영역은 에이전틱 코딩입니다. Terminal-Bench 2.0 기준 82.7%를 기록했으며, 이는 현재 공개된 모델 중 최고 수준입니다.
단순히 코드를 작성하는 데 그치지 않고 복잡한 멀티 단계 작업을 직접 계획하고 필요한 도구를 선택하며 실행 결과를 확인하는 흐름을 자율적으로 처리합니다. OSWorld-Verified(실제 컴퓨터 화면 조작 벤치마크)에서도 78.7%를 기록해 경쟁 모델 대비 우위를 보였습니다.
코딩 외에도 데이터 분석, 웹 리서치, 문서 작성, 스프레드시트 처리가 에이전틱 방식으로 묶여 처리될 수 있습니다. 지시를 내리고 결과만 받는 방식으로 업무 흐름을 구성하려는 분들에게 유용합니다.
수학·과학 연구 영역
수리 추론 측면에서도 눈에 띄는 수치가 있습니다. FrontierMath Tier 4 벤치마크에서 GPT-5.5 Pro가 39.6%를 기록했습니다. OpenAI는 GPT-5.5의 맞춤 버전이 연구자들의 수학 정리 발견 과정을 실제로 지원했다고 밝혔습니다.
AI가 연구 보조 수준을 넘어 실제 과학 워크플로우에 통합되는 사례가 구체화되고 있다는 신호입니다. 일반 사용자보다는 연구·학술 환경에서 두드러지는 부분입니다.
가격과 플랜
| 구분 | ChatGPT 플랜 | API 가격 (입력 / 출력, 1M 토큰) |
|---|---|---|
| GPT-5.5 | Plus, Pro, Business, Enterprise | $5 / $30 |
| GPT-5.5 Pro | Pro, Business, Enterprise 전용 | $30 / $180 |
ChatGPT Plus 구독자($20/월)는 GPT-5.5 기본 모델을 추가 비용 없이 사용할 수 있습니다. Pro 버전은 가장 높은 추론 깊이가 필요한 작업에 최적화된 모델로 Pro 플랜($200/월) 이상에서만 접근할 수 있습니다.
API를 통해 자체 서비스에 통합할 계획이라면 비용 계산을 미리 해두는 게 좋습니다. GPT-5.4 대비 출력 토큰 비용이 두 배로 올랐기 때문에 대용량 출력이 반복되는 파이프라인은 비용 영향을 예상보다 크게 받을 수 있습니다.
속도는 유지됐습니다
성능이 오른 만큼 응답이 느려지는 것은 아닌지 우려할 수 있습니다. OpenAI는 GPT-5.5가 GPT-5.4와 동일한 토큰당 레이턴시를 유지하면서 더 높은 성능을 낸다고 밝혔습니다. 실제 서빙 환경에서 속도 저하 없이 향상된 추론 능력을 경험할 수 있다는 의미입니다.
어떤 경우에 GPT-5.5를 선택하면 좋을까요
GPT-5.5가 특히 적합한 상황은 세 가지입니다.
첫째, 터미널 명령어를 반복 실행하며 작업을 자율적으로 완수하는 에이전트 구성이 필요한 경우입니다. Terminal-Bench 2.0에서의 82.7%는 현재 공개 모델 중 가장 높습니다.
둘째, 음성·이미지·영상 입력이 혼합된 멀티모달 파이프라인이 필요한 경우입니다. 네이티브 옴니모달 구조가 이런 사용 시나리오에서 강점을 발휘합니다.
셋째, 이미 ChatGPT Plus 이상을 구독 중인 분들입니다. 추가 비용 없이 GPT-5.5를 바로 사용할 수 있어 도입 장벽이 없습니다.
정리
GPT-5.5는 에이전틱 코딩과 네이티브 옴니모달 통합에 초점을 맞춘 모델입니다. Terminal-Bench 2.0 최고 점수를 기록했고 텍스트·이미지·음성·영상을 하나의 시스템에서 처리할 수 있게 됐습니다. API 가격은 GPT-5.4 대비 두 배로 올랐지만 ChatGPT Plus 구독자는 추가 비용 없이 바로 사용할 수 있습니다.
같은 기간 Anthropic에서 출시한 Claude Opus 4.7과의 구체적인 벤치마크·가격 비교는 GPT-5.5 vs 클로드 Opus 4.7 비교 글에서 이어집니다.
참고: OpenAI 공식 발표 | TechCrunch | 9to5Mac