ChatGPT, Gemini, Claude는 AI 도구를 고를 때 가장 자주 비교되는 서비스입니다. 이 글은 LiveBench.ai 점수를 기준으로 세 서비스를 나눠 봤습니다. 다만 벤치마크 점수가 실제 업무 만족도를 그대로 말해주지는 않습니다. 소상공인이나 1인 사업자 기준에서는 가격, 자주 쓰는 업무, 기존 Google/문서 작업 환경까지 같이 보는 편이 낫습니다.
세 서비스를 한눈에 보는 기본 정보
| 항목 | ChatGPT (GPT-5.5) | Google Gemini 3.1 Pro | Claude 4.7 Opus |
|---|---|---|---|
| 개발사 | OpenAI | Google DeepMind | Anthropic |
| 출시 연도 | 2022년~ | 2023년~ | 2023년~ |
| 최신 주력 모델 | GPT-5.5 | Gemini 3.1 Pro | Claude 4.7 Opus |
| 유료 플랜 월 가격 | ChatGPT Plus $20/월 | Google AI Pro $20/월 (약 ₩29,000) | Claude Pro $20/월 (약 ₩29,000) |
| 무료 플랜 | GPT-4o Mini 제공 | Gemini 2.0 Flash 제공 | Claude Haiku 제공 |
| 한국어 지원 | 우수 | 우수 | 우수 |
LiveBench 실제 벤치마크 점수 비교 (2026년 5월 기준)
LiveBench는 오염되지 않은 신규 문제를 지속적으로 출제하여 AI 모델의 실력을 객관적으로 측정하는 벤치마크입니다. 아래는 각 회사의 최고 성능 모델 기준 실측 점수입니다.
| 카테고리 | GPT-5.5 Thinking | Gemini 3.1 Pro | Claude 4.7 Opus Thinking |
|---|---|---|---|
| 종합 평균 | 80.71 | 79.93 | 76.91 |
| 추론 (Reasoning) | 87.71 | 84.00 | 87.69 |
| 코딩 (Coding) | 82.47 | 76.45 | 82.09 |
| 에이전틱 코딩 | 56.67 | 65.00 | 60.00 |
| 수학 (Math) | 96.32 | 91.04 | 93.10 |
| 데이터 분석 | 81.08 | 78.54 | 78.26 |
| 언어 (Language) | 87.66 | 85.38 | 77.91 |
| 지시 따르기 (IF) | 73.04 | 79.10 | 59.34 |
출처: LiveBench.ai (2026년 5월 기준, high unseen bias 필터 적용)
요약:
- GPT-5.5: 종합 1위(80.71). 수학, 언어, 데이터 분석에서 점수가 높음
- Gemini 3.1 Pro: 종합 2위(79.93). 에이전틱 코딩과 지시 따르기에서 1위. GPT와 근소한 차이
- Claude 4.7 Opus: 종합 3위(76.91). 추론과 코딩에서 GPT와 거의 동등. 지시 따르기는 상대적으로 약세
영역별로 차이가 나는 부분
수학 · 논리 추론: GPT-5.5가 앞선 영역
수학에서 GPT-5.5는 96.32점으로 압도적입니다. Claude 4.7 Opus(93.10)와 Gemini 3.1 Pro(91.04)도 뛰어나지만 GPT와는 3~5점 이상 격차가 납니다. 추론에서도 GPT-5.5(87.71)와 Claude 4.7(87.69)는 사실상 동점으로 최상위권이며 Gemini(84.00)가 뒤를 잇습니다.
추천: 수학 문제 풀이, 통계 분석, 논리 퍼즐 → GPT-5.5 또는 Claude 4.7
코딩: GPT-5.5와 Claude 4.7이 비슷한 구간
일반 코딩에서는 GPT-5.5(82.47)와 Claude 4.7(82.09)이 거의 동점으로 양강 구도입니다. Gemini는 76.45로 다소 뒤처집니다. 그러나 에이전틱 코딩(실제 환경에서 자율적으로 코드 작성·실행)에서는 Gemini 3.1 Pro(65.00)가 오히려 1위입니다. GPT(56.67), Claude(60.00)가 뒤따릅니다.
추천: 일반 코드 작성·리뷰 → GPT-5.5 또는 Claude 4.7 | 자율 에이전트 코딩 → Gemini 3.1 Pro
글쓰기 · 언어: GPT-5.5와 Gemini가 강한 편
언어 영역에서 GPT-5.5(87.66)가 1위, Gemini 3.1 Pro(85.38)가 근접한 2위입니다. Claude(77.91)는 이 영역에서 상대적으로 약세를 보입니다. 다만 Claude는 긴 문서 처리와 지시 정확도 면에서 정성적으로 높은 평가를 받는 경우가 많습니다.
추천: 마케팅 카피, 이메일 작성, 창작 → GPT-5.5 또는 Gemini 3.1 Pro
지시 따르기: Gemini가 앞선 영역
복잡한 지시사항을 정확히 따르는 능력(IF)에서 Gemini 3.1 Pro(79.10)가 GPT-5.5(73.04)를 크게 앞서고, Claude 4.7(59.34)은 이 영역에서 뚜렷한 약점을 보입니다. 형식이 정해진 복잡한 문서 작업이나 다단계 지시에는 Gemini가 유리합니다.
추천: 복잡한 포맷 지시, 다단계 작업 자동화 → Gemini 3.1 Pro
요금제 및 가격 비교
| 플랜 | ChatGPT | Google Gemini | Claude |
|---|---|---|---|
| 무료 | GPT-4o Mini 제공 | Gemini 2.0 Flash 제공 | Claude Haiku 4.5 제공 |
| 기본 유료 | ChatGPT Plus $20/월 | Google AI Pro $20/월 (₩29,000) | Claude Pro $20/월 (₩29,000) |
| 고급 유료 | ChatGPT Pro $200/월 | Google AI Ultra $50/월 | Claude Max $100~200/월 |
| API (입력 1M 토큰) | GPT-5 $15 | Gemini Flash $0.075 (초저가) | Claude Sonnet 4.6 $3 |
| 포함 기능 | DALL-E, 음성, Codex | Google Workspace 연동 | 프로젝트, 아티팩트 |
API 비용 핵심: Gemini Flash 시리즈는 경쟁사 대비 10~20배 저렴한 입력 토큰 가격으로 대규모 자동화 프로젝트에서 비용 효율이 압도적입니다. 반면 Claude Sonnet 4.6는 가성비와 성능의 균형점으로 많은 개발자에게 선택받고 있습니다.
사용 목적별 추천 AI
| 사용 목적 | 1순위 추천 | 이유 |
|---|---|---|
| 수학 / 과학 문제 풀이 | GPT-5.5 | 수학 점수 96.32, 압도적 1위 |
| 코드 작성 · 디버깅 | GPT-5.5 또는 Claude 4.7 | 코딩 82.47 vs 82.09, 사실상 동점 |
| 자율 코딩 에이전트 | Gemini 3.1 Pro | 에이전틱 코딩 65.00, 1위 |
| 글쓰기 · 마케팅 카피 | GPT-5.5 | 언어 점수 87.66 최고 |
| 긴 문서 분석 · 요약 | Claude 4.7 Opus | 긴 컨텍스트 처리 및 추론 강점 |
| 복잡한 지시 자동화 | Gemini 3.1 Pro | 지시 따르기(IF) 79.10, 압도적 1위 |
| Google 생태계 연동 | Gemini | Gmail, Docs, Drive 네이티브 연동 |
| 대규모 API 활용 (비용 절감) | Gemini Flash | 입력 $0.075/1M 토큰, 10~20배 저렴 |
| 안전 · 윤리적 응답 | Claude 4.7 | Anthropic의 Constitutional AI 설계 |
| 이미지 생성 통합 | ChatGPT | DALL-E 3 기본 탑재 |
각 AI의 특징 및 장단점
ChatGPT (OpenAI GPT-5.5)
장점:
- LiveBench 종합 1위(80.71) — 전반적으로 가장 균형 잡힌 성능
- 수학(96.32), 언어(87.66), 데이터 분석(81.08) 최고점
- DALL-E 이미지 생성, Advanced Voice Mode, Codex 에이전트 내장
- 가장 넓은 플러그인·GPT 생태계
- 전 세계 최다 사용자 → 커뮤니티·레퍼런스 풍부
단점:
- ChatGPT Pro $200/월로 고성능 모델 비용 부담
- 에이전틱 코딩(56.67)은 세 모델 중 최하위
- 지시 따르기(73.04)에서 Gemini에 뒤처짐
Google Gemini 3.1 Pro
장점:
- 에이전틱 코딩(65.00)과 지시 따르기(79.10) 모두 1위
- Google Workspace(Gmail, Docs, Drive, Meet) 네이티브 연동
- Gemini Flash API 가격이 낮은 편 ($0.075/1M 입력 토큰)
- GPT-5.5와 종합 점수 차이가 0.78점이라 벤치마크상으로는 큰 차이가 아님
- YouTube, Google Search 생태계 연동
단점:
- 코딩(76.45)과 추론(84.00)에서 GPT·Claude 대비 약세
- Google 생태계 밖에서는 연동 이점이 감소
- 창의적 글쓰기 스타일이 다소 딱딱하다는 평
Claude 4.7 Opus (Anthropic)
장점:
- 추론(87.69)에서 GPT-5.5(87.71)와 사실상 동점으로 최강급
- 긴 문서(소설, 논문, 계약서 등) 처리와 맥락 유지에 강점
- Constitutional AI 방향의 안전한 응답 설계
- 코딩(82.09)에서 GPT와 거의 동등
- 아티팩트, 프로젝트 기능으로 구조화된 작업에 강점
단점:
- 지시 따르기(59.34)가 세 모델 중 최하위
- 이미지 생성 기능 없음
- Google·Microsoft 생태계 연동 미흡
- 종합 점수(76.91)로 GPT·Gemini 대비 약 3~4점 낮음
용도별로 고르면 이렇게 나뉩니다
- 가장 무난한 선택 → ChatGPT Plus ($20): 수학, 글쓰기, 코딩 전반적으로 최고 수준. 이미지 생성까지 한 계정에서 처리 가능
- Google 직장인 → Google AI Pro ($20): Gmail·Docs·Drive 자동화로 업무 흐름에 붙이기 쉬움
- 긴 문서 분석가·연구자 → Claude Pro ($20): 논문, 계약서, 보고서처럼 긴 자료를 다룰 때 유리함
- 개발자 (비용 절감) → Gemini Flash API: API 비용을 줄여야 하는 자동화 작업에서 검토할 만함
- 올인원 고성능 유저 → ChatGPT Pro ($100/월): 예산 여유가 있고 사용량이 많다면 검토할 만함
결론: 하나만 고르기보다 용도부터 정하기
2026년 현재, ChatGPT·Gemini·Claude는 모두 월등히 뛰어난 AI입니다. LiveBench 종합 점수 기준 GPT-5.5(80.71) → Gemini 3.1 Pro(79.93) → Claude 4.7(76.91) 순이지만, 영역별로는 각자 강점이 다릅니다.
세 AI 모두 무료 플랜을 제공하니, 직접 써보고 자신의 업무 스타일에 맞는 것을 선택하는 것이 가장 현명합니다. 실제로 많은 파워유저들은 상황에 따라 두 세 가지를 함께 활용합니다.
이 글의 벤치마크 데이터는 LiveBench.ai 2026년 5월 기준입니다. AI 모델은 빠르게 업데이트되므로 최신 순위는 직접 확인하시길 권장합니다.
참고용 공식 링크
제가 실제로 써보며 본 기준
세 모델을 번갈아 쓰다 보면 점수표만으로는 설명이 안 되는 차이가 보입니다. ChatGPT는 빠르게 초안을 만들 때 편하고, Claude는 긴 글을 다듬거나 문맥을 오래 붙잡는 작업에서 안정적입니다. Gemini는 구글 생태계 자료를 다룰 때 손이 덜 갑니다. 저는 블로그 글을 만들 때 한 모델에 끝까지 맡기기보다 역할을 나눠 씁니다. 초안은 빠르게 만들고, 문장 다듬기는 다른 모델에 맡기고, 마지막에는 직접 읽으면서 어색한 표현을 지웁니다. 결국 중요한 건 1등 모델을 고르는 것보다 작업별로 맞는 모델을 고르는 쪽이었습니다.

답글 남기기