ChatGPT·Gemini·Claude 비교: LiveBench 기준으로 본 용도별 선택

ChatGPT, Gemini, Claude는 AI 도구를 고를 때 가장 자주 비교되는 서비스입니다. 이 글은 LiveBench.ai 점수를 기준으로 세 서비스를 나눠 봤습니다. 다만 벤치마크 점수가 실제 업무 만족도를 그대로 말해주지는 않습니다. 소상공인이나 1인 사업자 기준에서는 가격, 자주 쓰는 업무, 기존 Google/문서 작업 환경까지 같이 보는 편이 낫습니다.

세 서비스를 한눈에 보는 기본 정보

항목	ChatGPT (GPT-5.5)	Google Gemini 3.1 Pro	Claude 4.7 Opus
개발사	OpenAI	Google DeepMind	Anthropic
출시 연도	2022년~	2023년~	2023년~
최신 주력 모델	GPT-5.5	Gemini 3.1 Pro	Claude 4.7 Opus
유료 플랜 월 가격	ChatGPT Plus $20/월	Google AI Pro $20/월 (약 ₩29,000)	Claude Pro $20/월 (약 ₩29,000)
무료 플랜	GPT-4o Mini 제공	Gemini 2.0 Flash 제공	Claude Haiku 제공
한국어 지원	우수	우수	우수

LiveBench 실제 벤치마크 점수 비교 (2026년 5월 기준)

LiveBench는 오염되지 않은 신규 문제를 지속적으로 출제하여 AI 모델의 실력을 객관적으로 측정하는 벤치마크입니다. 아래는 각 회사의 최고 성능 모델 기준 실측 점수입니다.

카테고리	GPT-5.5 Thinking	Gemini 3.1 Pro	Claude 4.7 Opus Thinking
종합 평균	80.71	79.93	76.91
추론 (Reasoning)	87.71	84.00	87.69
코딩 (Coding)	82.47	76.45	82.09
에이전틱 코딩	56.67	65.00	60.00
수학 (Math)	96.32	91.04	93.10
데이터 분석	81.08	78.54	78.26
언어 (Language)	87.66	85.38	77.91
지시 따르기 (IF)	73.04	79.10	59.34

출처: LiveBench.ai (2026년 5월 기준, high unseen bias 필터 적용)

요약:

GPT-5.5: 종합 1위(80.71). 수학, 언어, 데이터 분석에서 점수가 높음
Gemini 3.1 Pro: 종합 2위(79.93). 에이전틱 코딩과 지시 따르기에서 1위. GPT와 근소한 차이
Claude 4.7 Opus: 종합 3위(76.91). 추론과 코딩에서 GPT와 거의 동등. 지시 따르기는 상대적으로 약세

영역별로 차이가 나는 부분

수학 · 논리 추론: GPT-5.5가 앞선 영역

수학에서 GPT-5.5는 96.32점으로 압도적입니다. Claude 4.7 Opus(93.10)와 Gemini 3.1 Pro(91.04)도 뛰어나지만 GPT와는 3~5점 이상 격차가 납니다. 추론에서도 GPT-5.5(87.71)와 Claude 4.7(87.69)는 사실상 동점으로 최상위권이며 Gemini(84.00)가 뒤를 잇습니다.

추천: 수학 문제 풀이, 통계 분석, 논리 퍼즐 → GPT-5.5 또는 Claude 4.7

코딩: GPT-5.5와 Claude 4.7이 비슷한 구간

일반 코딩에서는 GPT-5.5(82.47)와 Claude 4.7(82.09)이 거의 동점으로 양강 구도입니다. Gemini는 76.45로 다소 뒤처집니다. 그러나 에이전틱 코딩(실제 환경에서 자율적으로 코드 작성·실행)에서는 Gemini 3.1 Pro(65.00)가 오히려 1위입니다. GPT(56.67), Claude(60.00)가 뒤따릅니다.

추천: 일반 코드 작성·리뷰 → GPT-5.5 또는 Claude 4.7 | 자율 에이전트 코딩 → Gemini 3.1 Pro

글쓰기 · 언어: GPT-5.5와 Gemini가 강한 편

언어 영역에서 GPT-5.5(87.66)가 1위, Gemini 3.1 Pro(85.38)가 근접한 2위입니다. Claude(77.91)는 이 영역에서 상대적으로 약세를 보입니다. 다만 Claude는 긴 문서 처리와 지시 정확도 면에서 정성적으로 높은 평가를 받는 경우가 많습니다.

추천: 마케팅 카피, 이메일 작성, 창작 → GPT-5.5 또는 Gemini 3.1 Pro

지시 따르기: Gemini가 앞선 영역

복잡한 지시사항을 정확히 따르는 능력(IF)에서 Gemini 3.1 Pro(79.10)가 GPT-5.5(73.04)를 크게 앞서고, Claude 4.7(59.34)은 이 영역에서 뚜렷한 약점을 보입니다. 형식이 정해진 복잡한 문서 작업이나 다단계 지시에는 Gemini가 유리합니다.

추천: 복잡한 포맷 지시, 다단계 작업 자동화 → Gemini 3.1 Pro

요금제 및 가격 비교

플랜	ChatGPT	Google Gemini	Claude
무료	GPT-4o Mini 제공	Gemini 2.0 Flash 제공	Claude Haiku 4.5 제공
기본 유료	ChatGPT Plus $20/월	Google AI Pro $20/월 (₩29,000)	Claude Pro $20/월 (₩29,000)
고급 유료	ChatGPT Pro $200/월	Google AI Ultra $50/월	Claude Max $100~200/월
API (입력 1M 토큰)	GPT-5 $15	Gemini Flash $0.075 (초저가)	Claude Sonnet 4.6 $3
포함 기능	DALL-E, 음성, Codex	Google Workspace 연동	프로젝트, 아티팩트

API 비용 핵심: Gemini Flash 시리즈는 경쟁사 대비 10~20배 저렴한 입력 토큰 가격으로 대규모 자동화 프로젝트에서 비용 효율이 압도적입니다. 반면 Claude Sonnet 4.6는 가성비와 성능의 균형점으로 많은 개발자에게 선택받고 있습니다.

사용 목적별 추천 AI

사용 목적	1순위 추천	이유
수학 / 과학 문제 풀이	GPT-5.5	수학 점수 96.32, 압도적 1위
코드 작성 · 디버깅	GPT-5.5 또는 Claude 4.7	코딩 82.47 vs 82.09, 사실상 동점
자율 코딩 에이전트	Gemini 3.1 Pro	에이전틱 코딩 65.00, 1위
글쓰기 · 마케팅 카피	GPT-5.5	언어 점수 87.66 최고
긴 문서 분석 · 요약	Claude 4.7 Opus	긴 컨텍스트 처리 및 추론 강점
복잡한 지시 자동화	Gemini 3.1 Pro	지시 따르기(IF) 79.10, 압도적 1위
Google 생태계 연동	Gemini	Gmail, Docs, Drive 네이티브 연동
대규모 API 활용 (비용 절감)	Gemini Flash	입력 $0.075/1M 토큰, 10~20배 저렴
안전 · 윤리적 응답	Claude 4.7	Anthropic의 Constitutional AI 설계
이미지 생성 통합	ChatGPT	DALL-E 3 기본 탑재

각 AI의 특징 및 장단점

ChatGPT (OpenAI GPT-5.5)

장점:

LiveBench 종합 1위(80.71) — 전반적으로 가장 균형 잡힌 성능
수학(96.32), 언어(87.66), 데이터 분석(81.08) 최고점
DALL-E 이미지 생성, Advanced Voice Mode, Codex 에이전트 내장
가장 넓은 플러그인·GPT 생태계
전 세계 최다 사용자 → 커뮤니티·레퍼런스 풍부

단점:

ChatGPT Pro $200/월로 고성능 모델 비용 부담
에이전틱 코딩(56.67)은 세 모델 중 최하위
지시 따르기(73.04)에서 Gemini에 뒤처짐

Google Gemini 3.1 Pro

장점:

에이전틱 코딩(65.00)과 지시 따르기(79.10) 모두 1위
Google Workspace(Gmail, Docs, Drive, Meet) 네이티브 연동
Gemini Flash API 가격이 낮은 편 ($0.075/1M 입력 토큰)
GPT-5.5와 종합 점수 차이가 0.78점이라 벤치마크상으로는 큰 차이가 아님
YouTube, Google Search 생태계 연동

단점:

코딩(76.45)과 추론(84.00)에서 GPT·Claude 대비 약세
Google 생태계 밖에서는 연동 이점이 감소
창의적 글쓰기 스타일이 다소 딱딱하다는 평

Claude 4.7 Opus (Anthropic)

장점:

추론(87.69)에서 GPT-5.5(87.71)와 사실상 동점으로 최강급
긴 문서(소설, 논문, 계약서 등) 처리와 맥락 유지에 강점
Constitutional AI 방향의 안전한 응답 설계
코딩(82.09)에서 GPT와 거의 동등
아티팩트, 프로젝트 기능으로 구조화된 작업에 강점

단점:

지시 따르기(59.34)가 세 모델 중 최하위
이미지 생성 기능 없음
Google·Microsoft 생태계 연동 미흡
종합 점수(76.91)로 GPT·Gemini 대비 약 3~4점 낮음

용도별로 고르면 이렇게 나뉩니다

가장 무난한 선택 → ChatGPT Plus ($20): 수학, 글쓰기, 코딩 전반적으로 최고 수준. 이미지 생성까지 한 계정에서 처리 가능
Google 직장인 → Google AI Pro ($20): Gmail·Docs·Drive 자동화로 업무 흐름에 붙이기 쉬움
긴 문서 분석가·연구자 → Claude Pro ($20): 논문, 계약서, 보고서처럼 긴 자료를 다룰 때 유리함
개발자 (비용 절감) → Gemini Flash API: API 비용을 줄여야 하는 자동화 작업에서 검토할 만함
올인원 고성능 유저 → ChatGPT Pro ($100/월): 예산 여유가 있고 사용량이 많다면 검토할 만함

결론: 하나만 고르기보다 용도부터 정하기

2026년 현재, ChatGPT·Gemini·Claude는 모두 월등히 뛰어난 AI입니다. LiveBench 종합 점수 기준 GPT-5.5(80.71) → Gemini 3.1 Pro(79.93) → Claude 4.7(76.91) 순이지만, 영역별로는 각자 강점이 다릅니다.

세 AI 모두 무료 플랜을 제공하니, 직접 써보고 자신의 업무 스타일에 맞는 것을 선택하는 것이 가장 현명합니다. 실제로 많은 파워유저들은 상황에 따라 두 세 가지를 함께 활용합니다.

이 글의 벤치마크 데이터는 LiveBench.ai 2026년 5월 기준입니다. AI 모델은 빠르게 업데이트되므로 최신 순위는 직접 확인하시길 권장합니다.

참고용 공식 링크

제가 실제로 써보며 본 기준

세 모델을 번갈아 쓰다 보면 점수표만으로는 설명이 안 되는 차이가 보입니다. ChatGPT는 빠르게 초안을 만들 때 편하고, Claude는 긴 글을 다듬거나 문맥을 오래 붙잡는 작업에서 안정적입니다. Gemini는 구글 생태계 자료를 다룰 때 손이 덜 갑니다. 저는 블로그 글을 만들 때 한 모델에 끝까지 맡기기보다 역할을 나눠 씁니다. 초안은 빠르게 만들고, 문장 다듬기는 다른 모델에 맡기고, 마지막에는 직접 읽으면서 어색한 표현을 지웁니다. 결국 중요한 건 1등 모델을 고르는 것보다 작업별로 맞는 모델을 고르는 쪽이었습니다.

세 서비스를 한눈에 보는 기본 정보

LiveBench 실제 벤치마크 점수 비교 (2026년 5월 기준)

영역별로 차이가 나는 부분

수학 · 논리 추론: GPT-5.5가 앞선 영역

코딩: GPT-5.5와 Claude 4.7이 비슷한 구간

글쓰기 · 언어: GPT-5.5와 Gemini가 강한 편

지시 따르기: Gemini가 앞선 영역

요금제 및 가격 비교

사용 목적별 추천 AI

각 AI의 특징 및 장단점

ChatGPT (OpenAI GPT-5.5)

Google Gemini 3.1 Pro

Claude 4.7 Opus (Anthropic)

용도별로 고르면 이렇게 나뉩니다

결론: 하나만 고르기보다 용도부터 정하기

참고용 공식 링크

제가 실제로 써보며 본 기준

댓글

답글 남기기 응답 취소