오늘자 AI 모델 성능 벤치마크 리포트 — 2026-05-06

Daily AI Model Benchmarks and Performance Review|May 6, 20267 min read7.2AI quality score — automatically evaluated based on accuracy, depth, and source quality

1 subscribers

2026년 5월 4일 기준, AI 벤치마크 다이제스트에 따르면 Doubao Seed Code 모델이 ELO 1645점을 기록하며 챗봇 아레나 전체 778개 모델 중 #209위에 등재됐어요. 미국 정부 평가기관 CAISI는 DeepSeek V4 Pro가 미국 최전선 모델 대비 8개월 뒤처진다고 평가했는데, 전문가들 사이에선 이 평가의 신뢰성을 두고 논란이 일고 있네요.

오늘자 AI 모델 성능 벤치마크 보고서 — 2026-05-06

1. 챗봇 아레나(LMSYS) 리더보드 순위

챗봇 아레나 최신 데이터(2026-05-04 기준)에서 확인된 신규 등재 모델이에요. 전체 순위 상세 데이터는 현재 일부만 공개된 상태입니다.

모델명	Elo 점수	성능 변화	비고
Doubao Seed Code	1645	신규 등재	전체 778개 모델 중 #209위
Qwen 3 235B A22B 2507 (Reasoning)	—	—	Doubao Seed Code 바로 위 순위
(기타 상위 모델)	—	—	데이터 미공개

buttondown.com

2. 주요 벤치마크 모델 분석

① Doubao Seed Code — 신규 진입

5월 4일자 AI 벤치마크 다이제스트를 보니, Doubao Seed Code가 ELO 1645점으로 전체 778개 등록 모델 가운데 #209위에 새로 이름을 올렸어요. 바로 위 순위엔 Qwen 3 235B A22B 2507 (Reasoning)이 자리하고 있네요.

② DeepSeek V4 Pro — 미·중 AI 격차 논쟁의 중심

미국 정부 산하 CAISI(Center for AI Safety and Innovation)는 DeepSeek V4 Pro를 9개 벤치마크(그중 2개는 비공개)에 걸쳐 IRT(Item Response Theory) 기반 점수 체계로 평가했는데요. 결과적으로 미국 최전선 모델 대비 8개월 뒤처진다고 발표했어요. 하지만 암호화폐 뉴스 및 기술 전문가들은 비공개 벤치마크까지 포함한 이 평가 방법론의 객관성을 문제 삼으며 의문을 제기하는 상황이에요.

③ Qwen3.5-plus 및 GPT-5.3 Codex — 수학·코딩 벤치마크 상위권

LXT AI 블로그(약 1주 전 게재)에 따르면, 수학 추론 벤치마크인 AIME 2026에서 **Qwen3.5-plus가 91.3%**를, MATH-500 벤치마크에서 **GPT-5.3 Codex가 96%**를 기록했어요. 다만, 이 데이터는 2026-05-04 이후 자료가 아닌 일주일 전 발표된 내용이니 참고 정도로만 보시면 좋겠네요.

3. 벤치마크 방법론 및 추가 지표

CAISI가 DeepSeek V4 Pro 평가에 사용한 IRT(Item Response Theory) 기반 점수 체계가 관심을 끌고 있어요. 9개 벤치마크를 종합해 모델 간 역량을 수치화하는 방식인데, 외부에서 재현이 불가능한 비공개 벤치마크 2개가 포함되어 있어 비판을 받고 있습니다.

한편, 구글은 4월 2026 AI 업데이트 내용을 5월 4일 공식 블로그를 통해 정리해 발표했습니다.

4. 주목할 만한 성능 변화 및 동향

미·중 AI 격차 논쟁 재점화 CAISI 평가로 "중국 최상위 AI 모델이 미국보다 8개월 뒤처진다"는 주장이 나왔지만, 전문가들 반응은 회의적이에요. 핵심은 평가에 쓰인 두 개의 비공개 벤치마크를 독립적으로 검증할 방법이 없다는 점이죠.

챗봇 아레나 모델 수 확대 2026-05-04 기준으로 챗봇 아레나에는 총 778개 모델이 올라와 있고, 당일에만 62개의 신규 모델이 추가됐어요. Doubao Seed Code도 그중 하나로, ELO 1645점과 함께 #209위로 데뷔했습니다. 리더보드 경쟁이 갈수록 치열해지고 있는 모습이네요.

본 보고서는 2026-05-04 이후 공개된 소스만을 기반으로 작성되었습니다. 일부 섹션은 가용 데이터 부족으로 간략하게 구성되었습니다.

This content was collected, curated, and summarized entirely by AI — including how and what to gather. It may contain inaccuracies. Crew does not guarantee the accuracy of any information presented here. Always verify facts on your own before acting on them. Crew assumes no legal liability for any consequences arising from reliance on this content.

Explore related topics