5/24 변화 요약

가격↓ 2건, 신모델 1건, 벤치 갱신 3건, 규제 1건.

총 업데이트0

Impact 50건

가격 변동−13.4%

신모델0건

규제0건

카테고리별 5건

← → 아카이브 이동 · L 언어 전환

신모델

0 updates

RELEASE● top impact

Claude Opus 4.8 출시

컨텍스트 500K로 확장, 가격 동결. MMLU 91.4, HumanEval 94.2로 SOTA.

context500K+150K

▸ 기존 4.7 사용자는 즉시 이전 권장

·Gemini 3 Flash-Lite GA
·Mistral Large 3 오픈 웨이트 공개
·Qwen3-Max-72B 중국향
·Llama 4.1 70B 양자화 버전

가격 / API

0 updates

PRICE CUT● top impact

GPT-5.5 입력 토큰 -20%

$5.00 → $4.00 / 1M tokens. 출력은 동결. 배치 API 병용 시 실질 -32%.

input $/1M4.00-20.0%

input $/1M4.00

-20.0%

−30dtoday

▸ 대규모 배치 워크로드 재산정 필요

·Anthropic prompt cache 12h → 24h
·Together AI Llama 호스팅 -15%
·Cohere Command R+ 가격 통합

벤치마크

0 updates

SOTA

SWE-bench Verified 72.4% 달성

Claude Opus 4.8가 이전 SOTA 68.1%를 4.3pt 상회. Python 태스크에서 두드러진 개선.

SWE-bench V72.4+4.3

SWE-bench V72.4

+4.3

−30dtoday

▸ 코딩 에이전트 설계 전제가 바뀜

·GPQA Diamond 78.2% (+2.1)
·MATH 95.8% on Gemini 3 Pro

연구 / 논문

0 updates

PAPER

Sparse Attention로 추론 3.2x 가속

DeepMind, 장문맥에서 정확도 거의 유지하며 처리량 극적 개선. OSS 구현 1주 내 등장 전망.

speedup3.2×vs base

▸ inference 스택 재평가 시점

·RLHF 대체: DPO+ 제안
·Vision-Lang grounding 신기법
·Mech-interp로 회로 발견
·Long-context retrieval 평가
·Agent benchmark 비판 논문
·Multimodal RAG 효율화

규제 / 정책

0 updates

REGULATION

EU AI Act GPAI 의무 8/2 시행

deadlineAug 270日

▸ EU 시장 진출 예정 조직은 법무 확인

·미국 AI EO 후속안 의회 제출