5/24 の変化要約

価格↓ 2件·新モデル 1件·ベンチ更新 3件·規制 1件。

総更新0

Impact 50件

価格変動−13.4%

新モデル0件

規制0件

カテゴリ別 5件

← → でアーカイブ移動 · L で言語切替

新モデル

0 updates

RELEASE● top impact

Claude Opus 4.8 リリース

コンテキスト 500K に拡張、価格据え置き。MMLU 91.4、HumanEval 94.2 で SOTA。

context500K+150K

▸ 既存 4.7 ユーザーは即移行推奨

·Gemini 3 Flash-Lite GA
·Mistral Large 3 オープン重み公開
·Qwen3-Max-72B 中国向け
·Llama 4.1 70B 量子化版

価格 / API

0 updates

PRICE CUT● top impact

GPT-5.5 入力トークン -20%

$5.00 → $4.00 / 1M tokens。出力は据え置き。バッチAPI併用で実質-32%。

input $/1M4.00-20.0%

input $/1M4.00

-20.0%

−30dtoday

▸ 大規模バッチワークロードを再見積もり

·Anthropic prompt cache 12h → 24h
·Together AI Llama hosting -15%
·Cohere Command R+ pricing 統合

ベンチマーク

0 updates

SOTA

SWE-bench Verified 72.4% 達成

Claude Opus 4.8 が前 SOTA 68.1% を 4.3pt 上回る。Python タスクで顕著な改善。

SWE-bench V72.4+4.3

SWE-bench V72.4

+4.3

−30dtoday

▸ コーディングエージェント設計の前提が変わる

·GPQA Diamond 78.2% (+2.1)
·MATH 95.8% on Gemini 3 Pro

研究 / 論文

0 updates

PAPER

Sparse Attention で推論 3.2x 高速化

DeepMind、長文脈で精度ほぼ維持しつつスループット劇的改善。OSS 実装 1 週間以内に登場見込み。

speedup3.2×vs base

▸ inference スタックの再評価タイミング

·RLHF 代替: DPO+ 提案
·Vision-Lang grounding 新手法
·Mech-interp で回路発見
·Long-context retrieval 評価
·Agent benchmark批判
·Multimodal RAG 効率化

規制 / 政策

0 updates

REGULATION

EU AI Act GPAI 義務 8/2 施行

汎用AIモデルへの透明性・著作権・systemic risk 報告義務が本格適用。コードオブプラクティス未署名企業に通知。

deadlineAug 270日

▸ EU 市場展開予定の組織は法務確認

·米国 AI EO 後継案議会提出