OpenAI·未知Anthropic·未知Gemini·未知
AIBench.cc

关于 AIBench.cc

一个开源、中立的多厂商 LLM API 健康检测站。粘贴一个 key,30 秒看清你的渠道在延迟、缓存、限流、模型纯度与真实成本上的表现。

为什么做这个

API 渠道质量极不透明。同一个 model id,不同渠道给你的可能是被降级、量化、甚至替换成小模型的版本;标称便宜的渠道,可能因为剥离缓存、计费虚高而实际更贵。买家被「中转站」的营销话术包围,却没有一把中立的尺子。

AIBench.cc 把这把尺子开源出来:检测逻辑、评分标准、排名规则全部公开可复现,让渠道质量摆到台面上。

检测方法学

以下是六个维度的真实测量方式与各自的局限。我们认为,一个可信的检测工具应该把「怎么测的」和「测不准什么」都讲清楚。

延迟分布 P50 / P95 / P99

用顺序、并发、定速节拍三种方式发包,以 perf_counter 记录每次请求的端到端耗时,对排序后的样本做线性插值得出各分位数。

局限: 非流式延迟包含完整生成时间;网络抖动会单独通过基线 RTT 估计扣除,但仍受测点网络环境影响。

缓存命中

发两次「相同长前缀 + 不同 nonce」的预热请求,核对各协议的缓存字段:Anthropic 的 cache_read_input_tokens / cache_creation_input_tokens、OpenAI 的 prompt_tokens_details.cached_tokens、Gemini 的 cachedContentTokenCount,以及网关 Redis 层的 cache_hit 标记。

局限: 若第二次请求仍无缓存读取,会区分提示「可能被网关剥离缓存字段」或「多账号轮询导致各账号独立缓存」——这正是中转站常见的隐性扣费点。

限流策略

解析 anthropic-ratelimit-* / x-ratelimit-* 余量响应头并统计 HTTP 429 出现情况;RPM / TPM 模式按目标节拍持续发包,探测真实可达上限与排队行为。

局限: Gemini 无标准限流头,只能由 429 出现推断;多账号网关可能让余量看起来恒定,需结合 429 模式判断。

模型纯度(核心)

单次探针采集三路指纹并综合判定为 通过 / 存疑 / 降级:① 响应体里的 model / modelVersion 字段是否与所填一致;② 用极短 prompt 测得的 prompt token 数是否落在该模型 tokenizer 的基线区间(±30%);③ 要求模型自报身份,做模型「家族」关键字匹配。任一字段对不上即标记,多项不一致判为降级。

局限: 诚实地说:自报身份可能被系统提示覆盖;多语言场景 tokenizer 计数会偏移;不在基线表中的模型该信号会跳过;单次探针无法发现请求中途被切换。因此纯度给出的是「强烈怀疑」而非法律结论,我们把判据一并公开供你复核。

真实成本

内置 50+ 模型价目表(按子串最长匹配,未知模型回退 Sonnet 价位),按本次实际 token 用量(cache_read / cache_write / 未命中 input / output)逐项计费,并与「全程不命中缓存」的最坏情况对比,给出缓存节省比例与每千请求成本。

局限: 国产模型多为人民币计价,换算为美元为近似值;若模型被静默降级,计费单价会与你以为的不符——这也是纯度检测的价值所在。

流式 TTFT

在 SSE 流中记录第一个「有内容」的 chunk(剔除 usage / model 等控制帧)相对请求起点的时间作为 TTFT,并用输出 token 数 / 流式时长得到 token 间隔速度。

局限: 首个 SSE 帧未必是首个内容 token;网络缓冲(gzip / TCP 窗口)可能抬高 TTFT。若渠道流式不返回 usage,会自动回退非流式以保证计费字段完整。

SLA 评级阈值

每项指标分绿 / 黄 / 红三档,综合取最差档得出整体 SLA 徽章。阈值如下,完全公开:

指标
绿 · 优
黄 · 警告
红 · 异常
成功率
≥ 99%
95–99%
< 95%
延迟 P95
< 2s
2–5s
> 5s
TTFT P95
< 800ms
800–2000ms
> 2000ms
缓存命中
≥ 80%
40–80%
< 40%
429 限流
0 次
≥ 1 次

行业榜的综合评分在此基础上加权:模型纯度为前置门槛(判为「降级」则无论延迟多快都封顶 C 级),其余按延迟、成功率、缓存、成本比、限流余量加权得出 0–100 分,映射 A(≥82)/ B(60–81)/ C(<60)。

中立立场

不接渠道付费、不卖榜位、不做定向优待。排名只由匿名聚合的真实数据决定。任何渠道——包括赞助方——都按同一套标准检测和排序。

开源

评分算法、SLA 阈值与探针核心开源在 GitHub。任何人都能用同一套代码自行复现一次检测,验证我们的结论。

隐私

你的 api_key 只用于本次检测请求的转发,完成后立即从内存清除——不写入任何日志或数据库,也不存储请求 / 响应正文。聚合到行业榜的只有脱敏后的度量(协议、规范化模型、匿名渠道句柄、各项指标),默认不含渠道域名,需你显式勾选才公开。

赞助披露

本站运营成本由 模盒(modelboxs.com) 承担,模盒仅作为赞助方在页脚署名。赞助不影响任何检测逻辑、评分标准与排名结果。

常见问题

你们怎么保证不偏袒赞助方?

评分算法、阈值与排名规则全部开源,任何人都能用同一套代码复现。模盒只在页脚作为赞助方署名,不接触算法、不购买榜位。数据好则排名好,数据差则倒逼改进——包括赞助方自己。

中转站能刷榜吗?

我们做了多重防护:同一匿名贡献者对同一「模型 × 渠道」短时间内多次提交会被折算为一个有效样本(取中位数);上榜有最小样本门槛;单一来源占比过高会被标记为低可信度且不予 A 级;每个度量按 IQR 去尾防止刷极值。

我的 API key 安全吗?

key 只用于这一次检测请求的转发,转发后即从内存丢弃——不写数据库、不进日志、不做任何留存。前端代码开源,你可以自行审计;也可自托管后端。

纯度是怎么测出来的?会误判吗?

见上方「模型纯度」一节。它综合三路指纹给出判断,我们公开全部判据并标注局限,结论按「通过 / 存疑 / 降级」分级而非非黑即白,正是为了把误判风险透明化。

数据多久更新?样本太少怎么办?

榜单提供「近 24h / 近 30 天」两个时间窗。样本未达标的渠道不会上榜,而是进入「样本累积中」状态;每行都标注检测次数、贡献者数、最近检测时间与可信度,样本不足时请谨慎参考。

开始检测查看行业榜