AI模型评测
收录19个优质工具,涵盖综合评测、代码评测、推理评测、多模态评测、安全评测、中文评测、实时评测、学术评测等子分类
LMArena
AI模型评估平台,通过人类投票排名
Open LLM Leaderboard
Hugging Face推出的开源大...
SuperCLUE
中文通用大模型综合性测评基准
C-Eval
一个全面的中文基础模型评估套件
MMLU
大规模多任务语言理解基准
OpenCompass
上海人工智能实验室推出的大模型开放评...
HELM
斯坦福大学推出的大模型评测体系
CMMLU
一个综合性的大模型中文评估基准
HumanEval
OpenAI推出的代码能力评测基准
Chatbot Arena
基于人类偏好的LLM评测平台
GAIA
通用AI助手评测基准
BIG-bench
Google推出的超越性能力评测基准
MagicArena
MagicArena 是一款面向AI...
FlagEval
FlagEval 是一款面向AI模型...
AGI-Eval
AGI-Eval 是一款面向AI模型...
MMBench
MMBench 是一款面向AI模型评...
LLMEval3
LLMEval3 是一款面向AI模型...
H2O EvalGPT
H2O EvalGPT 是一款面向A...
PubMedQA
PubMedQA 是一款面向AI模型...