AI模型评测 | AI狗 | AI平台导航大全

AI模型评测

PubMedQA是一个生物医学研究...

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于...

LLMEval是由复旦大学NLP实验...

Chatbot Arena

Chatbot Arena是一个大型语言...

HELM

HELM全称Holistic Evaluation...

MMBench是一个多模态基准测试...

CMMLU是一个综合性的中文评估...

OpenCompass

OpenCompass是由上海人工智能...

SuperCLUE 是一个中文通用大...

FlagEval（天秤）由智源研究...

C-Eval是一个适用于大语言模...

Open LLM Leaderboard

Open LLM Leaderboard 是最大...

MMLU 全称 Massive Multitask...