AI工具集
AI模型评测OpenBMB
清华团队支持发起的大规模预训练语言模型库与相关工具
文心大模型
百度推出的产业级知识增强大模型
LLaMA
Meta(Facebook)推出的AI大语言模型
MMLU
MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。
C-Eval
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。
CMMLU
CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。
HELM
HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。