CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。