什么是"C-Eval"?

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,旨在为用户提供一个全面的评估平台,帮助他们了解不同模型在各种领域的表现。用户可以通过C-Eval的排行榜了解各个模型在STEM、社会科学、人文科学等领域的评分情况,以及平均得分和Hard模式得分。

"C-Eval"有哪些功能?

C-Eval提供了公开访问的模型和受限访问的模型两种类型,用户可以根据自己的需求选择合适的模型进行评估。公开访问的模型包括讯飞星火认知大模型、Yi-1.5-34B、Qwen-72B等,用户可以通过API或Web方式访问这些模型的评估结果。受限访问的模型包括BlueLM、DiMind、海信星海等,用户需要通过私密方式获取这些模型的评估结果。

产品特点:

  1. 多领域评估:C-Eval涵盖了STEM、社会科学、人文科学等多个领域的评估内容,帮助用户全面了解模型在不同领域的表现。
  2. 公开访问和受限访问:用户可以根据需求选择公开访问的模型或受限访问的模型,满足不同用户的需求。
  3. 自动计算分数:C-Eval可以根据用户提交的模型预测自动计算分数,方便用户快速获取评估结果。

应用场景:

C-Eval适用于各种领域的研究人员、开发者和企业用户,可以帮助他们评估不同模型在各个领域的性能表现。STEM领域的研究人员可以通过C-Eval了解模型在科学技术领域的表现,社会科学领域的研究人员可以了解模型在社会科学领域的表现,人文科学领域的研究人员可以了解模型在人文科学领域的表现。

"C-Eval"如何使用?

用户可以通过C-Eval的网站访问排行榜,了解各个模型在不同领域的评分情况。用户也可以提交自己的模型预测结果,C-Eval会自动计算分数并展示在排行榜上。用户可以根据自己的需求选择公开访问的模型或受限访问的模型进行评估。

数据统计

相关导航

暂无评论

暂无评论...