【AIGC评测体系】大模型评测指标集
大模型评测指标集
(☆)SuperCLUE
(1)SuperCLUE-V(中文原生多模态理解测评基准)
(2)SuperCLUE-Auto(汽车大模型测评基准)
(3)AIGVBench-T2V(文生视频基准测评)
(4)SuperCLUE-Coder(代码助手测评基准)
(5)SuperCLUE-RAG(中文原生检索增强生成测评基准)
(6)SuperCLUE-Agent(Agent能力测评基准)
(7)SuperCLUE-Image(中文原生文生图测评基准)
(8)“巢燧”(大模型测评基准)
(9)RAGAs(RAG性能测评)
(☆)SuperCLUE
CLUE官网: https://www.CLUEBenchmarks.com
SuperCLUE排行榜网站: https://www.superclueai.com
Github地址: https://github.com/CLUEbenchmark/SuperCLUE
(1)SuperCLUE-V(中文原生多模态理解测评基准)
推荐文章: SuperCLUE-V: 中文原生多模态理解测评基准
项目地址: https://github.com/CLUEbenchmark/SuperCLUE-V
(2)SuperCLUE-Auto(汽车大模型测评基准)
推荐文章: SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布
项目地址: https://github.com/CLUEbenchmark/SuperCLUE-auto
(3)AIGVBench-T2V(文生视频基准测评)
推荐文章: AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3
AIGVBench登录页: www.AIGVBench.com
(4)SuperCLUE-Coder(代码助手测评基准)
推荐文章: 代码助手测评」启动,SC-Coder测评方案公布
(5)SuperCLUE-RAG(中文原生检索增强生成测评基准)
推荐文章: 中文RAG检索增强生成榜单出炉!仅有一家刚刚及格
项目地址: https://github.com/CLUEbenchmark/SuperCLUE-RAG
(6)SuperCLUE-Agent(Agent能力测评基准)
推荐文章: SuperCLUE-Agent: Agent智能体中文原生任务能力测评基准
项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Agent
(7)SuperCLUE-Image(中文原生文生图测评基准)
推荐文章: 文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分
项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Image
(8)“巢燧”(大模型测评基准)
推荐文章: “巢燧”大模型基准综合评测:国内大模型中文能力首超GPT-4,多个中文大模型超过GPT-3.5
项目地址: http://openeval.org.cn/
(9)RAGAs(RAG性能测评)
推荐文章: RAGAs评估
项目地址: https://github.com/explodinggradients/ragas