清华大学发布大模型综合性能评估报告:文心一言排名第二,通义千问排名第六
据公众号“清凯发app”,清华大学沈阳教授团队近日发布了《大语言模型综合性能评估报告》,报告从生成质量、使用与性能、安全与合规三个维度对大语言模型进行评估,并深入分析不同大语言模型之间的优劣。
该报告总共对文心一言、讯飞星火、通义千问、昆仑天工、gpt-4、chatgpt 3.5 和 claude 七个大语音模型进行了评估分析。据综合性能评估结果显示,gpt-4 排名第一,文心一言和 chatgpt 3.5 分别排名第二三位,阿里云通义千问则排在第六位。