在全球人工智能技术迅猛发展的背景下,如何有效评估大模型的性能,成为了产业界和学术界关注的焦点。近日,国际电信联盟(ITU)正式对外发布了新的基准测试国际标准——ITU-TF.748.44,标志着大模型基准测试进入一个新的时代。这项标准由中国信息通信研究院(简称“中国信通院”)牵头制定,旨在为各种基础模型的评估提供统一的标准,规范其指标要求与测试方法。
随着大模型和深度学习技术的广泛应用,如何客观、全面地衡量大模型的能力和潜在缺陷,慢慢的变成了核心问题。基准测试(Benchmarking)通过设计合理的测试任务和评价数据集,能够为模型的性能提供量化和公正的评估方法。因此,各类基准测试方法和数据集如雨后春笋般涌现,MMLU、C-Eval、AGIEval等众多评估工具层出不穷,然而,由于缺乏统一的标准,这些评测结果的公正性和有效性常常受到质疑。
国际标准ITU-TF.748.44的发布,旨在推动大模型基准测试的国际共识进程。这一标准依托于中国信通院在2023年开展的相关领域研究,参考了行业内500余项基准测试的系统性成果,确立了大模型基准测试的四大核心要素:
作为这一标准的牵头单位,中国信通院在大模型基准测试的研究中,早在2023年便已开展布局,推出了“方升”大模型基准测试体系,并积累了600万条数据集。这一系列的研究与实践为国际标准的制定打下了坚实的基础。同时,信通院还积极发展了自适应动态测试方法,支持整个大模型测试过程的自动化实施。
展望未来,自2024年起,信通院将依据新发布的ITU国际标准,对国内外标杆大模型进行持续监测。这一轮监测的重点将涵盖诸多知名大模型,如OpenAI的GPT系列、DeepMind的Gemini等,确保对多样化的大模型能力做全面和深入的评估。这些评测结果不仅涉及语言解决能力、推理能力,还包括代码生成能力、文生图、文生视频等多重维度,推动整个产业健康有序发展。
这一国际标准的实施,将对推动大模型领域的技术创新、促进产业合作与国际交流产生深远影响。在全世界内,实现大模型基准测试的标准化,不仅有助于提升评测结果的可信度,也为相关企业和研究机构的决策和发展提供了重要依据。同时,更加统一的测试标准,将逐步推动国际社会在探索和应用大模型技术时的信任与合作。
ITU-TF.748.44的发布,印证了中国在国际标准化领域的影响力,以及对全球人工智能技术发展的推动力。未来,基准测试的标准化必将在大模型产业中扮演逐渐重要的角色,助力全世界内的技术创新与应用发展。返回搜狐,查看更加多