国际标准化推动：ITU发布大模型基准测评新标准背后的中国力量_产品中心_环球电竞官网首页

国际标准化推动：ITU发布大模型基准测评新标准背后的中国力量

在全球人工智能技术迅猛发展的背景下，如何有效评估大模型的性能，成为了产业界和学术界关注的焦点。近...

来源：环球电竞官网发布时间：2025-06-15 07:05:01

产品介绍

在全球人工智能技术迅猛发展的背景下，如何有效评估大模型的性能，成为了产业界和学术界关注的焦点。近日，国际电信联盟（ITU）正式对外发布了新的基准测试国际标准——ITU-TF.748.44，标志着大模型基准测试进入一个新的时代。这项标准由中国信息通信研究院（简称“中国信通院”）牵头制定，旨在为各种基础模型的评估提供统一的标准，规范其指标要求与测试方法。

随着大模型和深度学习技术的广泛应用，如何客观、全面地衡量大模型的能力和潜在缺陷，慢慢的变成了核心问题。基准测试（Benchmarking）通过设计合理的测试任务和评价数据集，能够为模型的性能提供量化和公正的评估方法。因此，各类基准测试方法和数据集如雨后春笋般涌现，MMLU、C-Eval、AGIEval等众多评估工具层出不穷，然而，由于缺乏统一的标准，这些评测结果的公正性和有效性常常受到质疑。

国际标准ITU-TF.748.44的发布，旨在推动大模型基准测试的国际共识进程。这一标准依托于中国信通院在2023年开展的相关领域研究，参考了行业内500余项基准测试的系统性成果，确立了大模型基准测试的四大核心要素：

作为这一标准的牵头单位，中国信通院在大模型基准测试的研究中，早在2023年便已开展布局，推出了“方升”大模型基准测试体系，并积累了600万条数据集。这一系列的研究与实践为国际标准的制定打下了坚实的基础。同时，信通院还积极发展了自适应动态测试方法，支持整个大模型测试过程的自动化实施。

展望未来，自2024年起，信通院将依据新发布的ITU国际标准，对国内外标杆大模型进行持续监测。这一轮监测的重点将涵盖诸多知名大模型，如OpenAI的GPT系列、DeepMind的Gemini等，确保对多样化的大模型能力做全面和深入的评估。这些评测结果不仅涉及语言解决能力、推理能力，还包括代码生成能力、文生图、文生视频等多重维度，推动整个产业健康有序发展。

这一国际标准的实施，将对推动大模型领域的技术创新、促进产业合作与国际交流产生深远影响。在全世界内，实现大模型基准测试的标准化，不仅有助于提升评测结果的可信度，也为相关企业和研究机构的决策和发展提供了重要依据。同时，更加统一的测试标准，将逐步推动国际社会在探索和应用大模型技术时的信任与合作。

ITU-TF.748.44的发布，印证了中国在国际标准化领域的影响力，以及对全球人工智能技术发展的推动力。未来，基准测试的标准化必将在大模型产业中扮演逐渐重要的角色，助力全世界内的技术创新与应用发展。返回搜狐，查看更加多

环球电竞官网是环境试验设备研发生产厂家

造客户最满意环境试验设备

咨询热线

18665599479

国际标准化推动：ITU发布大模型基准测评新标准背后的中国力量

产品中心

相关新闻

推荐产品