久99久女女精品免费观看69堂, 国产满18av精品免费观看视频, 91久久精品国产91久久性色tv, 67194欧美成l人在线观看免费,国产乱子伦片免费,丝袜在线,免费人妻无码不卡中文字幕在线,素人 在线91,亚洲阿v天堂无码

國(guó)家市場(chǎng)監(jiān)督管理總局主管    中國(guó)質(zhì)量報(bào)刊社主辦
  • 聯(lián)系我們
  • 輿情秘書
您當(dāng)前位置: >>新聞中心>>中國(guó)質(zhì)量報(bào)>>第四版

大模型基準(zhǔn)測(cè)試ITU國(guó)際標(biāo)準(zhǔn)發(fā)布

2025-04-15 12:48:05 中國(guó)質(zhì)量報(bào)

本報(bào)訊 (記者何 可)記者從中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)獲悉,近日,國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(ITU-T)正式發(fā)布基礎(chǔ)模型的評(píng)估標(biāo)準(zhǔn):基準(zhǔn)測(cè)試(ITU—T F.748.44)。該標(biāo)準(zhǔn)由中國(guó)信通院牽頭制定,旨在推動(dòng)大模型基準(zhǔn)測(cè)試體系架構(gòu)形成國(guó)際共識(shí),為大模型技術(shù)提供方和應(yīng)用方提供高質(zhì)量的能力評(píng)估依據(jù),引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。

近年來,如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產(chǎn)學(xué)研各界的廣泛關(guān)注。模型基準(zhǔn)測(cè)試通過設(shè)計(jì)合理的測(cè)試任務(wù)和評(píng)價(jià)數(shù)據(jù)集來客觀、公正、量化地評(píng)估模型的性能,是目前產(chǎn)業(yè)界和學(xué)術(shù)界最為認(rèn)可的模型能力評(píng)估方法。當(dāng)前已有數(shù)百個(gè)基準(zhǔn)測(cè)試方法和數(shù)據(jù)集用于衡量大模型的能力。但當(dāng)前產(chǎn)學(xué)研各界對(duì)大基礎(chǔ)模型基準(zhǔn)測(cè)試的體系、指標(biāo)、數(shù)據(jù)集、方法、平臺(tái)工具等仍未達(dá)成一致,缺乏統(tǒng)一的標(biāo)準(zhǔn),導(dǎo)致大模型評(píng)測(cè)的結(jié)果公正性受到質(zhì)疑。為進(jìn)一步推動(dòng)大模型基準(zhǔn)測(cè)評(píng)的技術(shù)發(fā)展與實(shí)際應(yīng)用,充分釋放基準(zhǔn)測(cè)試在人工智能領(lǐng)域的價(jià)值,中國(guó)信通院聯(lián)合相關(guān)單位開展標(biāo)準(zhǔn)的編制工作。

本次發(fā)布的國(guó)際標(biāo)準(zhǔn)基于當(dāng)前產(chǎn)學(xué)研界500余項(xiàng)基準(zhǔn)測(cè)試系統(tǒng)性研究,一方面確立了大模型基準(zhǔn)測(cè)試的4項(xiàng)核心要素,包括測(cè)試維度(測(cè)試場(chǎng)景、測(cè)試能力、測(cè)試任務(wù)和測(cè)試指標(biāo))、測(cè)試數(shù)據(jù)集、測(cè)試方法和測(cè)試工具。另一方面,針對(duì)通用場(chǎng)景的基礎(chǔ)模型,提供了標(biāo)準(zhǔn)化的測(cè)試用例和流程范例,以支持企業(yè)規(guī)范開展大模型能力評(píng)估。

據(jù)介紹,中國(guó)信通院人工智能研究所于2023年開始布局大模型基準(zhǔn)測(cè)試研究,并于2023年底發(fā)布“方升”大模型基準(zhǔn)測(cè)試體系,推出自適應(yīng)動(dòng)態(tài)測(cè)試方法,積累600萬條數(shù)據(jù)集,構(gòu)建測(cè)試工具,支撐整個(gè)大模型測(cè)試過程的自動(dòng)化實(shí)施。自2024年以來,參照已發(fā)布的ITU大模型基準(zhǔn)測(cè)試國(guó)際標(biāo)準(zhǔn),該所對(duì)國(guó)內(nèi)外標(biāo)桿大模型以兩個(gè)月為周期開展持續(xù)監(jiān)測(cè)工作,包括上百個(gè)測(cè)試模型,目前已發(fā)布大語言通用能力、推理能力、代碼能力,多模態(tài)理解能力、文生圖能力、文生視頻能力等多個(gè)輪次的評(píng)測(cè)結(jié)果。此次發(fā)布的國(guó)際標(biāo)準(zhǔn)是大模型測(cè)試領(lǐng)域的重要標(biāo)準(zhǔn)化成果,對(duì)推動(dòng)技術(shù)創(chuàng)新和發(fā)展、引領(lǐng)行業(yè)發(fā)展趨勢(shì)、促進(jìn)國(guó)際合作與交流等方面具有重要意義。

標(biāo)準(zhǔn)發(fā)布

(責(zé)任編輯:凌云)
查看往日?qǐng)?bào)刊
相關(guān)網(wǎng)站導(dǎo)航