近期全國信標委人工智能分委會2024年會議周在青島成功召開,工信部科技司、山東省工信廳、中國電子技術標準化研究院(簡稱電子標準院)及人工智能產學研用單位代表等200位成員參加會議。
近日標準進入報批過程,標準名稱已更新為《人工智能 大模型 第2部分:評測指標與方法》
會上為華為云盤古大模型頒發(fā)了標準符合性評測證書。該評測依據國家標準《人工智能 大模型 第2部分:評測指標與方法》開展,是首個大模型國家標準符合性評測,也是首個大模型基準測試國家標準符合性評測。該國家標準由全國信標委人工智能分委會歸口,由電子標準院聯(lián)合70余家業(yè)界單位共同編制。
華為云盤古NLP大模型在文本分析、摘要總結、文本改寫、知識問答等38項任務全部通過,展示兩類任務能力優(yōu)勢:
理解能力,包括文本分析能力、信息抽取能力、推理能力、任務分解、知識問答、編程代碼理解等。
生成能力,包括摘要總結能力、模板化文本生成能力、機器翻譯、文本改寫、編程代碼生成、結構化數(shù)據生成等?! ?/p>
核心技術能力方面,華為云盤古大模型整體模型架構分為L0.F (foundation,基礎大模型)-L0.C (capability,任務大模型)-L1(行業(yè)大模型)-L2(場景模型)。
模型層覆蓋至L0. C的基礎能力,對話問答、文案生成;以及高階能力,代碼生成、NL2SQL、插件、模型調用、具身智能。其中,推理能力通過文本+代碼融合訓練獲取思維鏈提升。
工程層通過插件提升大模型數(shù)學能力及知識實時更新,并且從數(shù)據管理、模型開發(fā)、應用開發(fā)提供了全套解決方案。
華為云盤古NLP大模型為深圳福田政數(shù)局提供人性化的問答服務,涵蓋辦事流程、政策法規(guī)、經濟概況、文旅介紹及自然策略等知識。政務公文無需人工整理成FAQ格式,直接通過大模型進行答疑,支持靈活檢索和實時更新。結合大模型與檢索方案,確保問答的嚴肅性和正確性,并通過改寫和信息查詢優(yōu)化問答效果。
其中,在公文生成場景,盤古NLP大模型可在1分鐘內生成5000字公文,提升擬文效率300%;
通過一句話定會、要點秒級提取和紀要自動生成,提升辦會效率;
公文任務自動提取并導入督辦,提升辦事效率80%。
會上宣讀了《關于任命大模型測試基準研究組組長的決定》,任命華為云計算技術有限公司為大模型測試基準研究組聯(lián)合組長單位并頒發(fā)證書。研究組錨定大模型評測領域的前沿陣地,開展基礎通用大模型測試基準和行業(yè)大模型測試基準研究,涵蓋測評指標、測評方法和評測數(shù)據集等核心要素,以大模型評測平臺為支撐開展大模型測評。主旨演講環(huán)節(jié),華為技術有限公司標準化總監(jiān)劉曉輝作《人工智能國際標準化概況》報告,在大模型標準化評測走向國際化的當下,為中國人工智能標準體系化構建在標準陣地和工作方向提出洞察與建議。
盤古NLP大模型首批通過首個大模型國家標準評測,是對華為云盤古NLP大模型能力的權威肯定。2023年國家人工智能標準化總體組任命華為云為大模型專題組聯(lián)合組長,2024年新一代人工智能標準與應用工信部重點評測實驗室任命華為云為大模型測試基準研究組聯(lián)合組長,是對華為云引領大模型產業(yè)標準委以厚望。華為云將持續(xù)在人工智能領域深耕,積極參與國家人工智能標準化工作,以盤古大模型賦能千行萬業(yè),助力“人工智能+”行動實現(xiàn)應用落地,為我國人工智能產業(yè)高質量發(fā)展提供技術與標準支撐。