文/希捷科技全球高級副總裁暨中國區(qū)總裁 孫丹
這篇文章并非出自于ChatGPT之手。不過在過去幾個月中,生成式AI的確是炙手可熱的話題。
科技巨頭已將他們的運營計劃建立在AI基礎上。微軟表示,生成式AI可為其增加400億美元的營收。生成式AI市場可推動全球GDP增長近7萬億美元。約75%的公司預計在未來五年內會采用人工智能技術。ChatGPT在推出的最初兩個月就擁有了1億多用戶,成為有史以來增長速度最快的消費級應用。
但是,如果缺失一個要素:數據,最好的人工智能模型也將毫無用處。
公司需要海量數據來訓練人工智能模型,以便于從之前未開發(fā)的信息中獲得洞察和價值。由于將來的人工智能工具將可以從過去的數據中挖掘到難以想象的見解,因此應盡可能多地保存數據。
聊天機器人以及圖像和視頻AI生成器會創(chuàng)建更多需要公司管理的數據,并且需要保留它們的推論以便于為未來的算法提供信息支撐。Gartner預計,到2025年,生成式AI將占生成數據總量的10%,而目前該比例還不足1%。將此項研究與IDC的全球數據圈預測研究進行交叉印證,我們預計ChatGPT、DALL-E、Bard和DeepBrain AI等生成式AI技術將在未來五年內創(chuàng)建ZB級數據。
只有采用簡單且經濟高效的數據存儲策略,企業(yè)才能大規(guī)模訓練和部署人工智能工具,最終利用人工智能應用。海量數據集需要大容量存儲。如果以前數據沒有存下來,那么現在必須采取行動。
為什么AI需要數據?
IDC數據顯示,2022年創(chuàng)建的企業(yè)數據中有84%可用于分析,但得到分析或應用到人工智能或機器學習算法中的僅有24%。這意味著公司未能利用大部分的可用數據。也就錯失了商業(yè)價值。這就像電動汽車:如果電池沒有充電,汽車無法帶您到目的地。如果數據沒有存儲,即使是最智能的AI工具也無濟于事。
隨著眾多公司著眼于訓練人工智能模型,大容量存儲將為原始數據和生成數據提供支持。企業(yè)將需要強有力的數據存儲策略。他們可借助云來解決一些人工智能工作負載和存儲,也可以在本地存儲和處理一些數據。機械硬盤(約占公有云存儲的90%)是專為海量數據集而生的經濟高效、耐用可靠的解決方案,能夠存儲持續(xù)訓練人工智能模型所需的大量數據。
保留原始數據是非常必要的,哪怕這些數據已經被處理過。比如人工智能創(chuàng)建的一些內容可能會產生知識產權糾紛,在行業(yè)調查或訴訟期間,當問到人工智能洞察的相關問題,便可以用存儲的數據證明所有權以及結論的可靠性。
數據質量也會影響洞察的可靠性。為了確保更好的數據質量,企業(yè)應該使用包括數據預處理、數據標記、數據增強、監(jiān)控數據質量指標、數據治理和主題專家評審等方法。
企業(yè)如何做好準備
如果保留數據的成本太高,企業(yè)會不得不刪除數據。這是可以理解的,企業(yè)需要平衡成本與人工智能洞察需求的關系。
為了降低數據成本,領先的企業(yè)部署了云成本比較和估算工具。對于本地存儲的企業(yè)來說,更應該考慮用硬盤構建可以優(yōu)化TCO的存儲系統。此外,企業(yè)都需要對監(jiān)測的數據和工作負載模式進行優(yōu)先級排序,并盡可能地實現工作流程的自動化。
全面的數據分類對于識別訓練人工智能模型所需的數據至關重要。要確保敏感數據的處理是合規(guī)的,比如個人身份數據或財務數據等需具備非常強的數據安全性。許多企業(yè)對數據進行加密以確保安全性,但人工智能算法通常無法從加密數據中進行學習。所以企業(yè)還需要一個流程來安全地解密數據,以便進行培訓,并且可以重新加密存儲。
為了確保人工智能分析成功,企業(yè)應該:
1、養(yǎng)成存儲更多數據的習慣,因為在人工智能時代,數據更有價值。保留原始數據及洞察,不限制可存儲的數據量,但要限定哪些數據是可以刪除的。
2、制定可以提高數據質量的工作流程。
3、降低數據存儲成本。
4、實施穩(wěn)健的數據分類和合規(guī)性。
5、確保數據安全。
不采取以上行動的話,最好的生成式AI模型也會毫無用處。
在生成式AI出現之前,數據就是開啟創(chuàng)新的關鍵,最擅長管理多云存儲的企業(yè)實現收入目標的可能性是同行的5.3倍。未來,生成式AI會顯著拉大企業(yè)之間的創(chuàng)新差距。
當前,圍繞生成式AI的討論更多地集中在企業(yè)的創(chuàng)新潛力上。但企業(yè)領導很快就會意識到,數據存儲及管理策略才是人工智能成功與否的關鍵因素。