ChatGPT| Hitachi Vantara|   數據訓練的統一基建   Content Platform for File

ChatGPT| Hitachi Vantara| 數據訓練的統一基建 Content Platform for File

Table Of Contents

ChatGPT引起全城熱議,不少企業關注如何採用人工智能(AI)、機器學習和高性能分析,以提高競爭力。AI和分析算法愈來愈複雜,涉及數據愈來愈多,要以更低成本存取更多數據,進行更多運算,除了處理器和網絡設計,往往還須更好的儲存性能。

AI運算幾乎離不開GPU,透過平行運算加速AI運算,GPU有數千個核心並列執行大量運算,可說是引起AI爆發一個主要工具,即使有不少AI處理器面世,大部分訓練仍是以GPU完成。如果沒有GPU,AI運算架構要再增大4成,相同架構GPU處理數據也可多出5成。

為了解決GPU處理數據吞吐量大增,NVIDIA提出多項創新架構,包括了NVLink和NVSwitch改善GPU與GPU之間和多部運算主機的數據互通,最近更提出DPU,改善超級AI數據中心的數據傳輸負載。

GPU處理器解決AI運算的算力難題,網絡樽頸不解決,GPU只有空轉,確保數據通過快速網絡,及時送往GPU非常重要。不過,假若儲存數據的系統不給力,GPU和網絡亦只有空等的份兒,嚴重浪費昂貴的基建。

AI工作流程各有特別運算和速度需求,首先「數據擷取」(Ingestion)步驟,從不同系統識別要採用的數據集,數據團隊抽取數據集,匯入分析環境(通常是可支援物件的儲存系統),數據散落不同位置,而要以不同協定存取,不少屬於非結構數據,往往是存放在檔案系統。

其次是「數據凖備」(Preparation),為數據加工,例如是為數據加上標注(Labelling)、圖片標註(Image Annotation)或元數據,再通過質檢算法,確保適合作訓練,此階段須高性能運算,然後下一步就開始「模型訓練」(Model training),通常是採用容器的工作流,此階段要高性能運算再加上低延遲,訓練好的模型就可部署到「推理」(Inference)用途,從輸入的數據通過模型運算,再獲得答案迅速回饋到其他系統,一般的推理都須高速及時作反應(如自動駕駛),所以多部署在邊緣(Edge),接近應用的位置,涉及數據量較少,但是延遲卻要極低。部分如ChatGPT生成式AI,礙於模型耗用的算力和記憶體,須部署於雲端上運作,首要條件是要低延遲網絡和高速儲存,從輸入文本快速估計用戶的意圖,從海量數據生成出答案回應,大型語言模型推理對於儲存要求更大。

值得一提,不少專用晶片亦可用於推理,降低邊緣功耗和部署困難。不過從應用亦會蒐集數據,再回傳作儲存作「暫存」(Staging and archive),以便下次數據的擷取,作為優化模型之用,AI的訓練幾乎多以DevOps流程進行,非常適合容器生態和部署,尤其是容器可快速部署到邊緣位置,毋須考慮不同位置的IT環境。

除了容器,AI訓練亦必須性能強勁的儲存系統,極速向網絡和GPU輸送數據,Hitachi Content Platform for File就是針對GPU加速AI、ML和數據分析建立的儲存系統。

Hitachi Content Platform for File兼具了「分散式檔案系統」(Distributed File System DFS)及物件儲存的兩大優點,支援檔案系統(File protocols)和物件儲存(Object protocols)應用協定,例如檔案系統往往以路徑定義位置,物件則是通過API存取。DFS具備了下一步「數據凖備」、「模型訓練」、甚至「推理」的低延遲和高性能。物件儲存則具備以極低成本作大量儲存,加上通過「元數據」(Metadata)去自動化數據管理。

透過「元數據」作數據管理幾乎是物件儲存最重要的功能,因為物件通過「元數據」才能實現的自動化,Hitachi Content Platform在管理元數據一直領先業界,知道數據管理的重要性,就明白何以採用Hitachi Vantara的儲存方案。

https://www.hitachivantara.com/en-us/pdf/solution-profile/content-software-for-file-solution-profile.pdf

全球首個6G跨境通信測試成功

全球首個6G跨境通信測試成功

隨著5G技術的逐步普及,全球關注焦點已轉向6G作為下一代通信技術的核心發展方向。此次測試成功驗證了6G技術在感知、計算與智能融合領域中的實際應用潛力。中國移動香港有限公司(CMHK)聯同中國移動研究院 …

了解更多
NLP|  Google| AI機械人能解人意   心領神會完成任務 

NLP| Google| AI機械人能解人意 心領神會完成任務 

PaLM-SayCan機械人算法,機械人就可憑隱誨不明的語言去理解人類需求,再決定如何反應 [新科技速遞] 科幻小說和電影為題材的作品,經常有人工智能(AI)機械人參與太空探索任務。科幻電影《星際啟 …

了解更多
激光雷達取代鏡頭  管理人流保護私隱

激光雷達取代鏡頭 管理人流保護私隱

**[眾創時代] [Velodyne]** Outsight的智慧城市應用以 3D 語義相機追蹤物件和軌跡,同時保護了私隱。 **眾創時代** 本港的智能燈柱會轉用激光雷達(Lidar)與雷 …

了解更多