Hitachi Vantara|LLM|人工智能| 生成式AI的儲存需求

Ai , Artificial intelligence , Chatbot , Chat gpt , Hitachi vantara
2023年5月19日

Table Of Contents

[人工智能] [LLM]

生成式AI技術帶來巨大衝擊，ChatGPT、BLOOM、Claude、Bard等服務的預訓練大型語言模型（LLM），能理解人類的語言。許多科幻小說情節，馬上成為了現實。

LLM大型語言模型通過網上數以百億語言和圖片訓練而成，LLM亦稱為「基礎模型」（Foundation Model），因為可發展出其他用途；從撰寫博客文章、生成圖像、解決數學問題、對話聊天、基於文本回答特定問題，未來更可取代人手工作，不少職位勢將消失。

LLM大型語言模型自動閱讀和理解內容，節錄和編輯內容，抽取文章重點，再產生新的內容，但LLM要通過「微調」（Fine tuning）才可執行專屬領域特定功能，按業務要求凖確回答問題。

不少人發現，網上ChatGPT答案不太凖確，原來LLM先要學習，才掌握特定領域知識，才懂得正確回答。未來部署內部LLM經過微調後，可成為內部知識中心，正確解答員工疑難，加快數碼化進程。LLM通過微調掌握行業術語，按專業要求產生文檔和作答；Google基於PaLM2微調出醫療專用Med PaLM2大模型，通過醫學專業執業考試，懂得閱讀電子健康紀錄，基於指示填寫病歷和醫療建議。

一般大型語言模型參數以數百億計，即使部分較少參數模型，經微調後亦有不少錯效果；例如Databricks開源了可供商用的指令調優模型Dolly 2.0，透過EleutherAI Pythia模型家族120億參數語言模型，以Databricks-dolly-15k指令數據集微調，微調成本只是30美元。

「微調」大模型學懂新技能，不須從零開始訓練，僅需以小部分數據和運算資源，就可學會執行新任務；例如金融公司要交易紀錄自動生成報告供客戶，可使用以往報告專有資料「微調」，以便LLM可瞭解如何分析，選用哪些資料生成新市場報告。

市場上陸續出現可供部署在內部LLM，訓練可在可控環境中進行，數據不再要上傳至公有雲，以較少數據去微調；例如Parameter-Efficient Fine-tuning （PEFT）以大量減低算力的耗用和儲存需求。

訓練和微調大型語言模型，不免要利用圖形處理器（GPU）。儲存系統向GPU供應數據的速度非常重要，用於AI訓練的儲存系統，快速向GPU的記憶體傳送數據，因此必須是新一代的快閃混合儲存，以加快存取速度，儲存以Data fabric設計，以簡化儲存與GPU記憶體之間的連接，Data fabric有如記憶與多個儲存系統之間的特快數據通道，保證數據可源源不絕，送往GPU訓練。

大模型微調後，儲存系統的效率對於「推理」（Inference）亦非常重要，其中一個原因是AI部署後，不少情況下使用範圍會迅速擴大，存取的數據愈多愈多；系統須兼具Scaleup和Scaleout能力，升級性能還要避免停頓，運行期間支援升級，以免AI模型推理工作因儲存升級暫停。

有關理解AI訓練和推理的儲存系統設計，請參考：

https://www.hitachivantara.com/