新科技速遞| 大模型發展 一日千里 超級AI應用如箭在弦
- Uncategorized
- 2024年7月11日
Table Of Contents
[新科技速遞]
世界人工智能大會WAIC 2024,百度李彦宏的主題演說,一開始就調侃 AI百模大戰浪費資源,沒應用支持的大模型,一文不值。
去年,李彦宏出國未參加WAIC。據他回憶,2023年議題是「元宇宙」,他回覆談不來,結果以AI生成內容(AIGC)為題發表演說。4個月後,ChatGPT橫空出世,「元宇宙」無以為繼。
當年,李彦宏有先見之明,《文心一言》佔盡先機。他在WAIC發言,指智能體(Agent)將是大模型(LLM)建立「超級能幹」應用的主流方法。
智能體成為現實,因為LLM各種技術成熟。以往,LLM記憶力有限,獲取的知識只至訓練完畢一刻,新知識靠用戶輸入,遇到不認識內容,還出現幻覺(Hallucination)。LLM靠RAG(檢索增強生成)加入額外知識,將PDF或WORD檔變成向量數據庫(Vector Database)供LLM讀取,以取代微調的動作。
LLM參數(Parameter)量和上下文窗口(Context Windows)是LLM的性能指標,以電腦比喻,參數有如處理器,參數愈多,壓縮知識愈多,性能愈好。上下文長度則是記憶體,LLM每次能處理訊息量。
小題:長文本模型湧現
用戶可將想擷取知識,通過每次提問(Prompts)輸入。但是LLM短期記憶有限,多番對答後會掉失,LLM又以 Token 為單位處理文本,代表常見字元的序列,常見和罕見文字被分解不同 Token 組合;100K即10 萬Token,約75000英文,輸入輸出 文字總長度,不能超過LLM最大上下文窗口。
近年,長上下文本LLM不斷出現,一年前Anthropic推出100 K的Claude,然後有128K長度GPT4 Pro,最近Google又推出1000K的Gemini 1.5 Flash, Gemini 1.5 Pro 上下文長度為達2000K。
Gemini 1.5 Flash 也有低時延優勢,高速處理Token,如果只是向LLM提問並生成文本,一般不會用到計以1000K,不過處理多媒體內容,用量就大增,一段六分鐘影片相等 100K,大型程式庫更可能需要超過 1000K,有機會衍生新一代應用。
小題:AI個人化應用
不少以為,長上下文本的出現,通過提示向LLM輸入額外資料,有可能取代RAG。事實不然,RAG的長處是結合智能體,建立個人化AI應用,因為RAG可 從多個來源檢索資料。RAG合併個人歷史數據偏好,甚至帳戶資訊工具,可構建個人應用,包括電子商貿的推薦系統和個人助手等。
李彦宏指,中國考生報讀大學志願和選科,每名考生對於各家大家和科目有不同問題,智能體就可回答考生的的個人問題,較早前百度《高考智能體》高峰期每日回答超過二百萬名考生查詢,向每位考生提供貼身回應。
小題:助智能體思考
上下文視窗很難實現有如RAG的靈活性,無法即時掌握細微差別。但是上下文視窗適合一次消化大量輸入資訊,智能體可建立更複雜的思維,深化整理答案,不過LLM建立個人化應用,仍要靠RAG幫忙。
LLM計費以Token為主,長上下文也代表費用增加,雖然LLM計費不斷下調,因為上下文長度增加,Token成本更高,加長回應時間。Google Cloud也為Gemini 1.5提供上下文緩存快取(Context Caching),如果一次過向相同的內容提問,可減低成本。Gemini 1.5輸入費用只是 GPT-3.5 Turbo 四分之一,Google Cloud 推出 Gemini 1.5 Pro 和 Flash 模型上下文快取的預覽版。Google指Vertex AI 上下文快取功能,可降低 75% 成本,回應更快。
向同一輸入內容重覆提問,以上下文快取可減少Token消耗,其他LLM也推出類似服務。Google Cloud另一服務,Vertex AI 讓客戶將專業第三方數據,連接自家 AI 虛擬服務專員,提升AI 數據可信程度,與穆迪、MSCI、湯森路透 和 Zoominfo 等供應商合作,導入數據至Vertex AI,確保LLM回應答案質素。