GTP-4

AI 軍備競賽開打好多年了,而 ChatGPT 的普及讓大眾有了更直接的應用衝擊。

模型參數競賽是關鍵嗎?

相較於大家關注於美國與中國較量,歐洲早已有此警覺。例如這篇 2022 年 7 月的文章 [1],德國人工智慧研究中心的主任 Hans Uszkoreit 表示,「人工智慧已向前發展,但歐洲至今尚未邁出一步,如果連第一步都沒有,那麼我們將永遠錯過了」。

為此 Hans 發起了 Large European AI Models (LEAM) 專案,預計參數量為 175-200 Billions,但距離第一個 LEAM 模型的推出還有很長的路要走。而且聲稱「若要像中國悟道 (Wu Dao) 2.0 模型中存在偏見 (biases),歐洲研究人員幾乎不可能對其進行仔細審查」。

最近中國也有不少關於『較量之於「參數」』的討論。有人引用前篇文章中的示圖,表示北京智源人工智能研究院 [2] 的悟道 2.0 擁有 1,750 Billions 參數 (GPT-3 的 10 倍),遠超其它國家。甚者,去年 (2022) 的 4 月,北京智源人工智能研究院、清華大家及阿里巴巴集團更推出了擁有 14,500 Billions (14.5 Trillions, 約 GPT-3 的 83 倍) 參數的 BaGuaLu [3] 八卦爐?。

但我們知道,人工智慧的應用不是比拼參數這麼單純,模型也不是只有「參數量」,整體還需要考慮硬體規格、通訊規格以及開發工具鏈規格等各項因素。關於悟道,相關文件揭露的不多,但從 BaGuaLu 論文中指出是運行在『神威』(sunway) 超級電腦。

意指這是個「特規」,例如 CPU 不是 Intel / AMD 而是自行研發的 SW26010,作業系統也是基於 Linux 修改的神威睿思 (RaiseOS),工具鏈也是用開源再修改。這與 GPT-3/ChatGPT 等只需要典型 (Typical) 或消費級 (Consumer) CPU/GPU 不同,如 NVIDIA 的 A100 GPU。倘若採用的是特規,除了要面臨單價成本、總體產量外,還有 Capacity 的問題。

我對 GPT-4 或下一代模型的想像

GPT-4 雖然尚未上市,但網傳其參數量將來源驚人的 100 Trillions [4],雖然後來 OpenAI CEO Sam Altman 推翻了這個謠言 [5]。不過 Sam 在採訪中指出了一個重要方向,「人工智慧走向多模型 AI (Multimodal AI) 是確定的」。而且應該會繼續走典型 (Typical) 或消費級 (Consumer) CPU/GPU 之路。

目前的 ChatGPT 只是 text2text,即輸入與輸出都只能是 text (文字)。若要輸出圖片,還需要轉至 text2image 的應用,如 Midjourney。想用圖產圖的 image2image 應用,也是需要轉至 ControlNet 等應用。

這也造就現在「整合型」的 AI 商業模式,使用者可以一鍵或輕鬆在同個平台上完成上述的功能,其背後也只是簡單基於整合 ChatGPT, Midjourney, ControlNet 等相關應用。

然,如 Sam 所說的,多模型 AI (Multimodal AI) 是確定的,則未來的 GPT-4 將可以 text2text,也可以 text2image, text2video, image2text, image2image, image2video, video2video, …。

等同於 ChatGPT + Midjourney + ControlNet 在一個 GPT-4 就可以完成。那麼前述所稱的「整合型」產品,很可能也要退下舞台了。下一代的 "Chat"GPT 也不再僅是 “Chat” 而是 "Media"GPT (我暫時命名的),見我繪的圖。

而且相較於分別用不同模型間整合的應用,多模型 AI (Multimodal AI) 能帶來的「Emergence」(湧現/突現) 會豐富得多,很可能帶給我們更多的驚喜,勝於當初的 ChatGPT

參考