ChatGPT 強大的語言理解和文字生成能力讓其成為2023年第一個火爆的風口,後來推出的ChatGPT4.0更在原有的文字層面交互上,新增了圖像輸入/輸出、音樂、影片回答的功能,從而開啟人機交互新時代,這背後涉及到“多模態AI”的概念更是成為人工智慧行業近年來的研究熱點。
多模態AI 是指將多種數據類型與多種智慧處理演算法相結合的人工智能,開發能夠同時處理和學習多種類型數據的模型來做出更準確的預測或決策。這波趨勢同樣也吹到金融業,從金融機構流入AI 的資金凸顯了這項新技術的重要程度。根據國際數據公司指出,到2027年,金融業在這方面的支出將達到970億美元。
多模態AI的基礎
什麼是多模態AI
模態(Modality)是德國物理學家赫爾姆霍茨提出的一種生物學概念,即生物憑藉感知器官與經驗來接收資訊的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態,每一種資訊的來源或者形式,都可以稱為一種模態。多模態交互是指人通過聲音、肢體語言、資訊載體(文字、圖片、音訊、影片)等多個通道與電腦進行交流,充分類比人與人之間的交互方式。
不同模態中學習的方式存在很大差異,早期的深度學習與單模態AI有關,只能分析來自單一模式的數據, 例如將一張貓的圖像分類為「貓」的任務是單模態任務,其中只使用圖像數據來確定圖像中的物體或場景,而多模態AI 可用多個不同模式或資訊來源的數據來進行分析和處理,可以包括文字、圖像、聲音等不同類型的數據。 比如Meta提出了AV-HuBERT 模型,可通過輸入語音和唇語影片兩種模態內容,輸出對應文字,該模型捕捉到聲音和影片間的關聯,和人類本身感知語言的模式很相似。
圖片來源:https://huggingface.co/vumichien/AV-HuBERT
為了讓人工智慧在理解我們周圍的世界方面取得進展,它需要能夠解釋和推理關於多模態資訊。 多模態機器學習旨在建立能夠處理和關聯來自多種模態資訊的模型。
多模態AI在金融科技中的應用
客戶服務
透過語音和文字的方式,結合金融行業的專業知識和數據進行互動式訓練,從而實現多輪複雜對話、自然語言理解和生成等能力,與客戶進行自然而流暢的對話,並根據對話內容提供精準的金融建議和服務。 可以應用於信貸產品、理財產品、保險產品等多個業務環節,大幅提升用戶滿意度和轉化率,降低人工成本和風險。
身份驗證和安全
多模態AI在金融領域的身份辨識應用包括結合圖像和聲音等多種數據進行身份驗證。 這種方法能夠提高身份驗證的安全性和準確性,因為它不僅依賴於單一的生物識別技術,而是結合多種生物識別技術,滿足使用者更高安全級別的需要。
風險控管模型建構
人工智慧也能協助包含信用評分與風險、市場風險、營運與作業風險等方面的預測、監控與管理。銀行可利用人工智慧針對購買行為、客戶特徵、社群行為等進行深入分析,與其他的數據擁有者例如大賣場、購物商城,結合Facebook、LINE等社群媒體的文字和圖像數據等資料,再配合聯合徵信中心的信用資料,便可發展出全方位的信用評分系統。
技術挑戰與發展
數據融合的挑戰
由於資料多樣性,不平衡的資料集和註釋不一致會導致偏差,因此處理多個資料流需要最佳化的模型架構,透過演算法的進步來整合矛盾的多模態輸入。如何有效地結合不同類型的數據且納入更多資料模式是未來大型多模態模型(Large Multimodal Model - LMM)的挑戰之一,大多數現有的LMM 都使用文字和圖像進行操作。然而,LMM 需要超越文字和圖像,適應影片、音樂和 3D 等模式。
計算資源需求
由於大量的計算開銷,可擴展性問題仍然存在,LMM 的資源密集型特性構成了重大障礙,使得它們對於運算資源有限的邊緣設備來說不切實際。壓縮LMM 以提高效率並使其適合在資源受限的設備上運行是正在進行的研究的關鍵領域。
模型訓練與優化
LMM 仍屬於早期發展階段,如何訓練能夠處理多種數據類型的AI 模型還有很大的進步空間。比如多模態輸出,雖然能夠處理多模態輸入的模型正在成為常態,但多模態輸出(例如將文字與圖形或動畫結合)仍然滯後;又或者是多模態推理,目前的LMM 擅長將一種模態轉換為另一種模態,但針對複雜推理任務(例如基於聽覺指令解決書面文字問題)多模態數據的無縫集成仍然是一項具有挑戰性的工作。
多模態AI的發展標誌著人工智慧的重大突破,由於這些模型無縫整合了不同的模態,例如文字、圖像和聲音,它們的發展為各大領域包括金融領域的變革性應用打開了大門。許多人工智慧研究人員預計LMM 的崛起將成為2024 年人工智能研究和開發的下一個前沿領域,如何容納更多資料模式和壓縮資源密集模型也成為多模態AI能否發揮其所有潛力的關鍵挑戰。
首圖來源:https://blog.facialix.com/wp-content/uploads/2022/08/4079928_c97f_2-1.jpg