「在 Cloudera,我們相信數據可以將現時不可能的事在將來變得有可能實現。」
Cloud + era 表示著雲端世代的來臨。1990年代是網際網路普及的世代,網路搭起每個端點,電商也隨之發展,企業開始發現數據的重要性,而消費者的所有行為也幻化成一筆一筆的數據,智慧型手機的發明更使得數據爆炸性增長,為了處理這些資料,「雲」成為我們的好夥伴。跟馬克一起認識這間公司吧!
▷ Cloudera 簡介
Cloudera 公司成立於 2008 年,是一家致力於企業數據管理和大數據分析的科技公司。Cloudera 的創立目標是利用開源軟體來解決大數據挑戰。自成立以來,Cloudera 迅速成長,並於 2017 年在紐約證券交易所公開上市(股票代碼:CLDR)。公司以其強大的技術能力和創新解決方案,成為全球領先的大數據管理和分析平台供應商之一。近期更榮獲《The Asian Banker》所頒發的金融科技創新大獎。
▷ Cloudera 提供什麼服務呢?
Cloudera 推出 CDP (Cloudera Data Platform) ,CDP 是一個混合雲資料平台,也運用了開放資料湖倉 (Open data lakehouse) 可協助組織對所有資料進行快速分析,消除了資料孤島,並允許資料團隊使用他們選擇的工具在任何「公有雲」及「私有雲」上協作處理相同的資料。提供企業管理混合雲時更便利的選擇,並且使得資料管理及分析的速度提高。
*資料孤島:資料孤島是指在一個組織內,資料被隔離在不同的部門或系統中,無法互相連接或共享,這常常導致資訊共享不足和運作效率低下,也造成決策的困難。
一、Cloudera 解決哪些問題?
在談 Cloudera 之前,想跟大家淺談一下企業數位轉型這件事。「數位轉型、AI 文化」從疫情以來,成了任何組織的重要議題,可以看出轉型的急迫性跟重要性,但總有許多失敗的案例,原因通常是,一、員工無法適應新工具:數位化工具無法被完善使用,可能是因為工具操作不夠直觀,可能是因為工具培訓的效果不佳等等;二、跨部門無法溝通:將資料數據化後,許多訊息變得具體了,但不夠直觀,導致非科技相關的部門難以閱讀這些數據,例如 IT 部跟行銷部的專業跟目標不同,雙方皆難以洞悉資料分析後的預測結果,而在溝通策略時反而變成障礙;當然,還有許多管理上的問題會導致數位轉型失敗,但今天想先從這兩個大困境著手,說明 Cloudera 能夠幫助企業什麼。
二、Cloudera 資料平台
而 Cloudera 看到了資料分析對於許多組織來說,是具有挑戰性的,且難以發現資料的隱藏訊息,為了幫助組織能夠利用數據推動有效決策,且讓介面操作更簡便,使跨領域、跨部門、甚至是跨企業,都能夠應用,使得「以數據做為決策依據」成為全公司或整個生態圈的共識。下列用資料 (data) 成為資訊 (information) 的過程來說明 CDP 有哪些功能:
(一)資料擷取
利用「資料流 (DataFlow) 」及「流處理 (Stream Processing) 」幫助企業時刻捕捉及處理數據,確保數據的即時性和準確性,也使數據有效分流,使資料不再雜亂無章。更重要的是,使企業能夠實時反應關鍵事件,並簡化其資料捕獲、處理和分發,同時保持安全性和治理。
(二)資料準備
資料準備是許多組織耗盡心力的一環,因為這一步影響後續的機器學習,但在 CDP 上,因為有先前資料流及流處理的幫助,可以讓資料準備輕鬆許多;而CDP提供的「資料工程 (Data Engineering) 」是一個包羅萬象的資料工程工具集,可透過 Apache Airflow、進階管道監控、視覺化故障排除和綜合管理工具實現編排自動化,從而簡化整個企業分析團隊的 ETL 流程。
(三)資料分析
「資料倉儲 (Data Warehouse) 」是攝取、探索、尋找、存取、分析數據的過程,需要 ETL 來轉換數據,而上一步驟資料工程簡化了 ETL 的流程,使得分析過盛得以最低的成本提供快速、簡單的自動數據分析。
(四)預測分析
有了系統化的資訊後,如何洞悉這些資訊帶給我們的訊息才是重中之重,而在 CDP 上可以透過「機器學習 (Machine Learning) 」加速數據科學團隊的創新,使他們能夠協作訓練、評估、發佈和監控模型,並在更短的時間內交付更多模型,以獲得商業見解和行動。
(五)發佈預測
為了讓預測結果更加直觀,CDP 也能「數據視覺化 (Data Visualization) 」,不僅有助於決策,也能使跨團隊合作更順暢,降低內部溝通障礙,進而整合企業資訊。
*ETL:代表「Extract, Transform, Load」,即「提取、轉換、載入」三個步驟。這是數據倉庫中常見的一種數據整理流程,用於從多個數據源中提取數據,對這些數據進行必要的清理和轉換,然後將其載入到一個集中的數據庫或數據倉庫中供後續分析使用。
▷ Cloudera 的主要優勢
一、 使用 Apache Iceberg 建構資料湖倉(Data Lakehouse)
Apache Iceberg 是 Cloudera 於 2023 年新導入的系統,去解釋 Iceberg 到底是什麼有點太複雜,不如說,Iceberg 是資料系統中的「翻譯官兼整理師」;它兼容了不同資料搜尋引擎(如 Presto、Hive 等),也可以將資料分配到不同的資聊儲存空間(如 S3、HDFS 等);使整個資料生態圈不再受系統的限制,打造無疆界的環境,更重要的是讓成本更低、效率也提高。而「資料湖倉」是一種融合了資料湖(Data Lake)和資料倉儲(Data Warehouse)特性的數據管理架構。這種架構旨在提供兩者的優點,同時克服各自的限制。CDP 的資料湖倉 100% 由 Iceberg 支援,致力於讓資料更靈活,也更能兼容每個組織原生的系統。
二、 平台工具的完整性
Cloudera 的平台從資料的分析到安全治理,一手包辦;SDX 是 CDP 的基本組成部分,提供基於元資料的一套整合的安全和治理技術。 SDX 在所有基礎設施上提供跨資料和分析的全面資料管理,降低了風險和營運成本。 IT 可以更敏捷得部署完全安全且受管理的資料湖,讓更多使用者能夠自由存取資料。
Cloudera 致力於保護客戶數據的安全與隱私,透過一系列綜合性的安全措施來實現這一目標。首先,強化的身份驗證機制確保只有經過授權的用戶才能訪問敏感數據,有效預防未經授權的存取行為。此外,Cloudera 的授權系統允許企業精確控制各種用戶對數據的操作範圍,從而保護數據不被不當使用。為了進一步強化安全性,Cloudera 還提供了全面的審計功能,記錄所有數據存取活動和交易過程,以支持合規性審查和安全監控。最後,無論是在數據傳輸還是存儲過程中,都實施了嚴格的加密措施,以保障數據的端到端安全。
圖片來源:https://www.cloudera.com/products/scalable-data-mesh.html
三、 支持不同行業的數位轉型
Cloudera 的現代化數據平台展現了強大的橫跨多個行業的適應能力。特別是在數據密集型的行業如金融服務、製造業和政府部門,Cloudera 提供的數據解決方案不僅幫助企業提高運營效率,還促進了創新和成本效益的提升。例如,在金融服務行業,Cloudera 的技術使得銀行能夠更有效地進行交易數據分析,從而優化風險管理和客戶服務。製造業客戶利用 Cloudera 平台提升生產效率並減少成本,而政府部門則透過 Cloudera 改善資料管理,以提供更高品質的民眾服務。
四、 強大的合作夥伴
Cloudera 擁有超過千位合作夥伴,涵蓋從半導體到商業顧問的各行各業,構建了一個豐富的資料分析供應鏈和生態系統。這不僅讓 Cloudera 的客戶能夠獲得更多的經驗和數據支持,也讓每個加入 CDP 的組織都能更加順利地融入這個平台,進一步鞏固了 Cloudera 作為行業領導者的地位。
在科技巨頭方面,Cloudera 已與包括 Amazon Web Services (AWS) 和 NVIDIA 在內的數個公司建立策略性合作夥伴關係。這些合作關係凸顯了 Cloudera 在推動技術創新和強化服務解決方案方面的決心。通過與 AWS 的緊密合作,Cloudera 在 AWS 雲平台上提供了更全面且靈活的數據管理方案,以支持企業級的生成式 AI 應用。此外,與 NVIDIA 的合作專注於加速數據分析和機器學習計算,進一步提升了 Cloudera 在處理大規模數據集時的性能和效率。這些技術進展不僅提高了客戶的運營效率,還大幅降低了成本,從而進一步鞏固了 Cloudera 在全球數據解決方案領域的領導地位。
▷ Cloudera 最新消息!
華僑銀行 (OCBC) 數據平台主管 Tan Ban Horng 表示:「建基於 Cloudera 數據平台和 Cloudera 機器學習,我們的數據團隊得以協作和探索急速增長的數據量,並且擴展不斷演進的人工智能使用案例。這最終提高我們員工的營運效率,並帶來反應更加迅速和回報更加豐厚的銀行體驗,讓我們的客戶感到滿意。」
Cloudera 與華僑銀行在 2024 年金融科技創新大獎 (Financial Technology Innovation Awards 2024) 中榮獲「最佳大數據和分析基礎設施實施」獎項。金融科技創新大獎由 The Asian Banker 組織設立,旨在肯定在技術實施方面的傑出成就和最佳實踐,為其他金融機構和科技公司樹立創新的標杆。這個大獎被金融服務業視為其中一個目前最負盛名、最全面和最具透明度的獎項,被提名者都要經過嚴格的評估過程。這也是唯一一個同時衡量項目執行和可持續業務影響的地區性獎項。
此獎項證明了 Cloudera「為組織利用數據創造價值」的專業及成就,更說明了在數據世代下,金融業再進步必須透過科技來撐腰,金融與科技攜手合作的必要性及成長性也為眾人看到。
馬克碎念
在當前數據驅動的時代,企業面臨著前所未有的挑戰與機遇。Cloudera 作為領先的大數據管理和分析平台供應商,提供了強大的技術和創新解決方案,幫助企業有效應對數據洪流並從中挖掘價值。
首先,Cloudera 的成功關鍵在於其對數據孤島問題的深刻理解。傳統企業往往因為數據分散在不同部門或系統中而面臨巨大的運營挑戰,無法充分利用數據進行決策。Cloudera 的 CDP 提供了混合雲資料平台,通過開放資料湖倉技術,打破了數據孤島,使數據在各個部門之間自由流動,從而提升整體運營效率。
其次,Cloudera 的資料平台不僅強調技術創新,更重視使用者體驗。許多數位轉型失敗的原因在於員工無法適應新工具,或者跨部門溝通不暢。Cloudera 通過簡化的操作介面和強大的資料可視化工具,使得非技術部門的員工也能輕鬆理解和利用數據,這不僅促進了內部協作,也提高了決策的科學性和準確性。
在現代數據管理和分析將在企業數位轉型中扮演非常關鍵的角色。Cloudera 的綜合性解決方案,從資料擷取、準備、分析到預測和可視化,為企業提供了全方位的支持,幫助他們在數據洪流中找到方向。Cloudera 的願景,是讓每一個組織都能夠利用數據推動創新和成長,這不僅是技術的進步,也是商業模式的變革。
首圖來源:https://www.facebook.com/photo/?fbid=10159361991641598&set=a.640014528168958