近年來繼雲端計算之後巨量資料分析變為最熱門的議題,隨著越來越多元的雲端應用,這個世代的資料量也越來越大(Volume),產生資料速度越來越快(Velocity),種類也越來越複雜(Variety),但也需要辦識資料的真實性(Veracity)才能有效的便用。以社群網站為例,每天需承載約超過500TB的流量,處理超過25億則發文,總上傳照片數約3億張,相當於每半小時就需處理約105TB的資料,傳統的RDBMS資料分析策略,已經無法滿足如此龐大的資料量。因此,運用MapReduce計算框架的平台Hadoop、GridGain、Impala、Spark/Shark可以滿足商業新需求,因為它是使用具有高效能、高可用性、高擴展能力的NoSQL資料庫技術進行巨量資料分析的利器,也是用來處理與存儲大量資料的一種雲端計算平台。巨量資料分析對OLAP資料倉儲的廠商(例如:Oracle、Microsoft、IBM、SAP/Sybase、Teradata、EMC Greenplum等)來說,就帶來了效能與分析多樣性資料的能力都必須往上提升的挑戰,並試著將此納入資料倉儲管理的環境中。
全球各大企業的資訊相關部們(例如:Google、Facebook、Twitter、Apple、Microsoft等)無不積極投資與發展巨量資料分析技術,並被作為雲端計算環境中的重要商業決策應用。因為有了巨量資料計算平台後,業者始可進行各項分析,例如:電信業者如今可以分析手機在基地台漫遊的特性,提供更好的在地費率;信用卡業者如今可以每天定期分析各種信用貸款所產生的風險,動態調整信貸利率;便利超商如今可以分析消費者的購買習慣,動態調整架上存貨數量;甚至新興產業,如生物醫學、新與能源、氣候變遷等皆可運用巨量資料分析來進行資料採礦與趨勢預測。若您的企業有儲存巨量資料的需求,也有分析巨量資料的需求,或者面臨資料庫過度龐大,正在尋求分散式資料庫或資料倉儲的技術,那麼巨量資料分析技術或許會是您一個重要選擇。只要懂得駕馭巨量資料計算平台,它將能協助您穿越一波一波的資料洪流,快速幫您理出隱藏在資料中的邏輯並提供您最有價值的決策資訊(Value)。