隨著互聯(lián)網(wǎng)的逐漸深入,各家企業(yè)的業(yè)務線不斷拓寬,用戶體量也隨之不斷擴大,大數(shù)據(jù)逐漸進入到企業(yè)的視野。大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
大數(shù)據(jù)雖然起源在美國,但是發(fā)展速度最迅猛的的確還是在中國。因為中國有著得天獨厚的條件,就是廣大的互聯(lián)網(wǎng)用戶群體,這些大量的用戶資源給中國企業(yè)制造了天然的、獨一無二大數(shù)據(jù)環(huán)境。
提起數(shù)據(jù)量,國內除了互聯(lián)網(wǎng)那幾家巨頭,應該就屬金融領域的數(shù)據(jù)量最大、數(shù)據(jù)價值最高。作為國內大數(shù)據(jù)范疇內最具代表性的行業(yè)之一,金融業(yè)無論是從用戶體量還是日成交量上看,都位居國內前列。中國銀聯(lián)作為國內金融領域的代表性企業(yè),其背后的大數(shù)據(jù)技術實力,在一定程度上也能反應當下國內各家金融企業(yè)的大數(shù)據(jù)技術水平。今天,我們就以銀聯(lián)為例,看一下銀聯(lián)這些年來大數(shù)據(jù)技術的變革以及優(yōu)化。
那么關于大數(shù)據(jù),究竟什么是大數(shù)據(jù),這么些年喊了這么多的大數(shù)據(jù)轉型的口號,究竟在大數(shù)據(jù)領域內做了什么?帶著這些問題,InfoQ 記者采訪到了在 Kylin Data Summit 上做技術分享的中國銀聯(lián)科技事業(yè)部高級主管王穎卓。
1 銀聯(lián)大數(shù)據(jù)的歷程 2003-2007-2012,從報表到數(shù)倉,銀聯(lián)大數(shù)據(jù)轉型伊始
中國銀聯(lián)科技事業(yè)部高級主管王穎卓提到,金融界對于數(shù)據(jù)的認識和使用,一直都是非常重視的。在大數(shù)據(jù)時代,如何利用工具更好地處理數(shù)據(jù),怎樣把數(shù)據(jù)更好的應用在業(yè)務上,如何將數(shù)據(jù)變現(xiàn)等,是當下眾多企業(yè)必須要思考的一個問題。
在 2003 年到 2007 年之間,銀聯(lián)的的數(shù)據(jù)一直是由需求驅動,業(yè)務部門有一個需求就做一張數(shù)據(jù)報表,特點是數(shù)據(jù)分散、按需定制、開發(fā)周期長。
2007 年左右,中國銀聯(lián)開始進入到數(shù)據(jù)倉庫年代。相較于報表,數(shù)據(jù)倉庫對于用戶體驗來說是一個巨大的革新,基本上體現(xiàn)在數(shù)據(jù)發(fā)展以業(yè)務為驅動,主要有結構化數(shù)據(jù)集中存儲、勾兌整合、服務業(yè)務等特點。也就是說,數(shù)據(jù)倉庫還原了數(shù)據(jù)的本質,以數(shù)據(jù)本身的特性來處理數(shù)據(jù)。在建立數(shù)據(jù)倉庫的過程中,更重要的是將以 Cognos 為核心的多維數(shù)據(jù)分析理念引入進來,從而達到讓用戶能夠自主進行數(shù)據(jù)分析的目的。
目前,銀聯(lián)的大數(shù)據(jù)架構主要分為三條技術線,分別為基礎數(shù)據(jù)、數(shù)據(jù)應用以及數(shù)據(jù)模型。首先制作報表的工作需要基礎數(shù)據(jù)和數(shù)據(jù)應用兩者協(xié)同完成,數(shù)據(jù)的清洗、加工、預匯總等過程由基礎數(shù)據(jù)完成,報表的定制、查看、下載等功能由數(shù)據(jù)應用完成。
2012 至今,向成熟的大數(shù)據(jù)體系進發(fā),用數(shù)據(jù)驅動業(yè)務
2012 年,大數(shù)據(jù)技術逐漸進入到國內,并開始在技術圈內流行起來。同樣的問題又被擺在了舞臺之上,到底什么叫大數(shù)據(jù)?大數(shù)據(jù)跟報表的關系是什么?跟數(shù)據(jù)倉庫的關系又是什么?是不是數(shù)據(jù)大了才叫大數(shù)據(jù)?Hadoop 與大數(shù)據(jù)之間的強關聯(lián),是否代表著 Hadoop 就等同于大數(shù)據(jù)?
王穎卓首先提到,在數(shù)倉向大數(shù)據(jù)平臺轉型時,沒有考慮過 Hadoop 以外的框架。一方面銀聯(lián)從數(shù)倉向大數(shù)據(jù)轉型是在 2012 年,業(yè)界已經(jīng)進入大數(shù)據(jù)時代,幾乎沒有可以撼動 Hadoop 地位的大數(shù)據(jù)框架存在,同時代基于 MPP 架構的數(shù)據(jù)倉庫框架,如 GreenPlum 等,難以支撐 PB 級以上的數(shù)據(jù)規(guī)模;另一方面,銀聯(lián)研究院已搭建 Hadoop 平臺并開發(fā)了一些試驗性的應用,取得了較好的效果。因此,我們選擇 Hadoop 作為數(shù)倉的替代者。
同時王穎卓從銀聯(lián)的角度出發(fā),解釋了他對于大數(shù)據(jù)的理解。他認為在整個大數(shù)據(jù)年代,有兩個理念非常重要:
數(shù)據(jù)存儲層。應該怎樣存放數(shù)據(jù)?銀聯(lián)做的首件事是在數(shù)據(jù)集中的基礎上,做到了數(shù)據(jù)融合——把整個企業(yè)級的數(shù)據(jù)做了有機融合?,F(xiàn)階段,銀聯(lián)大數(shù)據(jù)平臺里存在的最大體量的基礎表已經(jīng)有 1000 多個維度?;谶@張基礎表,再從業(yè)務視角對數(shù)據(jù)進行高度匯總,最終給業(yè)務人員提供數(shù)據(jù)服務。因此,從數(shù)據(jù)存儲和加工方面,有別于過去的報表和數(shù)據(jù)倉庫。
數(shù)據(jù)應用層。報表系統(tǒng)的目的是滿足用戶需求,只有當用戶有需求時才會做報表。在數(shù)據(jù)倉庫時代,更多的是幫用戶設計 Cube 和提供多維分析的服務;而用戶在這一階段初步掌握了數(shù)據(jù)分析的能力。在大數(shù)據(jù)年代,伴隨著平臺化和開放化理念的影響,用戶開始在銀聯(lián)的大數(shù)據(jù)平臺上利用各種有效的工具、組織多元的數(shù)據(jù)來滿足自己的業(yè)務場景,在這個階段,用戶開始熟悉并習慣使用工具來做數(shù)據(jù)分析。
2 銀聯(lián)在轉型大數(shù)據(jù)的過程中,遇到了怎樣的問題?
在不同的場景里,大數(shù)據(jù)所造成的問題也不一樣。通常情況下,分為在線處理、離線處理以及數(shù)據(jù)服務系統(tǒng)這三大類問題。
在線處理所遇到的問題
中國銀聯(lián)這幾年的交易量在逐年猛增,一年的交易記錄數(shù)突破了千億。問題就出在這千億數(shù)據(jù)里面。現(xiàn)在的用戶對于實時性的要求越來越高,要求能夠實時查詢訂單信息、實時進行線上的交易和退單等操作,這對交易數(shù)據(jù)庫來講毫無疑問是一個災難。HBase 支持高并發(fā)寫入及查詢的特性,在一定程度上緩解了這個問題。
但是在使用過程中,HBase 不可避免的也會出現(xiàn)很多問題。第一點是便利性較差,HBase 基于 KV 模型和 Java API 進行讀寫,用戶往往需要自行設計二級索引表和讀寫接口。
第二點是性能上的抖動,HBase 性能確實很好,但是在實際生產(chǎn)過程中往往存在著在查詢過程中出現(xiàn)性能抖動,如 73% 的查詢在 10ms 返回, 27% 的查詢在 10-100ms 內返回,這就給實時的場景帶來風險;其次 HBase 集群的穩(wěn)定性存在問題,其中一個 Server 服務宕了,往往導致整個集群的響應出現(xiàn)巨大波動。
這些在實時場景中,都是無法容忍的問題。
離線分析場景問題
說完了在線實時處理,再回到離線分析場景下。在金融領域,應用最廣的還是 Cognos。中國銀聯(lián)也算是資歷較深的 Cognos 用戶。
但是在用戶與數(shù)據(jù)體量飛漲的現(xiàn)在,Cognos 也存在著諸多問題。比如規(guī)模以及可擴展性的問題,Cognos 的單 Cube 文件,大小限制在 2GB 以內。隨著現(xiàn)在業(yè)務飛速增長,數(shù)據(jù)量是 PB 級別的增長。Cube 的體積越來越大,Cube 的數(shù)量也越來越多,上千個 Cube 如何管理也是一個問題。
其次是 Cube 構建生成的時間越來越長,用戶能看到最新數(shù)據(jù)的時間越來越晚。其實銀聯(lián)的 Cognos 已經(jīng)做的很不錯了,目前支撐著近 3000+ 人次使用,保持著日 Cube 1000+ 張報表以及月 Cube 5000+ 張報表的效率。
但是 Cognos 作為一個閉源產(chǎn)品,其自然也有閉源產(chǎn)品的弱點,出現(xiàn)了一些產(chǎn)品級的問題,自主排查問題的能力較弱;用戶有一些個性化的需求,針對產(chǎn)品做二次的個性化定制開發(fā)的空間較小。
數(shù)據(jù)服務系統(tǒng)問題
隨著銀聯(lián)業(yè)務體量的增大,業(yè)務線的拓寬,產(chǎn)品種類和服務類型也隨之豐富起來。但是與此同時,每一條產(chǎn)品線、每一條業(yè)務線,其中的數(shù)據(jù)甚至服務孤島現(xiàn)象越來越嚴重。由于各條產(chǎn)品線之間數(shù)據(jù)不通,形成了一個個“孤島”和“煙囪”。此外,不同的服務采用的數(shù)據(jù)口徑不同,數(shù)據(jù)質量沒有形成統(tǒng)一標準;還有就是用戶需要登錄不同的網(wǎng)頁使用不同的服務,用戶體驗較差。
3 銀聯(lián)大數(shù)據(jù)實時分析的探索與實踐
數(shù)據(jù)安全是金融企業(yè)的命門,金融企業(yè)有必要也要有實力來構建這樣屬于自己的數(shù)據(jù)服務生態(tài)系統(tǒng)。
上文說到了問題,那就要解決問題。首先要解決的是,如何環(huán)節(jié) HBase 在聯(lián)機實時的業(yè)務場景下開發(fā)的便利性以及性能抖動問題。金融行業(yè)有錢是公認的,銀聯(lián)在整個系統(tǒng)穩(wěn)定、安全方面等金融科技層面的投入相當大,就比如銀聯(lián)通過在大數(shù)據(jù)服務層次上,建立兩地三中心的 HBase 集群,來緩解 HBase 集群不穩(wěn)定的問題。
在服務層,通過聯(lián)機雙查方式,基本上有效解決和避免了因為某一個集群性能,從而帶來整個查詢效率的下降。其原理十分簡單,即一個查詢被客戶端強行分為兩個,分別訪問后臺兩個不同的 HBase 集群,然后再經(jīng)由 HBase 集群返回,誰速度快用誰的。
第二點,關于銀聯(lián)離線計算服務的整體架構,架構如下圖所示。
為什么要做銀聯(lián)的數(shù)據(jù)平臺分析架構?從金融行業(yè)的角度來看,"自主可控"是金融領域對于技術的一個硬性指標,畢竟數(shù)據(jù)安全是金融企業(yè)的命門。因此,金融企業(yè)有必要也要有實力來構建這樣一個數(shù)據(jù)服務生態(tài)系統(tǒng)。
從整個外圍來看,藍色的這一圈是由銀聯(lián)自主開發(fā)的功能性產(chǎn)品,如控制服務、監(jiān)控、接入層等。中間三個核心模塊屬于驅動層面。透過 Tornado 可以支持用戶級別的數(shù)據(jù)加工服務,透過 Lightning 可以實現(xiàn) HBase 的實時數(shù)據(jù)查詢。中間最關鍵多維分析服務,則使用了 Kylin 的商用產(chǎn)品 Kyligence。
在 Kylin Data Summit 上,Gartner 研究總監(jiān) Julian Sun 也提到了,未來的關鍵不是開源,而是商業(yè)化。這并非否定開源的重要性,開源對于技術的發(fā)展起到了至關重要的作用。前一段時間大家也看過,市面上有一些所謂的開源軟件已經(jīng)開始收費了。比如免費了 20 多年的 Java 開始收費了,Hadoop、MongoDB 等開源項目也有存在了很長時間的商用版本。商用版本相較于社區(qū)的開源版,更加符合企業(yè)的需求,降低了企業(yè)的使用門檻。
仍然以 Hadoop 為例,Hadoop 的技術偏底層,需要十分專業(yè)的技術基礎,因此雖然是很好的技術,但使用門檻過高,前期使用成本過大,缺乏應用創(chuàng)新以及模式創(chuàng)新。并且在社區(qū)中,技術的發(fā)展方向往往是分散的,是根據(jù)社區(qū)內的每一名成員的思考在前進,不能聚焦于一個領域下、專攻某一方面。
再回到 Kyligence 與 Kylin 上來,Kyligence 相較于開源版 Kylin,商業(yè)版在查詢系統(tǒng)設計、元數(shù)據(jù)設計、BI 兼容性、企業(yè)運維等方面都有明顯的優(yōu)勢。并且基于 Kyligence 構建 Cube,5 億的數(shù)據(jù)在短短 2 個小時之內就能構建好,相較于過去銀聯(lián)舊版的以“數(shù)據(jù)倉庫 ETL + Cognos“體系為核心的多維分析應用,可以說是一個巨大的飛躍。
4 尾 聲
最后,再回到最開始的問題,什么是大數(shù)據(jù)?經(jīng)常有人問,很多公司喊大數(shù)據(jù)轉型喊了好多年,究竟做了什么?王穎卓最后提到:大數(shù)據(jù)的目的無非是提升服務性能,因此即便將整個 BI 體系更換掉,將全部的 Cognos 拿掉,用戶在使用體驗上也會完全無感,能感受到的只是性能以及效率的提升。從銀聯(lián)的角度看,用戶每天早上打開電腦就能看到最新的數(shù)據(jù),這就是做大數(shù)據(jù)實時分析平臺的目的。
隨著數(shù)據(jù)規(guī)模的持續(xù)增大,傳統(tǒng)的報表以及數(shù)據(jù)倉庫技術已經(jīng)很難滿足業(yè)務的需求和查詢需要。因此,銀聯(lián)也在大數(shù)據(jù)的架構和技術領域不斷的探索和創(chuàng)新,包括引入 Kyligence,以及開發(fā)自己全新的 BI 服務體系。所做的一切,最終的目的都是為了能夠讓數(shù)據(jù)更好的服務業(yè)務、更好的驅動業(yè)務前進。通過技術上的創(chuàng)新,提升業(yè)務人員使用數(shù)據(jù)、通過數(shù)據(jù)來創(chuàng)造價值的能力。
數(shù)據(jù)是不斷變化的,數(shù)據(jù)所產(chǎn)生的價值是不斷變化的,技術也是不斷變化的。Hadoop 自 2006 年發(fā)展至今,在大數(shù)據(jù)領域一路高歌猛進。但是到了今天,大數(shù)據(jù)分析技術不會因為 Hadoop 面臨的挑戰(zhàn),而放緩前進的腳步。我們在這次 Kylin Data Summit 上看到,以 Kyligence 為代表的大數(shù)據(jù)企業(yè), 其產(chǎn)品架構在不斷演進,迎合快速變化的大數(shù)據(jù)技術趨勢,從原先的 Hadoop 依賴到全 Spark 技術棧,為的就是幫助企業(yè)快速應用,迎接未來挑戰(zhàn)。
中國銀聯(lián)的大數(shù)據(jù)技術也是一樣,也在不斷通過自身技術上的創(chuàng)新,擁抱數(shù)據(jù),讓數(shù)據(jù)產(chǎn)生更多價值,讓中國銀聯(lián)的大數(shù)據(jù)發(fā)展,依然走在正確的路上。
-
數(shù)據(jù)分析
+關注
關注
2文章
1473瀏覽量
35039 -
大數(shù)據(jù)
+關注
關注
64文章
8960瀏覽量
140231
原文標題:中國銀聯(lián)大數(shù)據(jù)發(fā)展史
文章出處:【微信號:infoqchina,微信公眾號:InfoQ】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
Molex薄膜電池的技術原理是什么?-赫聯(lián)電子
深開鴻成為中國物流與采購聯(lián)合會大數(shù)據(jù)分會“副會長單位”

憶聯(lián)如何以技術創(chuàng)新推動存儲產(chǎn)業(yè)變革

嵌入式系統(tǒng)中的代碼優(yōu)化與壓縮技術
降銀的網(wǎng)版印刷技術:無網(wǎng)結搭接對銀漿印刷形貌的影響與優(yōu)化

銀聯(lián)寶充電器芯片U25136概述
燒結銀在智能機器人的應用
emc技術在大數(shù)據(jù)分析中的角色
智慧城市與大數(shù)據(jù)的關系
IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡優(yōu)化?

評論