我在這里整理一個(gè)表格不同時(shí)代數(shù)據(jù)源的差異性(備注可能整理的有點(diǎn)不全):數(shù)據(jù)平臺(tái)的用戶:總結(jié)下來(lái)互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)“服務(wù)”方式迭代演進(jìn)大約可以分為三個(gè)階段。階段一:約在2008年-2011年初的互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái),那時(shí)建設(shè)與使用上與非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)有這蠻大的相似性,主要相似點(diǎn)在數(shù)據(jù)平臺(tái)的建設(shè)角色、與使用到的技術(shù)上。老板們、運(yùn)營(yíng)的需求主要是依賴于報(bào)表、分析報(bào)告、臨時(shí)需求、商業(yè)智能團(tuán)隊(duì)的數(shù)據(jù)分析師去各種分析、臨時(shí)需求、挖掘,這些角色是數(shù)據(jù)平臺(tái)的適用方。ETL開發(fā)工程師、數(shù)據(jù)模型建模、數(shù)據(jù)架構(gòu)師、報(bào)表設(shè)計(jì)人員,同時(shí)這些角色又是數(shù)據(jù)平臺(tái)數(shù)據(jù)建設(shè)與使用方。數(shù)據(jù)平臺(tái)的技術(shù)框架與工具實(shí)現(xiàn)主要有技術(shù)架構(gòu)師、JAVA開發(fā)等。用戶面對(duì)是結(jié)構(gòu)化的生產(chǎn)數(shù)據(jù)、PC端非結(jié)構(gòu)化log等數(shù)據(jù)。ELT的數(shù)據(jù)處理方式(備注在數(shù)據(jù)處理的方式上,由傳統(tǒng)企業(yè)的ETL基本進(jìn)化為ELT)?,F(xiàn)在的淘寶是從2004年開始構(gòu)建自己的數(shù)據(jù)倉(cāng)庫(kù),2004年是采用DELL的6650單節(jié)點(diǎn)、到2005年更換為IBM的P550再到2008年的12節(jié)點(diǎn)Rac環(huán)境。在這段時(shí)間的在IBM、EMC、Oracle身上的投入巨大(備注:對(duì)這段歷史有興趣可以去度娘:“【深度】阿里巴巴的技術(shù)發(fā)展路徑“)。大數(shù)據(jù)提供了一種人類認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段。大邑商業(yè)街?jǐn)?shù)據(jù)分析
比如日志、生產(chǎn)數(shù)據(jù)庫(kù)的數(shù)據(jù)、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)。從這用戶群體角度來(lái)說(shuō)這非互聯(lián)網(wǎng)、互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)用戶差異性是非常明顯,互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)中很多理論與名詞都是從傳統(tǒng)數(shù)據(jù)平臺(tái)傳遞過(guò)來(lái)的,本文將會(huì)分別闡述非互聯(lián)網(wǎng)、互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)區(qū)別。非互聯(lián)網(wǎng)時(shí)代自從數(shù)據(jù)倉(cāng)庫(kù)發(fā)展起來(lái)到現(xiàn)在,基本上可以分為五個(gè)時(shí)代、四種架構(gòu)約在1991年前的全企業(yè)集成1991年后的企業(yè)數(shù)據(jù)集成EDW時(shí)代1994年-1996年的數(shù)據(jù)集市1996-1997年左右的兩個(gè)架構(gòu)吵架1998年-2001年左右的合并年代數(shù)據(jù)倉(cāng)庫(kù)代架構(gòu)(開發(fā)時(shí)間2001-2002年)海爾集團(tuán)的一個(gè)BI項(xiàng)目,架構(gòu)的ETL使用的是微軟的數(shù)據(jù)抽取加工工具DTS,老人使用過(guò)微軟的DTS知道有哪些弊端,后便給出了幾個(gè)DTS的截圖。功能:進(jìn)銷存分析、閉環(huán)控制分析、工貿(mào)分析等硬件環(huán)境:業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù):DB2forWindows,SQLSERVER2000,ORACLE8I數(shù)據(jù)庫(kù)服務(wù)器:4*EXON,2G,4*80GSCSIOLAP服務(wù)器:2*PIV1GHZ,2G,2*40GSCSI開發(fā)環(huán)境:VISUALBASIC,ASP,SQLSERVER2000這是上海通用汽車的一個(gè)數(shù)據(jù)平臺(tái),別看復(fù)雜,嚴(yán)格意義上來(lái)講這是一套EDW的架構(gòu)、在EDS數(shù)據(jù)倉(cāng)庫(kù)中采用的是準(zhǔn)三范式的建模方式去構(gòu)建的、大約涉及到十幾種數(shù)據(jù)源,建模中按照某一條主線把數(shù)據(jù)都集成起來(lái)。大邑商業(yè)街?jǐn)?shù)據(jù)分析數(shù)據(jù)是符號(hào),是物理性的,信息是對(duì)數(shù)據(jù)進(jìn)行加工處理之后所得到的并對(duì)決策產(chǎn)生影響的數(shù)據(jù)。
從2000年開始接觸數(shù)據(jù)倉(cāng)庫(kù),大約08年開始進(jìn)入互聯(lián)網(wǎng)行業(yè)。很多從傳統(tǒng)企業(yè)數(shù)據(jù)平臺(tái)轉(zhuǎn)到互聯(lián)網(wǎng)同學(xué)是否有感覺(jué):非互聯(lián)網(wǎng)企業(yè)、互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)平臺(tái)所面向用戶群體是不同的。那么,這兩類的數(shù)據(jù)平臺(tái)的建設(shè)、使用用戶又有變化?數(shù)據(jù)模型設(shè)計(jì)又有什么不同呢?我們先從兩張圖來(lái)看用戶群體的區(qū)別。用戶群體之非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)用戶企業(yè)的boss、運(yùn)營(yíng)的需求主要是依賴于報(bào)表、商業(yè)智能團(tuán)隊(duì)的數(shù)據(jù)分析師去各種分析與挖掘探索;支撐這些人是ETL開發(fā)工程師、數(shù)據(jù)模型建模、數(shù)據(jù)架構(gòu)師、報(bào)表設(shè)計(jì)人員,同時(shí)這些角色又是數(shù)據(jù)平臺(tái)數(shù)據(jù)建設(shè)與使用方。數(shù)據(jù)平臺(tái)的技術(shù)框架與工具實(shí)現(xiàn)主要有技術(shù)架構(gòu)師、JAVA開發(fā)等。用戶面對(duì)是結(jié)構(gòu)化生產(chǎn)系統(tǒng)數(shù)據(jù)源。用戶群體之互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)用戶互聯(lián)網(wǎng)企業(yè)中員工年齡比非互聯(lián)網(wǎng)企業(yè)的要年輕、受教育程度、對(duì)計(jì)算機(jī)的焦慮程度明顯比傳統(tǒng)企業(yè)要低、還偶遇其它各方面的緣故,導(dǎo)致了數(shù)據(jù)平臺(tái)所面對(duì)用戶群體與非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)有所差異化;互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)的使用與建設(shè)方是來(lái)自各方面的人,數(shù)據(jù)平臺(tái)又是技術(shù)、數(shù)據(jù)產(chǎn)品推進(jìn)建設(shè)的。分析師參與數(shù)據(jù)平臺(tái)直接建設(shè)比重增加。原有的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)與模型架構(gòu)師的職能也從建設(shè)平臺(tái)轉(zhuǎn)為服務(wù)與咨詢。用戶面對(duì)是數(shù)據(jù)源多樣化。
維度表上又關(guān)聯(lián)了其他維度表。這種模型使用過(guò)程中會(huì)造成大量的join,維護(hù)成本高,性能方面也較差,所以一般不建議使用。尤其是基于hadoop體系構(gòu)建數(shù)倉(cāng),減少join就是減少shuffle,性能差距會(huì)很大。c.星座模型星座模型,是對(duì)星型模型的擴(kuò)展延伸,多張事實(shí)表共享維度表。數(shù)倉(cāng)模型建設(shè)后期,當(dāng)一個(gè)星型模型為一個(gè)實(shí)體,又有多個(gè)是實(shí)體,實(shí)體間又共用維表(這個(gè)是很常見的),就自然成了星座模型了。大部分維度建模都是星座模型。構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),必不可少的就是制定數(shù)倉(cāng)規(guī)范。包括命名規(guī)范,流程規(guī)范,設(shè)計(jì)規(guī)范,開發(fā)規(guī)范等。開發(fā)規(guī)范示例:開發(fā)語(yǔ)言,傳統(tǒng)數(shù)倉(cāng)一般SQL/Shell為主,互聯(lián)網(wǎng)數(shù)倉(cāng)又對(duì)Python、Java、Scala提出了新的要求。不管是傳統(tǒng)數(shù)倉(cāng),還是基于Hadoop生態(tài)的構(gòu)建的(hive、spark、flink)數(shù)倉(cāng),SQL雖然戲碼在下降,但依然是重頭戲。在數(shù)倉(cāng)中sql的基本操作既簡(jiǎn)單又實(shí)用,sql中比較復(fù)雜和重要的就是join,下面用一張圖清晰的解釋了各種join的邏輯SQL開發(fā)規(guī)范:在大數(shù)據(jù)生態(tài),不管哪種數(shù)據(jù)處理框架,總有都會(huì)孵化出強(qiáng)大SQL的支持。如HiveSQL,SparkSQL,BlinkSQL等。但本質(zhì)上還是SQL.數(shù)據(jù)治理大數(shù)據(jù)時(shí)代必不可少的一個(gè)重要環(huán)節(jié),可從元數(shù)據(jù)管理、業(yè)務(wù)實(shí)體數(shù)據(jù)。數(shù)據(jù)它是可識(shí)別的、抽象的符號(hào)。
DELETE對(duì)應(yīng)了我們常用的增刪改查四種操作。[]關(guān)系型數(shù)據(jù)庫(kù)對(duì)于結(jié)構(gòu)化數(shù)據(jù)的處理更合適,如學(xué)生成績(jī)、地址等,這樣的數(shù)據(jù)一般情況下需要使用結(jié)構(gòu)化的查詢,例如join,這樣的情況下,關(guān)系型數(shù)據(jù)庫(kù)就會(huì)比NoSQL數(shù)據(jù)庫(kù)性能更優(yōu),而且精確度更高。由于結(jié)構(gòu)化數(shù)據(jù)的規(guī)模不算太大,數(shù)據(jù)規(guī)模的增長(zhǎng)通常也是可預(yù)期的,所以針對(duì)結(jié)構(gòu)化數(shù)據(jù)使用關(guān)系型數(shù)據(jù)庫(kù)更好。關(guān)系型數(shù)據(jù)庫(kù)十分注意數(shù)據(jù)操作的事務(wù)性、一致性,如果對(duì)這方面的要求關(guān)系型數(shù)據(jù)庫(kù)無(wú)疑可以很好的滿足。[]數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)隨著近些年技術(shù)方向的不斷拓展,大量的NoSql數(shù)據(jù)庫(kù)如MongoDB、Redis、Memcache出于簡(jiǎn)化數(shù)據(jù)庫(kù)結(jié)構(gòu)、避免冗余、影響性能的表連接、摒棄復(fù)雜分布式的目的被設(shè)計(jì)。[]指的是分布式的、非關(guān)系型的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng)。NoSQL數(shù)據(jù)庫(kù)技術(shù)與CAP理論、一致性哈希算法有密切關(guān)系。所謂CAP理論。簡(jiǎn)單來(lái)說(shuō)就是一個(gè)分布式系統(tǒng)不可能滿足可用性、一致性與分區(qū)容錯(cuò)性這三個(gè)要求,一次性滿足兩種要求是該系統(tǒng)的上限。而一致性哈希算則指的是NoSQL數(shù)據(jù)庫(kù)在應(yīng)用過(guò)程中,為滿足工作需求而在通常情況下產(chǎn)生的一種數(shù)據(jù)算法,該算法能有效解決工作方面的諸多問(wèn)題但也存在弊端。大數(shù)據(jù)的價(jià)值體現(xiàn)在對(duì)大規(guī)模數(shù)據(jù)整合的智能處理方面,進(jìn)而在大規(guī)模的數(shù)據(jù)中獲取有用的信息。智庫(kù)
大數(shù)據(jù)經(jīng)濟(jì)即將進(jìn)入數(shù)據(jù)資本時(shí)代。大邑商業(yè)街?jǐn)?shù)據(jù)分析
大數(shù)據(jù)平臺(tái)該怎樣搭建呢?請(qǐng)看下面這幅圖,不管我之前在阿里還是在騰訊工作,還是到哪個(gè)企業(yè)工作,基本上我都是通過(guò)這幅圖進(jìn)行一些簡(jiǎn)單的適應(yīng)企業(yè)的調(diào)整,就可以完全搬過(guò)來(lái)使用了。針對(duì)上面這幅圖,有幾點(diǎn)跟大家講解說(shuō)明下:1)大數(shù)據(jù)平臺(tái)由三個(gè)平臺(tái)+一個(gè)服務(wù)組成:工具平臺(tái),大數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)平臺(tái)、大數(shù)據(jù)門戶,其中,工具平臺(tái)又包含運(yùn)維平臺(tái)和數(shù)據(jù)采集平臺(tái),大數(shù)據(jù)門戶又包含大數(shù)據(jù)分析平臺(tái)和大數(shù)據(jù)產(chǎn)品應(yīng)用平臺(tái)。2)講講每個(gè)平臺(tái)的作用。運(yùn)維平臺(tái)主要負(fù)責(zé)整個(gè)大數(shù)據(jù)平臺(tái)的任務(wù)調(diào)度、任務(wù)監(jiān)控、元數(shù)據(jù)管理、權(quán)限管理等,分別由調(diào)度系統(tǒng)、任務(wù)監(jiān)控中心、元數(shù)據(jù)管理系統(tǒng)、權(quán)限管理系統(tǒng)等系統(tǒng)組成。大數(shù)據(jù)采集平臺(tái)主要負(fù)責(zé)把數(shù)據(jù)采集到大數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)中。企業(yè)的大數(shù)據(jù)來(lái)源從大的角度來(lái)說(shuō),主要是從三個(gè)方面獲取數(shù)據(jù),業(yè)務(wù)系統(tǒng)、行為日志采集系統(tǒng)、外部數(shù)據(jù)來(lái)源。每一個(gè)方面來(lái)源又包含途徑,大家可以看上面的圖就了解。這里特別要強(qiáng)調(diào)的是外部數(shù)據(jù)來(lái)源,可以通過(guò)網(wǎng)絡(luò)爬蟲工具收集,通過(guò)和相應(yīng)的合作方進(jìn)行數(shù)據(jù)交換,通過(guò)從數(shù)據(jù)商那里采購(gòu)過(guò)來(lái),也有極少部分可以通過(guò)一些大公司的開放平臺(tái)接口獲取,比如阿里、騰訊等。大數(shù)據(jù)基礎(chǔ)平臺(tái),在傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)時(shí)代。大邑商業(yè)街?jǐn)?shù)據(jù)分析
成都達(dá)智咨詢股份有限公司是一家有著雄厚實(shí)力背景、信譽(yù)可靠、勵(lì)精圖治、展望未來(lái)、有夢(mèng)想有目標(biāo),有組織有體系的公司,堅(jiān)持于帶領(lǐng)員工在未來(lái)的道路上大放光明,攜手共畫藍(lán)圖,在四川省等地區(qū)的商務(wù)服務(wù)行業(yè)中積累了大批忠誠(chéng)的客戶粉絲源,也收獲了良好的用戶口碑,為公司的發(fā)展奠定的良好的行業(yè)基礎(chǔ),也希望未來(lái)公司能成為*****,努力為行業(yè)領(lǐng)域的發(fā)展奉獻(xiàn)出自己的一份力量,我們相信精益求精的工作態(tài)度和不斷的完善創(chuàng)新理念以及自強(qiáng)不息,斗志昂揚(yáng)的的企業(yè)精神將**成都達(dá)智咨詢供應(yīng)和您一起攜手步入輝煌,共創(chuàng)佳績(jī),一直以來(lái),公司貫徹執(zhí)行科學(xué)管理、創(chuàng)新發(fā)展、誠(chéng)實(shí)守信的方針,員工精誠(chéng)努力,協(xié)同奮取,以品質(zhì)、服務(wù)來(lái)贏得市場(chǎng),我們一直在路上!