1樓:愛可生雲資料庫
一直想整理一下這塊內容,既然是漫談,就想起什麼說什麼吧。我一直是在網際網路行業,就以網際網路行業來說。
先大概列一下網際網路行業資料倉儲、資料平臺的用途:
整合公司所有業務資料,建立統一的資料中心;
提供各種報表,有給高層的,有給各個業務的;
為**運營提供運營上的資料支援,就是通過資料,讓運營及時瞭解**和產品的運營效果;
為各個業務提供線上或線下的資料支援,成為公司統一的資料交換與提供平臺;
分析使用者行為資料,通過資料探勘來降低投入成本,提高投入效果;比如廣告定向精準投放、使用者個性化推薦等;
開發資料產品,直接或間接為公司盈利;
建設開放資料平臺,開放公司資料;
上面列出的內容看上去和傳統行業資料倉儲用途差不多,並且都要求資料倉儲/資料平臺有很好的穩定性、可靠性;但在網際網路行業,除了資料量大之外,越來越多的業務要求時效性,甚至很多是要求實時的 ,另外,網際網路行業的業務變化非常快,不可能像傳統行業一樣,可以使用自頂向下的方法建立資料倉儲,一勞永逸,它要求新的業務很快能融入資料倉儲中來,老的下線的業務,能很方便的從現有的資料倉儲中下線;
其實,網際網路行業的資料倉儲就是所謂的敏捷資料倉儲,不但要求能快速的響應資料,也要求能快速的響應業務;
建設敏捷資料倉儲,除了對架構技術上的要求之外,還有一個很重要的方面,就是資料建模,如果一上來就想著建立一套能相容所有資料和業務的資料模型,那就又回到傳統資料倉儲的建設上了,很難滿足對業務變化的快速響應。應對這種情況,一般是先將核心的持久化的業務進行深度建模(比如:基於**日誌建立的**統計分析模型和使用者瀏覽軌跡模型;基於公司核心使用者資料建立的使用者模型),其它的業務一般都採用維度+寬表的方式來建立資料模型。
這塊是後話。
整體架構下面的圖是我們目前使用的資料平臺架構圖,其實大多公司應該都差不多:
請點選輸入**描述
邏輯上,一般都有資料採集層、資料儲存與分析層、資料共享層、資料應用層。可能叫法有所不同,本質上的角色都大同小異。
我們從下往上看:
資料採集資料採集層的任務就是把資料從各種資料來源中採集和儲存到資料儲存上,期間有可能會做一些簡單的清洗。
資料來源的種類比較多:
作為網際網路行業,**日誌佔的份額最大,**日誌儲存在多臺**日誌伺服器上,
一般是在每臺**日誌伺服器上部署flume agent,實時的收集**日誌並儲存到hdfs上;
業務資料庫:
當然,flume通過配置與開發,也可以實時的從資料庫中同步資料到hdfs。
來自於ftp/http的資料來源:
有可能一些合作伙伴提供的資料,需要通過ftp/http等定時獲取,datax也可以滿足該需求;
其他資料來源:
比如一些手工錄入的資料,只需要提供一個介面或小程式,即可完成;
資料儲存與分析毋庸置疑,hdfs是大資料環境下資料倉儲/資料平臺最完美的資料儲存解決方案。
離線資料分析與計算,也就是對實時性要求不高的部分,在我看來,hive還是首當其衝的選擇,豐富的資料型別、內建函式;壓縮比非常高的orc檔案儲存格式;非常方便的sql支援,使得hive在基於結構化資料上的統計分析遠遠比mapreduce要高效的多,一句sql可以完成的需求,開發mr可能需要上百行**;
實時計算部分,後面單獨說。
資料共享這裡的資料共享,其實指的是前面資料分析與計算後的結果存放的地方,其實就是關係型資料庫和nosql資料庫;
前面使用hive、mr、spark、sparksql分析和計算的結果,還是在hdfs上,但大多業務和應用不可能直接從hdfs上獲取資料,那麼就需要一個資料共享的地方,使得各業務和產品能方便的獲取資料; 和資料採集層到hdfs剛好相反,這裡需要一個從hdfs將資料同步至其他目標資料來源的工具,同樣,datax也可以滿足。
另外,一些實時計算的結果資料可能由實時計算模組直接寫入資料共享。
資料應用
業務產品
業務產品所使用的資料,已經存在於資料共享層,他們直接從資料共享層訪問即可;
報表同業務產品,報表所使用的資料,一般也是已經統計彙總好的,存放於資料共享層;
即席查詢
即席查詢的使用者有很多,有可能是資料開發人員、**和產品運營人員、資料分析人員、甚至是部門老大,他們都有即席查詢資料的需求;
這種即席查詢通常是現有的報表和資料共享層的資料並不能滿足他們的需求,需要從資料儲存層直接查詢。
即席查詢一般是通過sql完成,最大的難度在於響應速度上,使用hive有點慢,目前我的解決方案是sparksql,它的響應速度較hive快很多,而且能很好的與hive相容。
當然,你也可以使用impala,如果不在乎平臺中再多一個框架的話。
olap
目前,很多的olap工具不能很好的支援從hdfs上直接獲取資料,都是通過將需要的資料同步到關係型資料庫中做olap,但如果資料量巨大的話,關係型資料庫顯然不行;
這時候,需要做相應的開發,從hdfs或者hbase中獲取資料,完成olap的功能;
比如:根據使用者在介面上選擇的不定的維度和指標,通過開發介面,從hbase中獲取資料來展示。
其它資料介面
這種介面有通用的,有定製的。比如:一個從redis中獲取使用者屬性的介面是通用的,所有的業務都可以呼叫這個介面來獲取使用者屬性。
實時計算現在業務對資料倉儲實時性的需求越來越多,比如:實時的瞭解**的整體流量;實時的獲取一個廣告的**和點選;在海量資料下,依靠傳統資料庫和傳統實現方法基本完成不了,需要的是一種分散式的、高吞吐量的、延時低的、高可靠的實時計算框架;storm在這塊是比較成熟了,但我選擇spark streaming,原因很簡單,不想多引入一個框架到平臺中,另外,spark streaming比storm延時性高那麼一點點,那對於我們的需要可以忽略。
我們目前使用spark streaming實現了實時的**流量統計、實時的廣告效果統計兩塊功能。
做法也很簡單,由flume在前端日誌伺服器上收集**日誌和廣告日誌,實時的傳送給spark streaming,由spark streaming完成統計,將資料儲存至redis,業務通過訪問redis實時獲取。
任務排程與監控在資料倉儲/資料平臺中,有各種各樣非常多的程式和任務,比如:資料採集任務、資料同步任務、資料分析任務等;
這些任務除了定時排程,還存在非常複雜的任務依賴關係,比如:資料分析任務必須等相應的資料採集任務完成後才能開始;資料同步任務需要等資料分析任務完成後才能開始; 這就需要一個非常完善的任務排程與監控系統,它作為資料倉儲/資料平臺的中樞,負責排程和監控所有任務的分配與執行。
前面有寫過文章,《大資料平臺中的任務排程與監控》,這裡不再累贅。
2樓:我是一個流浪豬
資料中心是企業的業務系統與資料資源進行集中、整合、共享、分析的場地、工具、流程等的有機組合。從應用層面看,包括業務系統、基於資料倉儲的分析系統;從資料層面看,包括操作型資料和分析型資料以及資料與資料的整合/整合流程;從基礎設施層面看,包括伺服器、網路、儲存和整體it 執行維護服務。
資料中心的建設目標是:1、全面建成公司總部和網省公司兩級資料中心,逐步實現資料及業務系統的集中; 2、建立企業資料倉儲,提供豐富的資料分析展現功能;3、實現資料的唯一性與共享性;4、建立統一的安全體系,保證資料及業務系統的訪問安全;5、結合資料中心建設,完善資料交換體系,實現兩級資料中心間的級聯;6、實現網路、硬體、儲存裝置、資料、業務系統和管理流程、it採購流程、資料交換流程的統一集中;7、統一的資訊管理模式及統一的技術架構,能夠迅速地實施部署各種it系統,提升管理能力。
資料中心採用總部和網省兩級進行部署,兩級資料中心通過資料交換平臺進行資料的級聯。
資料中心邏輯架構包含:應用架構、資料架構、執行架構、基礎架構(物理架構)、安全架構、運維架構。
應用架構:應用架構是指資料中心所支撐的所有應用系統部署和它們之間的關係。
資料架構:資料架構是指每個應用系統模組的資料構成、相互關係和儲存方式,還包括資料標準和資料的管控手段等。
執行架構:執行架構是指資料倉儲在執行時態的關鍵功能及服務流程,主要包括etl(資料的獲取與整合)架構和資料訪問架構。
基礎架構(物理架構):為上層的應用系統提供硬體支撐的平臺(主要包括伺服器、網路、儲存等硬體設施)。
安全架構:安全架構覆蓋資料中心各個部分,包括運維、應用、資料、基礎設施等。它是指提供系統軟硬體方面整體安全性的所有服務和技術工具的總和。
運維架構:運維架構面向企業的資訊系統管理人員,為整個資訊系統搭建一個統一的管理平臺,並提供相關的管理維護工具,如系統管理平臺、資料備份工具和相關的管理流程。
資料的獲取與整合也叫etl(extract,transact,load),是在確定好資料集市模型並對資料來源進行分析後,按照分析結果,從應用系統中抽取出與主題相關的原始業務資料,按照資料中心各儲存部件的要求,進行資料交換和裝載。資料的獲取與整合主要分為資料抽取、資料轉換、資料裝載三個步驟。 etl 的好壞,直接影響到資料集市中的資料質量。
資料倉儲區是專門針對企業資料整合和資料歷史儲存需求而組織的集中化、一體化的資料儲存區域。資料倉儲由覆蓋多個主題域的企業資訊組成,這些資訊主要是低階別、細粒度資料,同時可以根據資料分析需求建立一定粒度的彙總資料。它們按照一定頻率定期更新,主要用於為資料集市提供整合後的、高質量的資料。
資料倉儲側重於資料的儲存和整合。
資料集市是一組特定的、針對某個主題域、部門或使用者分類的資料集合。這些資料需要針對使用者的快速訪問和資料輸出進行優化,優化的方式可以通過對資料結構進行彙總和索引實現。藉助資料集市可以保障資料倉儲的高可用性、可擴充套件性和高效能
機房和雲端計算資料中心一樣嗎?有什麼不同
小鳥雲伺服器託管,能夠有效降低維護費用和機房裝置投入 線路租用等高額費用。小鳥雲t3級別資料中心,具備完善的機房設施,自建光纖網路,獨有的核心骨幹網路有效保證高品質的網路環境和豐富的頻寬資源,同時接入統一的系統管理平臺,資源調配更輕鬆,使系統安全 可靠 穩定 高效執行。idc機房和雲端計算資料中心有...
氣動螺絲刀的工作原理和結構是什麼
一,工作原理 氣動起子是用壓縮空氣作為動力來執行。有的裝有調節和限制扭矩的裝置,稱為全自動可調節扭力式。簡稱 全自動氣動起子 有的無以上調節裝置,只是用開關旋鈕調節進氣量的大小以控制轉速或扭力的大小。稱為半自動不可調節扭力式。簡稱 半自動氣動起子 主要用於各種裝配作業。有氣動馬達,捶打式裝置或減速裝...
電磁溢流閥的工作原理和結構是什麼
工作原理 62616964757a686964616fe78988e69d8331333366306530 電磁溢流閥工作時,是利用彈簧的壓力來調節 控制液壓油的壓力大小。當液壓油的壓力小於工作需要壓力時,閥芯被彈簧壓在液壓油的流入口,液壓油的壓力越大,閥芯被液壓油頂起得越髙。結構組成 電磁溢流閥主...