大數(shù)據(jù)平臺建設(shè)培訓(xùn)大綱
大數(shù)據(jù)發(fā)展歷程及主流技術(shù)棧構(gòu)成
1. 為什么會出現(xiàn)大數(shù)據(jù),大數(shù)據(jù)的演進過程是怎么樣的
2. 商業(yè)智能BI、數(shù)據(jù)倉庫DW、數(shù)據(jù)湖DL、數(shù)據(jù)中臺的原理、區(qū)別和核心職能
3. 支撐大數(shù)據(jù)平臺的主流框架技術(shù)介紹:Spark、Flink、HDFS、HBase、Hive、Kylin、Presto、Kafka、ClickHouse 等
整體大數(shù)據(jù)平臺核心板塊構(gòu)成及架構(gòu)設(shè)計
1. 整體大數(shù)據(jù)處理鏈路介紹及每個環(huán)節(jié)的技術(shù)選型方案
2. 五大核心板塊介紹:數(shù)據(jù)接入處理(收集、接收、解析、標準化 等)、數(shù)據(jù)治理與管理(安全脫敏、ID-Mapping血緣圖譜、主體式數(shù)據(jù)倉庫 等)、數(shù)據(jù)消費提。ㄅ、實時、T+1、API 等)、數(shù)據(jù)鏈路跟蹤(數(shù)據(jù)回溯、中間狀態(tài)追蹤、數(shù)據(jù)服務(wù)保障 等)、數(shù)據(jù)工具支撐(可視化建模、任務(wù)調(diào)度、數(shù)據(jù)搬遷 等)
3. 整體大數(shù)據(jù)架構(gòu)設(shè)計介紹:技術(shù)架構(gòu)、存儲與計算架構(gòu)、部署架構(gòu)、容災(zāi)架構(gòu),實時流計算,離線存儲的核心本質(zhì),如何監(jiān)測實時流處理過程中的問題回溯
4. HDFS、HBase、Hive、Kylin、Spark Streaming/SQL、Flink的底層核心原理及適用業(yè)務(wù)場景(結(jié)合實際工程代碼方式講解)
大型分布式數(shù)據(jù)倉庫建模思路與實踐
1. 軟件系統(tǒng)建模方法:(結(jié)構(gòu)型)類圖、對象圖、構(gòu)件圖、部署圖、包圖;(行為型)動圖、狀態(tài)機圖、順序圖、通信圖、用例圖、時間圖
2. 常用數(shù)據(jù)建模方法:實體建模法、維度建模法、范式建模法(結(jié)合案例講解)
3. 基于中臺思想,數(shù)據(jù)分層的主體思路與重要性介紹
4. 基于分布式數(shù)據(jù)倉庫,針對數(shù)據(jù)的采集、處理、建模的佳實踐介紹
5. 數(shù)據(jù)倉庫建設(shè)方法論,星型模型(非關(guān)系型DB存儲,以空間換時間)和雪花模型(關(guān)系型DB存儲,以時間還空間)兩種建模思想的核心差異和適用場景
數(shù)據(jù)建模與處理行業(yè)案例分析(思路、方法、技術(shù)選型)
1. 基于事件驅(qū)動U-E建模,結(jié)合業(yè)務(wù)分拆數(shù)據(jù)處理粒度、維度、范圍、邊界,如:主題式抽取,數(shù)據(jù)標簽化定義 等
2. 結(jié)合業(yè)務(wù)講解E-R模型構(gòu)建,動態(tài)、靜態(tài)屬性識別,數(shù)據(jù)客觀事實關(guān)系識別與定義
3. 基于車聯(lián)網(wǎng)領(lǐng)域秒級、毫秒級數(shù)據(jù)上報如何接收與處理
4. 如何解決數(shù)據(jù)擠壓問題,有哪些成熟的方法和技術(shù)手段
5. 數(shù)據(jù)接入云端后,如何防丟失,如何做削峰處理,如何保障后續(xù)服務(wù)健康運行
6. 案例分析:數(shù)據(jù)接收、解析、建模、存儲、計算、提取全流程中行業(yè) |