
曙海教學優(yōu)勢
該課程,秉承21年教學品質,以項目實現(xiàn)為導向,面向企事業(yè)單位項目實際需求,講師將會與您分享設計的全流程以及工具的綜合使用技巧與經驗。課程可定制,線下/線上/上門皆可,全國免費報名熱線:4008699035。
曙海培訓的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關系,合作企業(yè)三十多萬家。曙海的課程得到業(yè)內企事業(yè)單位廣泛贊譽。
????Hadoop作為開源的云計算平臺,為大數(shù)據處理提供了一整套解決方案,應用非常廣泛。Hadoop作為一個平臺框架,包括了如何存儲海量數(shù)據,如何處理海量數(shù)據,以及相應的數(shù)據庫、數(shù)據倉庫、數(shù)據流處理、數(shù)據分析和挖掘算法庫,等等。本課程主要介紹Hadoop的思想、原理,以及重要技術等相關知識。
深刻理解Hadoop原理與調優(yōu) 深刻理解Hive原理掌握程序開發(fā) 深刻理解Hbase 掌握程序開發(fā) 深刻理解Hadoop 日常運維管理
?
|
課程主題? |
課程內容? |
|
Hadoop和傳統(tǒng)數(shù)據庫技術優(yōu)劣勢對比? |
???Hadoop/Hive 對比 Oracle 在構建數(shù)據倉庫上的優(yōu)劣勢? ???Hadoop 如何和傳統(tǒng)IT系統(tǒng)配合完成原來不可能的任務? ???Hadoop版本講解及Hadoop新舊版本使用對比? |
|
案例及實驗? |
|
|
???Apache社區(qū)版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本? |
|
|
Hadoop的來源和動機? |
???傳統(tǒng)大規(guī)模系統(tǒng)存在的問題 ???Hadoop概述 ???Hadoop分布式文件系統(tǒng) ???MapReduce工作原理 ???Hadoop集群剖析 ???Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求? ???Hadoop的行業(yè)應用案例分析? ???Hadoop在云計算和大數(shù)據的位置和關系? ???非結構化數(shù)據與半結構化數(shù)據在大數(shù)據中的應用? |
|
案例及實驗? |
|
|
???某銀行數(shù)據統(tǒng)一處理平臺,通過Hadoop進行系統(tǒng)優(yōu)化? ???某電信運營商用戶行為分析系統(tǒng)? ???某電力行業(yè)數(shù)據采集大數(shù)據分析案例? ???聯(lián)通使用Hadoop/Hbase解決3G詳單查詢問題。? |
|
|
Hadoop生態(tài)系統(tǒng)介紹和演示? |
???Hadoop HDFS 和 MapReduce ???Hadoop數(shù)據庫之HBase ●?HBase架構及如何應用與編程開發(fā)相結合 ???Hadoop數(shù)據倉庫之Hive? ●?Hive架構及如何應用與編程開發(fā)相結合 ???Hadoop數(shù)據處理腳本Pig ●?Pig架構及如何應用與編程開發(fā)相結合 ???Hadoop數(shù)據接口Sqoop和Flume ●?Sqoop和Flume架構及如何應用與編程開發(fā)相結合 ???Hadoop工作流引擎 Oozie? ●?Oozie架構及如何應用與編程開發(fā)相結合 ???Hadoop生態(tài)系統(tǒng)各模塊應用與編程開發(fā)相結合 |
|
案例及實驗? |
|
|
???某銀行如何使用Hadoop統(tǒng)一數(shù)據平臺? ???手機上網日志分析? ???移動GPRS上網日志查詢系統(tǒng)? ???國家電網城區(qū)用電量分析? ???聯(lián)通不良信息檢測系統(tǒng)? ???電廠海量數(shù)據監(jiān)控分析系統(tǒng)? ???某銀行數(shù)據統(tǒng)一處理平臺? ???海量指紋比對系統(tǒng)? |
|
|
Hadoop集群調優(yōu)? |
l?選擇適合hadoop的硬件配置 l?Hadoop配置項優(yōu)化 ??Hadoop配置優(yōu)化 - core-site.xml ??Hadoop配置優(yōu)化 - hdfs-site.xml ??Hadoop配置優(yōu)化 - mapred-site.xml ??Hadoop配置優(yōu)化 - 機架感知 l?網絡帶寬參數(shù)調優(yōu) ??系統(tǒng)參數(shù)調優(yōu) ??配置文件管理 ??嚴格控制root權限 ??Java的GC模式 l?選擇正確的JDK l?hadoop作業(yè)調優(yōu) ??Map side tuning設置 ??Map side設置 l?Linux操作系統(tǒng)優(yōu)化 l?其他配置和參數(shù)調優(yōu) |
|
案例及實驗? |
|
|
l?Hadoop硬件優(yōu)化 l?不是所有的硬件都合適拿來直接使用 ??安裝調優(yōu)的第一步服務器硬件的選型的竅門 ??如何選擇適合業(yè)務使用的CPU ??內存越大越好嗎?設置合理的的內存配置 ??連接網絡的選擇和優(yōu)化 ??高速硬盤的選擇注意事項 l?硬盤為什么不做raid? l?設置網絡的注意事項 l?中間結果壓縮對磁盤和網絡的優(yōu)化 l?機架感知,網絡和磁盤IO優(yōu)化作用,確定存儲的具體位置, l?內存參數(shù),map/reduce槽位數(shù)的計算方法。 l?對磁盤和網絡的優(yōu)化 l?Java工具使用,jstack使用 l?Sun和open之間的區(qū)別,JIT編譯器的使用 l?inux系統(tǒng)參數(shù)調優(yōu) ??Linux監(jiān)控系統(tǒng)的使用 ??cacti, ??ganglia ??常用的linux排錯工具lsof,strace,iostat,vmstat,netstat... l?常見異?,F(xiàn)象級處理方法? ??網卡流量導致連接失敗 ??權限錯誤 ??主機名IP轉換錯誤 ??NN與DN namespaceID不一致 ??磁盤滿導致報錯 ??Jave heap size OOM |
|
|
Hadoop 2.0? |
l?Hadoop 1.0 存在的問題及現(xiàn)有的解決方案? l?Hadoop 2.0 各廠商版本對比? l?Apahce and CDH4? l?Hadoop 2.0 項目結構解析? l?Hadoop 2.0 環(huán)境搭建? l?Yarn 與MapReduce的不同? l?Yarn 原理與架構? l?Apache YARN基本框架? l?Apache YARN工作流程? l?Apache YARN設計細節(jié)? l?MapReduce與YARN結合? l?如何與Yarn來結合? l?yarn的優(yōu)化、資源管理、優(yōu)先級管理。 l?Hadoop 生態(tài)系統(tǒng)解析? l?Hadoop 小圖檔方案? l?Hadoop 2.0 HDFS 運維管理? n?丟失block的情況分析? 常見的故障排查? |
|
HDFS高級程序實戰(zhàn)演練? |
???HDFS實戰(zhàn)-命令行等使用? ???HDFS命令行工具 ???啟動、停止HDFS服務 ???如何查看HDFS日志 ???如何查看HDFS Web控制臺 ???HDFS參數(shù)配置 |
|
案例及實驗? |
|
|
???HDFS實戰(zhàn)-Java API使用? ???Eclipse 開發(fā)環(huán)境介紹? ???HDFS 開發(fā)基本步驟? ???HDFS Java API詳解? ???Configuration? ???Path? ???FileSystem? ???Stream、IOUtils? |
|
|
Hadoop HDFS HA方案介紹? |
???Hadoop 1.0 系 HA的一些辦法? ???Hadoop 2.0 介紹? |
|
MapReduce高級程序實戰(zhàn)演練? |
???使用 Hadoop MapReduce Streaming 編程? ???MapReduce流程 ???剖析一個MapReduce程序 ???基本MapReduceAPI 概念 ???驅動代碼 Mapper、Reducer? ???Hadoop流 ???API 使用Eclipse進行快速開發(fā) ???新MapReduce API ???MapReduce的優(yōu)化? ???MapReduce的任務調度? ???MapReduce編程實戰(zhàn) ???滿足解決實際數(shù)據分析問題的高級Hadoop API? |
|
案例及實驗? |
|
|
???Hadoop Streaming 和 Java MapReduce Api 差異。? ???MapReduce 實現(xiàn)數(shù)據庫功能? ???利用Combiners來減少中間數(shù)據? ???編寫Partitioner來優(yōu)化負載平衡? ???直接訪問Hadoop分布式文件系統(tǒng)(HDFS)? ???Hadoop的join操作? ???輔助排序在Reducer方的合并? ???定制Writables和WritableComparables ???使用SequenceFiles和Avro文件保存二進制數(shù)據 ???創(chuàng)建InputFormats OutputFormats? ???Hadoop的二次排序? ???Hadoop的海量日志分析? ???在Map方的合并 |
|
|
Hadoop SQL 接口Hive? |
???Hive基礎 ???Hive的作用和原理說明? ???Hadoop倉庫和傳統(tǒng)數(shù)據倉庫的協(xié)作關系;Hive與傳統(tǒng)數(shù)據庫的對接使用? ???Hadoop/Hive倉庫數(shù)據數(shù)據流? ???Hive Cli 的基本用法? ???HQL基本語法? ???自行編寫數(shù)據庫與Hadoop相互ETL工具的思路? |
|
案例及實驗? |
|
|
???使用JDBC 連接Hive進行查詢和分析? ???使用正則表達式加載數(shù)據? ???HQL高級語法? ???編寫UDF函數(shù)? ???編寫UDAF自定義函數(shù)? ???執(zhí)行嵌套sql的優(yōu)化? |
|
|
Hadoop數(shù)據庫之HBase及HBase優(yōu)化? |
???hbase概念與架構 ???hbase核心知識點? ???hbase安裝、部署? ???HBase配置優(yōu)化綜述? ???表設計優(yōu)化相關參數(shù)? ???監(jiān)控工具使用方法及注意事項? ???常見異常現(xiàn)象級處理方法? |
|
案例及實驗? |
|
|
???hot region造成讀請求瓶頸? ???region預劃分? ???Memstore合并設置的時機選擇? ???合并storefile策略設置技巧? ???Memstore flush設置時機選擇? ???Hbase-env.sh、Single、multi-thread、CMS使用及參數(shù)調整? ???GC回收垃圾時機、GC日志打印設置? ???GC階段,region無法提供服務如何如何處理? ???Split時機控制(增大、disable)方法? ???CF數(shù)量多少對讀寫性能的影響? ???自動關閉flush的目的? |
?
?