課程介紹
本課程對Spark的不同版本源碼徹底研究基礎之上提煉而成,涵蓋Spark所有內核精髓的剖析和大量的核心源碼解讀,帶您深入了解Spark內核機制和核心優化技巧,商業級別Spark項目的架構設計、實現和優化。并通過商業實戰案例真正了解Spark的規劃、部署、開發和管理技術。
培訓對象
云計算大數據從業者;
Hadoop使用者;
系統架構師、系統分析師、高級程序員、資深開發人員;
牽涉到大數據處理的數據中心運行、規劃、設計負責人;
政府機關,金融保險、移動和互聯網等大數據來源單位的負責人;
高校、科研院所涉及到大數據與分布式數據處理的項目負責人;
數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理及對數據倉庫感興趣的其他人員。
課程收益
了解Spark內核機制和核心優化技巧;
實現商業級別Spark想的架構設計;
通過案例了解Spark的規劃和部署。
知識概要
-- Spark生態介紹;
-- Spark安裝部署;
-- Spark運行架構和解析;
-- Sparkscala編程;
-- Spark編程模型和解析;
-- Spark 數據挖掘;
-- Spark Streaming原理和實踐;
-- Spark的優化;
-- Spark的數據源;
-- Spark Streaming應用及案例分析;
-- 典型項目案例實戰。
課程大綱
Spark生態介紹
Mapreduce、storm和spark模型的比較和使用場景介紹
Spark產生背景
Spark(內存計算框架)
SparkSteaming(流式計算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
DlinkDB介紹
SparkR介紹
Spark安裝部署
Spark安裝簡介
Spark的源碼編譯
Spark Standalone安裝
Spark應用程序部署工具spark-submit
Spark的高可用性部署
Spark運行架構和解析
Spark的運行架構
基本術語
Spark on Standalone運行過程
Spark on YARN 運行過程
Spark運行實例解析
Spark on Standalone實例解析
Spark on YARN實例解析
比較 Standalone與YARN模式下的優缺點
Spark scala編程
Scala基本語法與高階語法
Scala開發環境搭建
Scala開發Spark應用程序
使用java編程
使用python編程
Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
RDD的特點、操作、依賴關系
Spark應用程序的配置
Spark的架構
spark的容錯機制
數據的本地性
緩存策略介紹
寬依賴與窄依賴
Spark 數據挖掘
Mllib的介紹
graphX核心原理
table operator和graph operator區別
vertices、edges和triplets介紹
構建一個graph
SparkR原理
SparkR實戰
Spark Streaming原理和實踐
Spark Streaming與Strom的區別
Kafka的部署
Kafka與Spark Streaming的整合
Spark Streaming原理
Spark流式處理架構
DStream的特點
Dstream的操作和RDD的區別
帶狀態的transformation與無狀態transformation
Spark Streaming的優化
Spark Streaming實例
Streaming的容錯機制
streaming在yarn模式下的注意事項
對于需結合第三方存儲機制的與流式處理方案
文本實例
網絡數據處理
Kafka+Spark Streaming實現日志的實時分析案例
Spark的優化
序列化優化 — Kryo
Spark參數優化實戰
Spark 任務的均勻分布策略
Partition key傾斜的解決方案
Spark任務的監控
GC的優化
Spark Streaming吞吐量優化
Spark RDD使用內存的優化策略
Spark在使用中的感想分享
Spark的數據源
Spark與HDFS的整合
HDFS RDD原理和實現
Spark與Hbase的整合
Spark與Cassendera整合
Hbase RDD的分區讀取
Hbase RDD的原理和實現
Spark parallelism RDD的工作機制
Spark Streaming應用及案例分析
Spark Streaming產生動機
Spark Streaming程序設計
1)創建DStream
2)基于DStream進行流式處理
Spark Streaming容錯與性能優化
1)Spark Streaming容錯機制
2)如何對spark Streaming進行優化
Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統,內容包括項目背景,項目架構以及實施方法
典型項目案例實戰
基于spark日志分析
個性化推薦系統:帶你揭開其神秘面紗
在線投放引擎
揭開淘寶點擊推薦系統的神秘面紗
淘寶數據服務架構—實時計算平臺
認證過程
無認證考試
開班信息
暫無開班信息