乐播av一区二区三区_白嫩美女嘘嘘嘘看个够_综合精品影视国产_中国娇小与黑人巨大交导演_深夜福利gif动态图138期_av免费一区二区三区

課程

課程介紹

現今是大數據時代,為構建大數據平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark Hadoo系統基礎知識,概念及架構,Spark Hadoo實戰技巧,Spark、Hadoo經典案例等。

培訓對象

學員須具備:了解Linux系統及相關語言環境;
各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。

課程收益

幫助學員對Spark、Hadoo生態系統有一個清晰明了的認識;
理解Spark、Hadoo系統適用的場景;
掌握Spark、Hadoo等初中級應用開發技能;搭建穩定可靠的Spar、Hadook集群,滿足生產環境的標準。

知識概要

-- 大數據整體體解決方案架構介紹;  
-- Cloudera CDH安裝及集群介紹;  
-- Kafka的使用場景;  
-- HDFS HIVE IMPALA組件;  
-- HIVE、IMPALA區別:特性不同點,架構不同特點;  
-- Zookeeper組件;  
-- Azkaban、Yarn 調度資源協調;  
-- yarn架構組件(Resourcemanager、NodeManager、ApplicationMaster);  
-- yarn作業調度流程;  
-- 大數據安全管理;  
-- Hadoop安全機制Kerberos。

課程大綱

模塊

學習內容

第一天AM

大數據整體體解決方案、架構介紹、流處理、批處理

硬件選型,操作系統選型

開源軟件,Hadoop生態軟件

大數據組件(開發語言介紹)

Cloudera CDH安裝及集群介紹

Cloudera CDH 安裝

Hadoop集群介紹,Hadoop集群使用

HDFS分布式文件系統介紹

Kafka的使用場景

Kakfa的設計思想,Kafka文件存儲機制

持久化\負載均衡\Topic模型

消息傳輸一致性\分布式

Leader的選擇\集群分區

生產者消費者配置

案例:Kafka從flume獲取消息,實現傳輸

flume+sqoop介紹及開發實例

flume實現數據采集流程

flume agent配置,flume sink配置,flume 數據過濾

案例(1): 使用flume動態采集日志

Sqoop功能及軟件結構

從關系型數據庫導入數據到HDFS,從HDFS導入數據到關系型數據庫

第一天PM

案例: 從HDFS導入數據到MySQL數據庫

案例: 從MySQL數據庫導入數據到HDFS

Hadoop集群搭建、Spark集群部署及測試

Spark交互式命令行

如何使用Spark交互式命令行、理解Spark任務提交流程、執行流程

如何通過WebUI查看任何執行狀態

spark streaming運行原理spark 生態及運行原理

集群模式

Spark工作機制

RDD彈性分布式數據集,介紹RDD實現原理

理解什么是Action和Transformation,理解窄依賴與寬依賴

Spark核心概念之RDD

RDD函數

Spark核心概念之Shuffle

Spark Job執行原理分析、shuffle操作解析

Spark核心概念之Cache

Spark廣播變量與累加器、Cache與checkpoint問題

Spark多語言編程

第二天AM

Spark SQL組件、架構

DataFrame、SparkSQL運行原理

Spark SQL基礎應用

Spark Streaming運行原理、DStream

DStream 常用函數

Machine Learning On Spark簡介、常用數據結構

Spark 資源調優

案例:spark streaming數據處理

HDFS HIVE IMPALA組件

DHFS分布式存儲特性

DHFS訪問方式

HDFS優化方案

HIVE IMPALA查詢

共同點:如數據表元數據、ODBC/JDBC驅動、SQL語法、靈活的文件格式、存儲資源池等

HIVE、IMPALA區別:特性不同點,架構不同特點

第二天PM

Zookeeper組件

Zookeeper應用

Zookeeper注冊中心管理

Zookeeper配置與協調

實驗:HDFS存取數據、HIVE、IMPALA實現數據分析和報表

Azkaban、Yarn 調度資源協調

Azkaban的適用場景

Azkaban特點

Azkaban的架構

配置文件

啟動executor服務器

啟動web服務器

案例:多job工作流案例

yarn架構組件(Resourcemanager\NodeManager\ApplicationMaster)

yarn作業調度流程

綜合案例

Flume實現日志采集+kafka(消息隊列、緩存)+spark streaming(數據處理)+數據庫/DHFS

sqoop 導入關系型數據庫,實現hive impala查詢

大數據安全管理

Apache Sentry

Hadoop安全機制Kerberos

認證過程

無認證考試

開班信息

暫無開班信息

主站蜘蛛池模板: 乐平市| 襄樊市| 嘉鱼县| 盐城市| 德格县| 达拉特旗| 盈江县| 合肥市| 山西省| 长武县| 辰溪县| 泾阳县| 贞丰县| 屯门区| 天峻县| 阿图什市| 孝昌县| 昌乐县| 吉林市| 苍南县| 伊通| 获嘉县| 临潭县| 镇平县| 来宾市| 屯昌县| 灵川县| 福海县| 大城县| 黑龙江省| 江口县| 苍山县| 赣州市| 美姑县| 海伦市| 富平县| 洪江市| 溧水县| 郸城县| 安泽县| 成武县|