課程內(nèi)容:
(一)基礎理論部分
1.數(shù)據(jù)分析基礎
(1)數(shù)據(jù)分析過程概述
(2)概率論與數(shù)據(jù)統(tǒng)計
(3)抽樣估計與假設檢驗
(4)方差分析與回歸分析
2.java基礎
(1)JDK的安裝配置,Java基本知識、數(shù)據(jù)類型以及基本語法
(2)Eclipse的編程入門
(3)面向?qū)ο蟮乃枷牖窘榻B,類、對象、接口、封裝、繼承
(4)Java的集合類——數(shù)組、Set、List、Map、Queue
(5)異常處理——Checked Exception、Unchecked Exception,如何通過異常信息捕獲錯誤
(6)Java的垃圾回收機制以及多線程簡介
(7)Java的文件操作、包的概念及如何打包
(8)數(shù)據(jù)庫基礎知識及SQL語法
(9)基于servlet技術(shù)的B/S應用開發(fā)及代碼實現(xiàn)案例詳解
3.linux基礎
(1)linux的介紹
(2)Linux入門:選擇合適的Linux發(fā)行版、如何安裝Linux
(3)linux操作系統(tǒng)命令及使用命令編輯文件
(4)Linux下SSH命令使用方法詳解
(二)hadoop理論課程
1.hadoop安裝配置及運行機制解析
本節(jié)是大數(shù)據(jù)分析的環(huán)境搭建課程,屬于操作型課程,主要講述如何在linux單機上面安裝hadoop的偽分布模式,在linux集群上面安裝hadoop集群。對于不熟悉linux的同學,課程中會簡單的講解常用的linux命令。這兩種是必須要掌握的。通過講師手把手、面對面的交流,教會學員自己搭建一個真實的hadoop環(huán)境,在此環(huán)境下運行hadoop自帶的小程序。主要內(nèi)容包括:
(1)從google的三篇大數(shù)據(jù)論文說起
(2)Hadoop 概念、版本、歷史
(3)Hadoop 偽分布及集群的詳細安裝步驟
(4)三個hadoop自帶的小例子帶你進入hadoop的世界
(5)使用如何通過命令行和瀏覽器觀察hadoop的運行過程
(6)介紹hadoop的安全模式
(7)如何查看日志信息
2.Hadoop分布式文件系統(tǒng)深入剖析
本節(jié)將對hadoop架構(gòu)的分布式文件系統(tǒng)HADFS進行深入的分析,hdfs是所有hadoop系統(tǒng)的基礎,它是hadoop的核心內(nèi)容之一。主要的內(nèi)容包括:
(1)深度分析google的Google GFS 文件系統(tǒng),一個面向大規(guī)模數(shù)據(jù)密集型應用的、可伸縮的分布式文件系統(tǒng)。
(2)HDFS的概念及設計
(3)Hdfs體系結(jié)構(gòu)及運行機制詳述
(4)NameNode、DataNode、SecondaryNameNode的作用及運行機制
(5)block 的劃分原理、存儲方式和配置文件
(6)hdfs的備份機制和文件管理機制
(7)HDFS文件系統(tǒng)的常用命令
(8)使用命令及JAVA語句操作hdfs中的文件
(9)rpc機制簡介及HADFS中的rpc通信
3.MapReduce理論及實戰(zhàn)
(1)深度分析google的MapReduce編程模型
(2)hadoop中的MapReduce工作原理
(3)通過演示單詞計數(shù)程序,詳細講述mapreduce運行過程中類的調(diào)用過程
(4)詳細講述如何覆蓋 Mapper 功能、如何覆蓋 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分發(fā)和task執(zhí)行
(6)MapReduce中block 的調(diào)度及作業(yè)分配機制
(7)講解hadoop的計數(shù)器、排序、分組等算法
(8)通過一個小的應用,詳細介紹如何在eclipse中編寫MapReduce程序,打包成可在hadoop上運行的jar,并在集群上運行
(9)詳細講解運行結(jié)果的分析
4.hadoop生態(tài)環(huán)境介紹
(1)Hbase簡介,包括HBase的基礎概念 、數(shù)據(jù)模型、存儲模型及hbase的偽分布和集群的安裝
(2)ZooKeeper簡介,包括ZooKeeper的安裝、運行及示例
(3)Pig簡介,包括Pig的安裝、運行及示例
(4)Hive簡介,包括Hive的安裝、運行及示例
(5)sqoop簡介,包括Sqoop介紹、命令、原理及流程
(6)nosql簡介,包括nosql的概念、種類及發(fā)展趨勢
(三)大數(shù)據(jù)分析思想、工具及實戰(zhàn)案例
1.大數(shù)據(jù)分析思想介紹
(1)大數(shù)據(jù)分析的前世今生
(2)幾種典型的大數(shù)據(jù)架構(gòu)分析
(3)大數(shù)據(jù)分析過程描述
(4)大數(shù)據(jù)時代的數(shù)據(jù)分析思想的變革
2.Mahout,大數(shù)據(jù)分析的急先鋒
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一個開源項目,它通過和hadoop配合,實現(xiàn)在推薦、分類等領域中的大數(shù)據(jù)分析。
(1)Mahout的下載、安裝與部署
(2)UCI經(jīng)典數(shù)據(jù)集介紹
(3)使用經(jīng)典數(shù)據(jù)集測試和運行Mahout實現(xiàn)的算法
(4)主要算法包括:kmeans算法、canopy算法、dirichlet 算法和meanshift算法
3.RHadoop,R語言從小數(shù)據(jù)分析到大數(shù)據(jù)分析的化麗轉(zhuǎn)身
(1)R語言簡介
(2)安裝并運行RHadoop
(3)RHadoop的邏輯結(jié)構(gòu)
(4)Rhadoop實戰(zhàn)案例—word cout
(5)與hadoop word count 函數(shù)比較分析
4.大數(shù)據(jù)分析項目案例 |