123,123

課程簡(jiǎn)介

本文將介紹光環(huán)國(guó)際大數(shù)據(jù)開(kāi)發(fā)培訓(xùn)課程業(yè)內(nèi)獨(dú)有實(shí)戰(zhàn)課程模式、教你高薪、好用、不過(guò)時(shí)的技術(shù)。

前置視頻基礎(chǔ)階段
1-大數(shù)據(jù)學(xué)習(xí)中的 Linux基礎(chǔ)	【課程內(nèi)容】Linux安裝使用、Linux文件系統(tǒng)、Linux用戶(hù)和進(jìn)程管理、 Shell和網(wǎng)絡(luò)基礎(chǔ)、git工具、 Linux小測(cè)驗(yàn)。【課程目標(biāo)】掌握Linux使用方式和常見(jiàn)命令；熟悉Linux環(huán)境，包括shell和git使用
2-大數(shù)據(jù)學(xué)習(xí)中的 java基礎(chǔ)	【課程內(nèi)容】Java簡(jiǎn)介，包括跨平臺(tái)、虛擬機(jī)、JDK等、 Java編程基礎(chǔ)，函數(shù)、循環(huán)語(yǔ)句、變量等、Java高級(jí)特性，類(lèi)、繼承、多態(tài)等、Java數(shù)據(jù)集合，包括List、Map、Set等介紹、自動(dòng)化項(xiàng)目管理工具M(jìn)aven、 Java小測(cè)驗(yàn)。【課程目標(biāo)】掌握J(rèn)ava基本語(yǔ)法，能夠使用Java編寫(xiě)包含類(lèi)、函數(shù)、循環(huán)等語(yǔ)言的代碼；熟悉Java編程環(huán)境，包括集成開(kāi)發(fā)工具eclipse/IDEA，項(xiàng)目管理工具等
3-Hadoop課程延展	【課程內(nèi)容】分布式文件儲(chǔ)存系統(tǒng)HDFS進(jìn)階，分布式數(shù)據(jù)庫(kù)HBase進(jìn)階，分布式計(jì)算引擎MapReduce基礎(chǔ)與進(jìn)階，Zookeeper與YARN 【課程目標(biāo)】深度學(xué)習(xí)hadoop系統(tǒng)，包括高級(jí)特性，優(yōu)化等；增加hadoop大數(shù)據(jù)技術(shù)學(xué)習(xí)廣度，拓展眼界
4-Spark課程延展	【課程內(nèi)容】分布式計(jì)算框架Spark Core和Spark SQL進(jìn)階和調(diào)優(yōu)，函數(shù)式編程語(yǔ)言scala 【課程目標(biāo)】深度學(xué)習(xí)Spark系統(tǒng)，包括高級(jí)特性，優(yōu)化等，增加Spark大數(shù)據(jù)技術(shù)學(xué)習(xí)廣度，拓展眼界
入學(xué)考試：通過(guò)考試后正式進(jìn)入大數(shù)據(jù)技術(shù)學(xué)習(xí)階段

周末面授階段
第一階段：Hadoop生態(tài)體系本階段涉及的實(shí)戰(zhàn)項(xiàng)目：hadoop分布式集群搭建；用戶(hù)畫(huà)像系統(tǒng)；日志收集系統(tǒng)；Hive數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建。
5-大數(shù)據(jù)概述、分布式數(shù)據(jù)收集系統(tǒng)：Sqoop與Flume	【理論部分】大數(shù)據(jù)概論、大數(shù)據(jù)技術(shù)體系（按照六層架構(gòu)介紹：數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、資源管理、計(jì)算引擎、數(shù)據(jù)分析以及可視化），Hadoop發(fā)展歷程、Hadoop生態(tài)系統(tǒng)概述/結(jié)構(gòu)化數(shù)據(jù)收集Sqoop：背景、架構(gòu)、原理以及使用、非結(jié)構(gòu)化（日志）數(shù)據(jù)收集系統(tǒng)Flume：背景、架構(gòu)、原理及使用；【實(shí)戰(zhàn)部分】利用Flume從指定目錄中收集數(shù)據(jù)到HDFS、利用Sqoop將MySQL表中數(shù)據(jù)寫(xiě)HDFS。【課程目標(biāo)】掌握大數(shù)據(jù)收集系統(tǒng)架構(gòu)，能夠使用sqoop和flume構(gòu)建企業(yè)級(jí)大數(shù)據(jù)收集系統(tǒng)。
6-分布式消息隊(duì)列：Kafka、分布式存儲(chǔ)系統(tǒng)：文件系統(tǒng)HDFS	【理論部分】概述、基本架構(gòu)與工作原理、應(yīng)用場(chǎng)景以及經(jīng)典的架構(gòu)組合等、HDFS簡(jiǎn)介、優(yōu)缺點(diǎn)、架構(gòu)（主節(jié)點(diǎn)NameNode、從節(jié)點(diǎn)DataNode、journal node的解析）、核心設(shè)計(jì)（數(shù)據(jù)塊、數(shù)據(jù)副本的存放策略、安全模式、負(fù)載均衡、機(jī)架感應(yīng)等）、HDFS操作（命令行接口、Java接口）【實(shí)戰(zhàn)部分】搭建Kafka集群、如何編寫(xiě)Producer將數(shù)據(jù)寫(xiě)入Kafka、如何編寫(xiě)Consumer從Kafka中讀取數(shù)據(jù)、搭建HDFS集群、使用NameNode Web UI、使用HDFS Shell利用Java編寫(xiě)程序從HDFS中讀數(shù)據(jù)、利用Java編寫(xiě)程序?qū)?shù)據(jù)寫(xiě)入HDFS中、利用Java刪除HDFS上的文件和目錄
7-分布式存儲(chǔ)系統(tǒng)：分布式數(shù)據(jù)庫(kù)HBase	【理論部分】HBase簡(jiǎn)介、優(yōu)缺點(diǎn)、架構(gòu)以及HBase API使用等【實(shí)戰(zhàn)部分】搭建Hbase集群、使用Hbase Web UI、使用HBase Shell、利用Java編寫(xiě)程序在hbase中創(chuàng)建表、利用Java編寫(xiě)程序向hbase表中寫(xiě)入和讀取數(shù)據(jù) 【項(xiàng)目案例】用戶(hù)畫(huà)像系統(tǒng)、網(wǎng)絡(luò)爬蟲(chóng) 【課程目標(biāo)】掌握HBase系統(tǒng)架構(gòu)，能夠編寫(xiě)程序讀寫(xiě) HBase中存儲(chǔ)的數(shù)據(jù) 。
8-分布式分析引擎：Hive基礎(chǔ)	【理論部分】Hive背景、架構(gòu)、 HQL的DML和DDL語(yǔ)法等【實(shí)戰(zhàn)部分】Hive環(huán)境搭建、利用Hive創(chuàng)建表，并進(jìn)行查詢(xún)、Hive創(chuàng)建ORC與Parquet表并查詢(xún) 【課程目標(biāo)】熟練掌握HQL編寫(xiě)方式，能夠使用Hive構(gòu)建大數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)
9-分布式分析引擎：Hive進(jìn)階	【理論部分】Hive內(nèi)部原理，多計(jì)算引擎（Tez與Spark），Hive創(chuàng)建ORC/Parquet表，Hive調(diào)優(yōu) 【實(shí)戰(zhàn)部分】程序方式訪問(wèn)Hive、Hive調(diào)優(yōu)演示【課程目標(biāo)】掌握Hive內(nèi)部原理，了解常見(jiàn)Hive的優(yōu)化方式。
10-交互式查詢(xún)引擎Presto	【理論部分】Presto基本架構(gòu)，Presto與Hive對(duì)比，Presto基本使用。【實(shí)戰(zhàn)部分】Presto集群搭建、Presto使用方式、Presto與Hive性能對(duì)比【項(xiàng)目測(cè)試練習(xí)】 Hadoop測(cè)試（包括選擇題、簡(jiǎn)單題和編程題三部分）
第二階段：Spark生態(tài)體系本階段涉及的實(shí)戰(zhàn)項(xiàng)目：電影受眾分析系統(tǒng)、用戶(hù)手機(jī)APP行為分析系統(tǒng)、用戶(hù)畫(huà)像系統(tǒng)（機(jī)器學(xué)習(xí)相關(guān)）
11-Spark 基礎(chǔ)	【理論部分】Java Lambda語(yǔ)法簡(jiǎn)介、Spark基礎(chǔ)原理與運(yùn)行架構(gòu)、Spark部署方式【實(shí)戰(zhàn)部分】Spark開(kāi)發(fā)環(huán)境搭建、使用Spark Web UI、如何將Spark程序運(yùn)行到Y(jié)ARN上【課程目標(biāo)】掌握Spark基本原理，能夠搭建Spark開(kāi)發(fā)和運(yùn)行環(huán)境。
12-Spark 程序設(shè)計(jì)	【理論部分】Spark編程模型、內(nèi)存彈性分布式數(shù)據(jù)集的工作原理和機(jī)制、Spark RDD transform、持久化、checkpoint、容錯(cuò)與性能優(yōu)化【實(shí)戰(zhàn)部分】如何利用intellij idea開(kāi)發(fā)一個(gè)spark程序并運(yùn)行到集群中、如何利用spark設(shè)計(jì)電影受眾分析程序【課程目標(biāo)】掌握常見(jiàn)的Spark API，熟練使用Spark開(kāi)發(fā)大數(shù)據(jù)分析程序。
13-Spark SQL	【理論部分】流式計(jì)算基礎(chǔ)、spark streaming基礎(chǔ)原理、基礎(chǔ)API介紹（包括map，filter，flatMap、foreachRDD，saveAsTextFile等）和高級(jí)API介紹（window， transform和mapWithState），Redis介紹【實(shí)戰(zhàn)部分】利用Spark Streaming讀取HDFS中的數(shù)據(jù)，經(jīng)統(tǒng)計(jì)（按照window統(tǒng)計(jì)）后寫(xiě)入HDFS：利用Spark Streaming讀取HDFS中的數(shù)據(jù)，經(jīng)統(tǒng)計(jì)后寫(xiě)入Redis和HBase：利用mapWithState實(shí)現(xiàn)wordcount 【課程目標(biāo)】掌握Spark Streaming工作原理及常見(jiàn)的API，能夠使用Spark Streaming編寫(xiě)流式實(shí)時(shí)計(jì)算程序。
14-Spark Streaming進(jìn)階	【理論部分】保存kafka offset并恢復(fù)、spark streaming容錯(cuò)機(jī)制、spark streaming調(diào)優(yōu)方法、structured streaming原理及關(guān)鍵API 【實(shí)戰(zhàn)部分】利用Spark Streaming+kafka+redis實(shí)現(xiàn)“用戶(hù)手機(jī)app行為分析系統(tǒng)”、實(shí)現(xiàn)streuctured streaming版本的wordcount 【課程目標(biāo)】掌握Spark Streaming調(diào)優(yōu)方法和高級(jí)編程技巧，能夠使用高級(jí)API編寫(xiě)更加魯棒的分布式流式計(jì)算程序。
15-Spark MLlib數(shù)據(jù)分析挖掘程序	【理論部分】數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)，以及機(jī)器學(xué)習(xí)案例、Spark MLib分類(lèi)、聚類(lèi)、推薦等算法，用戶(hù)畫(huà)像系統(tǒng)設(shè)計(jì)。【實(shí)戰(zhàn)部分】回歸預(yù)測(cè)和局部加權(quán)線性回歸預(yù)測(cè)算法、近鄰KNN預(yù)測(cè)分析的算法、協(xié)同過(guò)濾算法的Spark實(shí)現(xiàn)技術(shù)應(yīng)用、決策樹(shù)分類(lèi)分析挖掘算法、邏輯回歸分類(lèi)分析挖掘算法、貝葉斯分類(lèi)分析挖掘算法等，互聯(lián)網(wǎng)用戶(hù)性別預(yù)測(cè)。【課程目標(biāo)】掌握常見(jiàn)的機(jī)器學(xué)習(xí)算法，能夠使用Spark MLLib工具包解決機(jī)器學(xué)習(xí)問(wèn)題。
第三階段：深度學(xué)習(xí)課程體系本階段涉及的實(shí)戰(zhàn)項(xiàng)目：電影評(píng)論文本情感分析、電信客戶(hù)流失預(yù)測(cè)、基于深度學(xué)習(xí)的手寫(xiě)字體識(shí)別
【第三階段】 16-深度學(xué)習(xí)課程體系	【理論部分】人工智能技術(shù)體系 ; 人工智能技術(shù)的數(shù)學(xué)與python基礎(chǔ) ; 神經(jīng)網(wǎng)絡(luò)（DNN,RNN及CNN等）和開(kāi)源框架tensorflow及pytorch等【實(shí)戰(zhàn)部分】電影評(píng)論文本情感分析（監(jiān)督學(xué)習(xí)，可應(yīng)用在：各種評(píng)論文本的正負(fù)情感分類(lèi)，新聞的正負(fù)情感分類(lèi)）; 電信客戶(hù)流失預(yù)測(cè)（監(jiān)督學(xué)習(xí)，可應(yīng)用在：股價(jià)預(yù)測(cè)、流量預(yù)測(cè)，房?jī)r(jià)預(yù)測(cè)等方面中）; 基于深度學(xué)習(xí)的手寫(xiě)字體識(shí)別【課程目標(biāo)】掌握人工智能技術(shù)基礎(chǔ)，包括數(shù)學(xué)與python技術(shù)，了解神經(jīng)網(wǎng)絡(luò)技術(shù)及開(kāi)源框架tensorfow、pytorch等。
第四階段：企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)本階段涉及的實(shí)戰(zhàn)項(xiàng)目：用戶(hù)行為實(shí)時(shí)分析系統(tǒng)、信用卡欺詐分析系統(tǒng)、“雙十一”大數(shù)據(jù)日志分析系統(tǒng)、用戶(hù)畫(huà)像系統(tǒng)、電子商務(wù)推薦系統(tǒng)、商務(wù)智能報(bào)表系統(tǒng)。
17-spark企業(yè)應(yīng)用: 用戶(hù)行為實(shí)時(shí)分析系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解；項(xiàng)目架構(gòu)、核心點(diǎn)講解；數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié)。講解主要架構(gòu)：Kafka+Spark Streaming+Mysql 【課程目標(biāo)】掌握大數(shù)據(jù)流式系統(tǒng)基本架構(gòu) ; 學(xué)會(huì)使用kafka和spark streaming構(gòu)建流式計(jì)算系統(tǒng) ; 熟練掌握使用spark streaming編寫(xiě)魯棒的流式處理程序
18-spark企業(yè)應(yīng)用：信用卡欺詐分析系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解 ; 數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié); 講解主要架構(gòu)：HDFS + Spark Core + mllib 【課程目標(biāo)】熟悉機(jī)器學(xué)習(xí)應(yīng)用 ; 熟悉如何使用HDFS和Spark解決實(shí)際問(wèn)題
19-hadoop企業(yè)應(yīng)用： “雙十一”大數(shù)據(jù)日志分析系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解；項(xiàng)目架構(gòu)、核心點(diǎn)講解；數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié)。講解主要架構(gòu)：hadoop+kafka+spark+presto/hive+echart/D3 【課程目標(biāo)】了解日志分析系統(tǒng)的基本架構(gòu) ; 熟練掌握如何采用hadoop和spark解決大數(shù)據(jù)分析問(wèn)題 ; 使用常見(jiàn)的開(kāi)源可視化工具對(duì)分析結(jié)果可視化
20-hadoop企業(yè)應(yīng)用：用戶(hù)畫(huà)像系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解；項(xiàng)目架構(gòu)、核心點(diǎn)講解；數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié)。用戶(hù)畫(huà)像系統(tǒng)常見(jiàn)場(chǎng)景簡(jiǎn)介。講解主要架構(gòu)：flume+hbase+spark+redis+mllib 【課程目標(biāo)】掌握用戶(hù)畫(huà)像系統(tǒng)基本架構(gòu) ；熟練使用HBase存儲(chǔ)海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù) ；熟練使用mllib求解機(jī)器學(xué)習(xí)問(wèn)題
21-大數(shù)據(jù)綜合應(yīng)用：電子商務(wù)推薦系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解；項(xiàng)目架構(gòu)、核心點(diǎn)講解；數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié)。講解主要架構(gòu)：HDFS + HBase + Spark SQL + Spark Streaming 【課程目標(biāo)】掌握大數(shù)據(jù)設(shè)計(jì)架構(gòu)lambda architecture；學(xué)會(huì)使用Hadoop和Spark技術(shù)解決復(fù)雜大數(shù)據(jù)問(wèn)題
22-大數(shù)據(jù)綜合應(yīng)用：基于大數(shù)據(jù)的商務(wù)智能報(bào)表系統(tǒng)	【實(shí)戰(zhàn)部分】項(xiàng)目背景、開(kāi)發(fā)需求、項(xiàng)目架構(gòu)、核心點(diǎn)講解；項(xiàng)目架構(gòu)、核心點(diǎn)講解；數(shù)據(jù)展示、共性問(wèn)題答疑、項(xiàng)目總結(jié)。講解主要架構(gòu)：Hadoop + Hive + Presto + superset/tableau 【課程目標(biāo)】掌握大數(shù)據(jù)報(bào)表系統(tǒng)基本架構(gòu)設(shè)計(jì)方法；學(xué)會(huì)使用Hadoop和Spark技術(shù)解決復(fù)雜大數(shù)據(jù)報(bào)表分析及可視化問(wèn)題。
23-大數(shù)據(jù)面試攻略	【課程目標(biāo)】公司大數(shù)據(jù)崗位核心技能需求。了解所需知識(shí)和技能，以及主流的大數(shù)據(jù)工具和框架的使用方法。講解大數(shù)據(jù)開(kāi)發(fā)工程師崗位面試的常見(jiàn)筆試題。會(huì)涵蓋主流的互聯(lián)網(wǎng)公司的面試題目，深入淺出，結(jié)合實(shí)際場(chǎng)景分析。講解常大數(shù)據(jù)研發(fā)面試問(wèn)題，開(kāi)放式問(wèn)題和系統(tǒng)設(shè)計(jì)問(wèn)題，融匯貫通整個(gè)課程知識(shí)點(diǎn)。