一.Hadoop
1.Hadoop的源起——Lucene,從lucene到nutch,從nutch到hadoop
· 2003-2004年,Google公開了部分GFS和Mapreduce思想的細節,以此為基礎Doug Cutting等人用了2年業余時間實現了DFS和Mapreduce機制,使Nutch性能飆升
· Yahoo招安Doug Cutting及其項目
· Hadoop于2005年秋天作為Lucene的子項目Nutch的一部分正式引入Apache基金會。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分別被納入稱為Hadoop的項目中
· 名字來源于Doug Cutting兒子的玩具大象
2.Hadoop能解決的問題
hadoop作為大數據系統可以做的事情有很多的,最為常見的像日志分析,搜索,圖片分析,物聯網傳感數據分析,數據的長期存儲。我們選擇hadoop是因為hadoop具有這些優點。可以存儲結構化數據和非結構化數據
性價比高
容錯率高,當服務當中的一臺服務的軟硬件出錯后系統都能繼續運行
能夠對海量數據快速存儲
對海量數據做快速計算
能夠通過添加節點的方式快速擴展系統
hadoop對系統數據安全性是有保障的
看多hadoop的朋友都知道,存儲在hadoop平臺中的數據,通過統一的分布式存儲HDFS,可以將數據的訪問和存儲分布在大量服務器之中,在可靠的多備份存儲的同時,還能將訪問分布到集群的各個服務器之上。
hadoop架構可以很好的解決數據庫擴展的瓶頸,它把數據庫的設計部署在經濟實惠的硬件上,通過橫向擴展,便可無限的提升數據庫的數據處理能力。
二.Spark
1.Spark的定義
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現的分布式計算,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的map reduce的算法。其架構如下圖所示:
2.如何使用Spark
Spark可以直接對HDFS進行數據的讀寫,同樣支持Spark on YARN。Spark可以與MapReduce運行于同集群中,共享存儲資源與計算,數據倉庫Shark實現上借用Hive,幾乎與Hive完全兼容。
由于RDD的特性,Spark不適用那種異步細粒度更新狀態的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合。
總的來說Spark的適用面比較廣泛且比較通用。
有人說:“Spark就像一個高性能引擎; 它支持您想要對數據執行的工作。Hadoop可以提供一個可能的存儲層,為Spark引擎提供數據”。
在大數據技術領域當中,應用Hadoop和Spark技術體系,能強化大數據平臺的分布式集群架構和核心關鍵技術實現、大數據應用項目開發和大數據集群運維實踐、以及Hadoop與Spark大數據項目應用開發與調優的全過程沙盤模擬實戰。而這些在培訓中就能就能全盤掌握。另外,通過一個完整的大數據開發項目及一組實際項目訓練案例,完全覆蓋Hadoop與Spark生態系統平臺的應用開發與運維實踐。課堂實踐項目以項目小組的形式進行沙盤實操練習,重點強化理解Hadoop與Spark大數據項目各個階段的工作重點,同時掌握作為大數據項目管理者的基本技術與業務素養。
據了解,中培偉業(http://www.uesk.com.cn/)成立十年來,一直致力于我國范圍內高端IT咨詢與培訓服務。始終秉持“顧客滿意度第一、利潤第二”的理念。為了切實貫徹顧客滿意度第一的原則,中培邀請了一批國內外知名企業的高層經理和資深專家指導加盟。
其大數據授課師資都是有著多年在一線從事Hadoop與Spark大數據項目的資深講師,采用原理技術剖析和實戰案例相結合的方式開展互動教學、強化以建立大數據項目解決方案為主體的應用開發、技術討論與交流咨詢,在學習的同時促進講師學員之間的交流,讓每個學員都能在課程培訓過程中學到實實在在的大數據技術知識體系,以及大數據技術應用實戰技能,具備實際大數據應用項目的動手開發實踐與運維管理部署能力。
想了解更多IT資訊,請訪問中培偉業官網:中培偉業