深圳大數據培訓哪家好?到千鋒錯不了!大數據技術的核心是什么?Hadoop生態體系! Hadoop 是一個由 Apache 基金會所開發的分布式系統基礎架構, 主要解決海量數據的存儲和海量數據的分析計算問題。 廣義上來說,Hadoop通常是指一個更廣泛的概念——Hadoop 生態圈。
通過這段時間在千鋒的學習,總結了這一個月來學到的一些經典技術知識,記錄一下!
1. Sqoop:sqoop 是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle 等)中的數據導進到Hadoop 的 HDFS 中,也可以將 HDFS的數據導進到關系型數據庫中。
2.Flume:Flume 是 Cloudera 提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume 支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
3.Kafka:它 是一種高吞吐量的分布式發布訂閱消息系統,它的特性在于:
(1)通過磁盤數據結構提供消息的持久化,這種結構對于即使數以 TB 的消息存儲也能夠保持長時間的穩定性能。
(2)高吞吐量,即使是非常普通的硬件 Kafka 也可以支持每秒數百萬的消息。
(3)支持通過 Kafka 服務器和消費機集群來分區消息。支持Hadoop 并行數據加載。
(4)Storm 為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm 也可被用于“連續計算”(continuous computation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。
(5)Spark 是當前流行的開源大數據內存計算框架。可以基于Hadoop 上存儲的大數據進行計算。
(6)Oozie 是一個管理Hdoop 作業(job)的工作流程調度管理系統。Oozie 協調作業就是通過時間(頻率)和有效數據觸發當前的Oozie 工作流程。
(7)Hbase 是一個分布式的、面向列的開源數據庫。Hbase 不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。
(8)Hive 是基于 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的 sql 查詢功能,可以將 sql 語句轉換為 MapReduce 任務進行運行。其優點是學習成本低,可以通過類SQL 語句快速實現簡單的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合數據倉庫的統計分析。
(9)R 語言:R 是用于統計分析、繪圖的語言和操作環境。R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優秀工具。
(10)Apache Mahout 是個可擴展的機器學習和數據挖掘庫,當前Mahout 支持主要的4 個用例:
推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。
聚集:收集文件并進行相關文件分組。
分類:從現有的分類文檔中學習,尋找文檔中的相似特征,并為無標簽的文檔進行正確的歸類。
頻繁項集挖掘:將一組項分組,并識別哪些個別項會經常一起出現。
(11)Zookeeper 是 Google 的 Chubby 一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。
ZooKeeper 的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。
學習永不止步,日積月累才是技術學習的正確打開方式!
聯系千鋒
座機:0755-23015275-801 小千老師
硅谷校區地址:深圳市寶安區寶安大道5010號深圳西部硅谷B座A區605
大學城校區地址:深圳市南山區留仙大道1201號大學城創客小鎮16棟3樓