HDFS( Hadoop Distributed File System)是一個易于擴展的分布式文件系統(tǒng),運行在網(wǎng)百上千臺低成本的機器上。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處,都是用來存值據(jù)的系統(tǒng)工具,而區(qū)別在于HDFS具有高度容錯能力,旨在部署在低成本機器上。查看全文>>
?對MapReduce的編程思想和模型有了了解以后,下面我們借助MapReduce編程的一個典型案例——詞頻統(tǒng)計, 來學習實現(xiàn)MapReduce編程開發(fā)。查看全文>>
MapReduce編程模型開發(fā)簡單且功能強大,專門為并行處理大規(guī)模數(shù)據(jù)量而設計,MapReduce的工作流程大致可以分為5步,具體如下:查看全文>>
以實際生產(chǎn)環(huán)境為背景,增加大量企業(yè)實戰(zhàn)案例,升級MapReduce與Yarn集群性能調(diào)優(yōu),擴充HDFS數(shù)據(jù)安全與隱私保護及源碼剖析、MapReduce高階編程及Yarn核心源碼剖析內(nèi)容。零基礎入門,幫助大家從容學習Hadoop,達到企業(yè)級使用Hadoop標準。查看全文>>
在Kafka發(fā)送數(shù)據(jù)的時候,每次發(fā)送消息都會有一個確認反饋機制,確保消息正常的能夠被收到,其中狀態(tài)有0,1,-1。如果是同步模式:ack機制能夠保證數(shù)據(jù)的不丟失,如果ack設置為0,風險很大,一般不建議設置為0。即使設置為1,也會隨著leader宕機丟失數(shù)據(jù)。查看全文>>
?Hadoop有三種運行模式:獨立(本地)運行模式,偽分布式模式,和完全分布式模式。查看全文>>