虛擬機在安裝和克隆之后,雖然能夠直接使用,但是此時虛擬機的IP是動態(tài)生成的,在不斷的開停過程中很容易改變,非常不利于實際開發(fā);通過Hadoop01克隆的虛擬機(假設(shè)克隆了2個虛擬機Hadoop02和Hadoop03)則完全無法動態(tài)分配到IP,直接無法使用。因此,虛擬機在安裝和克隆之后還需要對虛擬機的網(wǎng)絡(luò)都分別進行配置。查看全文>>
Client(客戶端)對HDFS中的數(shù)據(jù)進行讀寫操作,分別是Client從HDFS中查找數(shù)據(jù),即為Read(讀)數(shù)據(jù);Client從HDFS中存儲數(shù)據(jù),即為Write(寫)數(shù)據(jù)。假設(shè)有一個文件1.txt文件,大小為300M,這樣就劃分出3個數(shù)據(jù)塊,我們根據(jù)這三個模塊分別講解HDFS文件讀數(shù)據(jù)和寫數(shù)據(jù)的原理。查看全文>>
MapReduce程序運行模式有本地運行模式和集群運行模式,集群運行模式只需要將MapReduce程序打成Jar包上傳至集群即可,下面我們以詞頻統(tǒng)計為例,講解如何將MapReduce程序設(shè)置為在本地運行模式。查看全文>>
Hadoop與Spark兩者都是大數(shù)據(jù)計算框架,但是兩者各自都有自己的優(yōu)勢,到底哪個更適合開發(fā)使用,下面對兩者做一個簡單對比:查看全文>>
?Scala算術(shù)和操Scala中算術(shù)操作符(+、-、*、/、%)的作用和Java是一樣的,位操作符(&、|、>>、<<)也是一樣的。特別強調(diào)的是,Scala的這些操作符其實是方法。例如,a+b其實是a.+(b)的簡寫,接下來,我們通過Scala交互式Shell編程講解操作符的使用,具體示例代碼如下。查看全文>>
使用Hadoop進行大數(shù)據(jù)運算,當(dāng)數(shù)據(jù)量極其大時,那么對MapReduce性能的調(diào)優(yōu)重要性不言而喻,尤其是Shuffle過程中的參數(shù)配置對作業(yè)的總執(zhí)行時間影響特別大。下面總結(jié)一些和MapReduce相關(guān)的性能調(diào)優(yōu)方法,主要從五個方面考慮:數(shù)據(jù)輸入、Map階段、Reduce階段、Shuffle階段和其他調(diào)優(yōu)屬性。查看全文>>