更新時(shí)間:2021-02-01 來(lái)源:黑馬程序員 瀏覽量:
一般認(rèn)為,大數(shù)據(jù)主要具有以下4個(gè)方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value),即所謂的4V,接下來(lái),通過(guò)一張圖來(lái)具休描述。
1. Volume(大量)
大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)技術(shù)的發(fā)展,人和事物的所有軌跡都可以被記錄下來(lái),數(shù)據(jù)呈現(xiàn)出爆發(fā)性增長(zhǎng)。數(shù)據(jù)相關(guān)計(jì)量單位的換算關(guān)系如下表所示。
單位 | 換算格式 |
Byte | 1Byte=1024bit |
KB | 1KB= 1024Byte |
MB | 1MB= 1024KB |
GB | 1GB= 1024MB |
TB | 1TB= 1024GB |
PB | 1PB= 1024TB |
EB | 1EB= 1024PB |
ZB | 1ZB= 1024EB |
2. Variety(多樣)
數(shù)據(jù)來(lái)源的廣泛性,決定了數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類,一是結(jié)構(gòu)化數(shù)據(jù),如財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng);一是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點(diǎn)是數(shù)據(jù)間沒(méi)有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁(yè)等,其特點(diǎn)是數(shù)據(jù)間的因果關(guān)系弱。有統(tǒng)計(jì)顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價(jià)值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。
3.Velocity(高速)
數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報(bào)紙、書(shū)信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的交換和傳播主要是通過(guò)互聯(lián)網(wǎng)和云計(jì)算等方式實(shí)現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。另外,大數(shù)據(jù)還要求處理數(shù)據(jù)的響應(yīng)速度要快,例如,上億條數(shù)據(jù)的分析必須在幾秒內(nèi)完成。數(shù)據(jù)的輸人、處理與丟棄必須立刻見(jiàn)效,幾乎無(wú)延遲。
4.Value(價(jià)值)
大數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大。任何有價(jià)值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。當(dāng)然目前大數(shù)據(jù)背景下有個(gè)未解決的問(wèn)題,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地在海量數(shù)據(jù)中完成數(shù)據(jù)的價(jià)值提純。
猜你喜歡:
大數(shù)據(jù)能干什么?淺談大數(shù)據(jù)的應(yīng)用場(chǎng)景
大數(shù)據(jù)離散流是什么?它的內(nèi)部結(jié)構(gòu)是怎樣的?