四个特征带你了(le)解大数(shù)据(jù)的定(dìng)义
大数据是当(dāng)前较为火爆的一个词汇(huì),究竟(jìng)什么是大数据、大数据的概(gài)念是(shì)怎(zěn)样(yàng)的?大数据有哪些特质(zhì),大数据有哪些技(jì)术方(fāng)面(miàn)的要求(qiú),大数据对当前社会产生了哪些重要的影响?
国内知名(míng)大数据专家、中(zhōng)科院计算所博(bó)士、职品汇创始人龚才春博士对此做(zuò)了详尽的分(fèn)析,他指(zhǐ)出:“从常规定(dìng)义来讲,大数据就是(shì)大(dà)小超出常规数据库(kù)工(gōng)具获取、存储、管理和分析能力的数据库,并且也强调,不是说一(yī)定要(yào)超过特定TB的数据(jù)集才是大数据(jù)。这个定义并(bìng)没有诠释什么是常规的(de)数据库(kù)工具,也没有诠释大数(shù)据与数据量(liàng)的关(guān)系,是一个比较原(yuán)始的大数据定义。”
而国(guó)际数据公司(International Data CorporaTIon,简(jiǎn)称IDC)则从(cóng)四个特征定(dìng)义大(dà)数据:数据规模庞大(Volume)、数据更(gèng)新频繁(Velocity)、数据(jù)类(lèi)型(xíng)多样(Variety)和(hé)数(shù)据价值巨大(Value)。
龚(gōng)博士认为(wéi),在上述四大定义的基础上,一般偏向于再加上数据处理(lǐ)复杂(Complexity),构成相对完(wán)整的大数据的定义,这就是大家耳熟能详的4V+1C。
1.数据规模庞大(Volume)
当数据规模很小(xiǎo)时(shí),属于传统(tǒng)的“小数据(jù)”时代的问题,已有非常成熟的数(shù)据存储(chǔ)、计算、分析、呈现(xiàn)方案,数据(jù)模型也有非常多的研究。大数据必(bì)须是规模(mó)异常庞大(dà)的数据,只有当规模庞大时候,才有(yǒu)新的研(yán)究价值。
前面已经提(tí)到,大数(shù)据的大,不是说一定要超过特定TB的(de)数据集才(cái)是大数据。由于计算能(néng)力、存储能力、分(fèn)析能力的(de)有限,现在(zài)看起来很简单的(de)问(wèn)题(tí),在(zài)历史上可能都是大数据的问题。辽沈(shěn)战(zhàn)役中,司令员林彪对战报要求很细,包括每支(zhī)部(bù)队(duì)歼敌多少、俘(fú)虏多少;缴获的火(huǒ)炮、车辆多少;枪支、物(wù)资多少……一(yī)天深夜(yè),值班参谋(móu)正(zhèng)读(dú)着一份某师上报(bào)的战斗缴获报告,那(nà)是该师的下属(shǔ)部队偶然碰上的一个不大的遭遇(yù)战,他们歼(jiān)灭(miè)了一(yī)部分敌人,缴(jiǎo)获了一些战利品,敌(dí)人余部逃走(zǒu)。林彪(biāo)听了汇报后(hòu),立(lì)即口(kǒu)授命令(lìng),全力追击从胡家窝棚(péng)逃(táo)走的那股敌人,一定要把它彻底打掉。果然活(huó)捉了国(guó)民党新编第六军军(jun1)长廖耀湘。这些数据(jù)在今(jīn)天看来,规模(mó)非常非常小(xiǎo)。但在当时这已经(jīng)是“大数据”了,林彪懂得分析数(shù)据,从缴获中手枪(qiāng)和冲锋枪的比例准确判断(duàn)出敌方的指挥部在胡(hú)家窝棚,这也算是大数据分(fèn)析的魅力(lì)。
2.数据更(gèng)新频繁(Velocity)
我(wǒ)们知道摩尔(ěr)定律揭示了处理器分析能力与时间(jiān)的关系,也就是说,每隔18个月左右处理器的分析能力翻一番。对于(yú)一个(gè)静止(zhǐ)的数据集,哪怕今天我们的处理器(qì)无法处理,存储器不好存储。随着(zhe)技(jì)术的进(jìn)步,未(wèi)来可能(néng)变成非(fēi)常容(róng)易处理,就像我们现在(zài)看着当年林彪分析战报一(yī)样,这(zhè)些(xiē)战报数据的(de)处理今天已(yǐ)经变得非常非(fēi)常(cháng)容易了(le),在今天已经不算(suàn)“大数据(jù)”了。
大数据技(jì)术,要求(qiú)我们更多(duō)地(dì)想出“巧妙”的分(fèn)析办法,提成更(gèng)“优秀”的处理模型(xíng),而不能只依赖存储能(néng)力、处理水平、网络带宽等硬(yìng)件设备的性能改进(jìn)。所(suǒ)以大数据技术,对分析对象要求是频繁更新(xīn)的数据集。
3.数据(jù)类(lèi)型多样(yàng)(Variety)
传统的关系型数(shù)据库,无论从理论上,还是在(zài)应用上都非常成熟(shú)了。关系型数据库一(yī)般保存格式固定、类(lèi)型单一(yī)的数据,几(jǐ)十年的数据库理论、数(shù)据挖掘、数(shù)据仓库的研究,已经有相当(dāng)多(duō)的研究(jiū)成果。
大数据要求我们的分(fèn)析对象(xiàng)是异构(gòu)、异质(zhì)的数(shù)据集,可能包括文本、音频、视频等多种(zhǒng)形式,也可能是结构(gòu)化、半结构化的或无(wú)结构的。
4.数(shù)据价值巨大(Value)
如果(guǒ)数(shù)据没有价值,我们就没有分析的必要。因此,大数据(jù)要求(qiú)我们处理的数据集是有巨大商业价值或社会价值的。阿(ā)里巴巴愿意花巨(jù)大代(dài)价提高推荐系统的准确性,就是在于其推荐系统的准确率(lǜ)的提高(gāo),能大大提(tí)高平台(tái)的交易量,从而具有非常巨大的商(shāng)业价(jià)值。我们在全国部(bù)署“天眼”系统,提高大(dà)数据技术在(zài)天(tiān)眼(yǎn)系(xì)统的(de)分量,就是因为(wéi)天(tiān)眼(yǎn)系(xì)统(tǒng)分析能力的一小(xiǎo)步提升,都能在降低(dī)犯(fàn)罪率、打击犯罪、保障人民群(qún)众安全、信(xìn)用取证等方面都有巨大(dà)的社会价值(zhí)。
在(zài)Value这个层面,我们除(chú)了要求价值巨大外,我(wǒ)们一般(bān)会(huì)增加一点要(yào)求(qiú),那(nà)就是价值密度(dù)极低(dī)。我(wǒ)们常说,大数据是(shì)一个“金矿”,金矿就(jiù)包含(hán)两个方面的含义(yì):一方面,黄金很值钱,金矿很有价值(zhí);另一方面,金矿不是金库(kù),几万顿的矿砂(shā),也许只有几十公斤(jīn)黄金(jīn),也就是(shì)说金(jīn)库的(de)价值密度是非常(cháng)低的。大数据的价值(zhí)方面的含义,也要求价值密度非常低。如果数据集(jí)中(zhōng)每一(yī)条数据都(dōu)是非常有价值(zhí)的,那(nà)也(yě)就无所谓“挖掘”了,没有挖掘,大数据的意义也荡然无存(cún)了。
5.数据处(chù)理复杂(Complexity)
IDC公司(sī)的(de)大(dà)数(shù)据只(zhī)有4V的特征,我们一(yī)般偏向于(yú)增加另一个维度的要(yào)求:数据处理复杂。例如,统计中国人口的(de)平(píng)均年龄,这个(gè)数据量是非常庞大的,有接近14亿条记录;这(zhè)个数据也是(shì)动态更新的,每年(nián)都有几千(qiān)万(wàn)人出生,几(jǐ)千万死亡;这(zhè)个数据集也可(kě)以是(shì)多样的,湖南(nán)的数(shù)据可(kě)以放在mysql中,湖北的数(shù)据可以在oracle中,北京的数据可能在Txt文件中(zhōng),上(shàng)海的数据可能在Word文档中;这个(gè)数据集和这个分析都是有价值的,但是平均到(dào)每一条(tiáo)数(shù)据,价值又非常(cháng)有限。也就是说,这个问题是符合4V特征的,但是这(zhè)个问题怎么看都“太(tài)简单”了,年龄加起来求平均即可,不(bú)能成为真正意义上的(de)“大数据问(wèn)题”。
大数据要求数(shù)据处理(lǐ)复杂,不能(néng)脑袋一拍就可(kě)以(yǐ)想出办(bàn)法(fǎ),不(bú)能(néng)套用现(xiàn)有(yǒu)的、成熟的数(shù)据(jù)库工具简单得到答案。
【其他(tā)定义(yì)】
除(chú)了上述主流的定(dìng)义(yì),还有人使用3S或者3I描述大数(shù)据的特(tè)征。
3S指的是(shì):大小(Size)、速度(dù)(Speed)和结构(Structure)。
3I指的是:
(1)、定义不明确的(Ill-de.ned):多个主流的(de)大数据定义都强调了(le)数据规模需要超(chāo)过传统方(fāng)法处理数(shù)据的规(guī)模,而随着技(jì)术的进步,数据分析的效率不断提高,符合大数据(jù)定义(yì)的数(shù)据规模也会相应不断变大,因而并没有一(yī)个(gè)明确的标准(zhǔn)。
(2)、令(lìng)人生畏的(InTImidaTIng):从管理大数据到使用(yòng)正确的工具(jù)获取它的价值,利用大数据的过程中充满(mǎn)了各种挑(tiāo)战。
(3)、即时的(Immediate):数(shù)据的价值会(huì)随着时间快速衰减,因此为了保(bǎo)证大数(shù)据的可控(kòng)性,需要缩短数据搜集到获得数据洞察之(zhī)间的时间,使得(dé)大数据成为真正的(de)即时大数(shù)据,这意(yì)味着(zhe)能尽快地分析数(shù)据对获得竞争优势(shì)至关重要(yào)。
大数(shù)据(jù)就是(shì)互(hù)联网(wǎng)发(fā)展到(dào)现今阶段的一种表(biǎo)象(xiàng)或特征而已,没有必要神话它或对它保持敬畏之心(xīn),在以云(yún)计算为代表的技术创新大幕(mù)的衬(chèn)托下,这(zhè)些原本很难收(shōu)集和使用的数据开(kāi)始容易被利用起来了,通(tōng)过(guò)各行(háng)各业的不断创新(xīn),大数据会(huì)逐(zhú)步为人类创造(zào)更(gèng)多的价值。