大数据和普通的数据分析有什么区别?
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
严格来说,大数据分析也属于数据分析的一种,不过大数据分析的目的和手段,与普通的数据分析还是有区别的。
普通数据分析
目的:对已知的有限规模数据进行定量或者定性分析,有比较明确的目的,比如分析某种商品的销售趋势、统计各年龄段在全国各省市的分布,甚至大部分股票曲线等都属于普通分析的一种。
手段:很多时候使用Excel就足够了,也可以使用专业的BI工具,各种软件内置的报表功能,都属于分析的手段,咱们的今日头条后台就有不少这种报表,也属于普通分析的一种。
大数据分析
目的:大数据分析一般不用来做定性或者定量分析,它主要用来发现数据背后的规律,或者说分析某些事件在给定条件下发生的概率。比如,根据气温、云层、风向、湿度等条件,计算明天下雨的概率。或者更生活化一些,在一个一线城市的周五下班高峰期,你打上一辆滴滴,滴滴估算从A点到B点的大概通行时间,这个影响因素更多,也需要更多的历史数据来参与运算。
手段:知道了我们的目的,就知道了我们需要的工具以及采取的手段,因为通常情况下,需要使用海量历史数据对模型进行训练,这就要求我们有处理大数据的手段,比如Nosql数据库,因为数据有可能需要及时给出结论,就需要进行流失数据分析和运算,更重的是,人工智能算法在其中起关键作用,指导了最终能不能训练出有效的模型,所以对高等数学的要求也非常高。
据此我们其实可以得出结论,大数据主要还是找出表象后的本质,或者找到事件发生的规律,并利用该规律解决未知的问题。
大数据分析能处理海量数据。因为数据量太多了,用一般的数据分析系统是处理不来的,所以就出现了一种换门做大数据分析的软件,通常叫做BI软件,如奥威BI软件就能处理亿级数据。另外,大数据分析还能实现数据的可视化、分析过程的可视化。这可比普通数据分析要直观多了。
什么是大数据分析?
大数据分析是指对规模巨大的数据进行分析。
对大数据bigdata进行采集、清洗、挖掘、分析等,大数据主要有数据采集、数据存储、数据管理和数据分析与挖掘技术。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等。
怎么简单理解“大数据”及其应用?
当我们听到这些大数据的应用案例时,会很自然地去质疑这些案例的可靠性。心中不免默念,这玩意儿的确有如此靠谱么?而其中最让人感觉不靠谱的,无疑是第三个,Google预测流感这件事儿。2009年2月19日,Nature上面有一篇文章,“Detecting influenza epidemics using search engine query data”,论述了Google基于用户的搜索日志(其中包括,搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息,成功“预测”了流感病人的就诊人数。
那么,Google为什么要干这件事儿呢?美国有个很牛的部门叫CDC,也就是疾控中心,这个部门统计美国本土各个地区的疾病就诊人数然后汇总,最后公布出来。但是呢,这个公布的数据的结果一般要延迟两周左右,也就是说当天的流感的全国就诊人数,要在两周之后才知道,Google呢就利用他的搜索引擎搭建了一个预测平台,把这个数据提前公布出来。所以说,Google做的工作并不是实际意义上的预测什么时候流感来,而是将CDC已经获得但是没及时公布的数据提前给猜出来,然后公布出来。当然,CDC为什么不及时公布数据,人家官方总是有自己的一堆理由的,我等草民不得而知,但是有一点是重要的,就是“越及时的数据,价值越高”,数据是有价值属性的。所以,Google的工作无论在公共管理领域还是商业领域都具有重大的意义。
Google的研究结果公布出来以后,大众对于这个研究案例的好评和差评都有不少,总之,引起了社会的热议,这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢?其原因就在于,如果在这个案例上成功了,Google就真正证明了大数据是“万能的”这件事,从而彻底颠覆社会对于大数据的看法。
首先,Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系,稍微有点儿高中数学基础的朋友很快就可以理解应用,但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法,预测复杂的问题。这件事为什么能成?根本就在于,Google的数据量大。这就是Google对于大数据的价值观。而大就是一切!Google有着世界上最大的搜索引擎,全世界每个用户的搜索行为都给存在Google的数据库里,Google想,我有这么多数据,不是想知道啥就知道啥。于是Google就做了这个伟大的事儿!
回过头来看三个经典的案例,从系统的角度上来看,一个人是一个小系统,一家超市是一个中等规模的系统,而一个国家一个地区则是一个超大的社会系统。如果要对一件事进行预测和分析,数据分析师要做两件事,一、构造理论模型;二、获取实证数据来拟合构造模型。对于小型简单系统,构造理论模型是可行的,而对于大规模的复杂系统,模型的构造则十分艰难(这也正是社会学家们每天忙碌研究的课题,也正是为什么社会革命家和思想家是如此的伟大,像马克思等等…)。大数据的观点之一认为,海量的数据可以弥补模型的不足,如果数据足够大,理论模型甚至根本就不需要。这种观点目前仍然处于争论中,搞理论的和搞实证(强调数据和统计方法)的专家们对此的口舌之战从没有停歇过。但无论如何,Google对于流感预测的研究无疑站在了支持大数据的一方,如果Google的案例是成功的,那么或许,拥有海量数据就真的意味着可以解决任意复杂的问题,大数据解决大问题!
上面的论述讲了半天Google案例的重要性,所以接下来,业界就把所有的目光凝聚在了Google预测的结果上。截止到Nature上面那篇Paper发表出来的时候,Google的预测还是准确的,不过到后来就发生了很大的偏差,偏差最大甚至高出了标准值(CDC公布的结果)将近一倍。
开始理论学家们是沮丧的,看到Google仗着自己庞大的数据库,在医疗监控这种复杂问题的预测分析过程中为所欲为,觉得自己马上就要下岗。然而时间到了2012年中旬的时候,他们就乐了,发现Google也不过如此,自己还是有价值的,实际上情况也确实如此。Google预测的失败也确实是过度地依赖于数据,导致很多被忽略了的因素对预测的结果产生了很大的影响。对客观世界进行预测需要模型,模型首先来自于理论构造,其次需要数据对模型进行训练对模型进行优化完善。大数据观点强调模型对数据训练的依赖,而尽可能地忽略理论构造这一部分的意义,这就有可能带来隐患。
从更加批判的角度来看,理论模型当中的确有一部分因素可以用数据量的规模来弥补,而仍然有一部分是不可弥补的。可弥补的部分因素,往往在数据量比较大的时候,被均匀的数据分布内部平滑抵消掉了,从整体上不会对最终的结果产生显著影响;而不可弥补的部分,往往和系统背后的结构性因素有关,这些因素不仅不会随着数据规模的增加而被消除,反而会由于系统的规模效应逐级放大最终产生背道而驰的结论。那么当数据分析专家需要对复杂的社会系统进行分析时,就一定要严谨地考虑对数据的依赖程度。因此,Google的案例既是一个很好的大数据的应用,同时其也为大数据在未来的发展道路上起到了很好的指示灯的作用。
99科技网:http://www.99it.com.cn

大数据分析的六个基本方面 1. Analytic Visualizations(可视化分析) 不
科技问答2022-06-30