主页 > 科技问答 > 正文

大数据和普通的数据分析有什么区别？

2022-06-30 13:38来源：未知编辑：lyh

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

严格来说，大数据分析也属于数据分析的一种，不过大数据分析的目的和手段，与普通的数据分析还是有区别的。

普通数据分析

目的：对已知的有限规模数据进行定量或者定性分析，有比较明确的目的，比如分析某种商品的销售趋势、统计各年龄段在全国各省市的分布，甚至大部分股票曲线等都属于普通分析的一种。

手段：很多时候使用Excel就足够了，也可以使用专业的BI工具，各种软件内置的报表功能，都属于分析的手段，咱们的今日头条后台就有不少这种报表，也属于普通分析的一种。

大数据分析

目的：大数据分析一般不用来做定性或者定量分析，它主要用来发现数据背后的规律，或者说分析某些事件在给定条件下发生的概率。比如，根据气温、云层、风向、湿度等条件，计算明天下雨的概率。或者更生活化一些，在一个一线城市的周五下班高峰期，你打上一辆滴滴，滴滴估算从A点到B点的大概通行时间，这个影响因素更多，也需要更多的历史数据来参与运算。

手段：知道了我们的目的，就知道了我们需要的工具以及采取的手段，因为通常情况下，需要使用海量历史数据对模型进行训练，这就要求我们有处理大数据的手段，比如Nosql数据库，因为数据有可能需要及时给出结论，就需要进行流失数据分析和运算，更重的是，人工智能算法在其中起关键作用，指导了最终能不能训练出有效的模型，所以对高等数学的要求也非常高。

据此我们其实可以得出结论，大数据主要还是找出表象后的本质，或者找到事件发生的规律，并利用该规律解决未知的问题。

大数据分析能处理海量数据。因为数据量太多了，用一般的数据分析系统是处理不来的，所以就出现了一种换门做大数据分析的软件，通常叫做BI软件，如奥威BI软件就能处理亿级数据。另外，大数据分析还能实现数据的可视化、分析过程的可视化。这可比普通数据分析要直观多了。

什么是大数据分析？

大数据分析是指对规模巨大的数据进行分析。

对大数据bigdata进行采集、清洗、挖掘、分析等，大数据主要有数据采集、数据存储、数据管理和数据分析与挖掘技术。

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好，想要的东西，从而得到他们想要的，比如精准营销，征信分析，消费分析等等。

怎么简单理解“大数据”及其应用？

当我们听到这些大数据的应用案例时，会很自然地去质疑这些案例的可靠性。心中不免默念，这玩意儿的确有如此靠谱么？而其中最让人感觉不靠谱的，无疑是第三个，Google预测流感这件事儿。2009年2月19日，Nature上面有一篇文章，“Detecting influenza epidemics using search engine query data”，论述了Google基于用户的搜索日志（其中包括，搜索关键词、用户搜索频率以及用户IP地址等信息）的汇总信息，成功“预测”了流感病人的就诊人数。

那么，Google为什么要干这件事儿呢？美国有个很牛的部门叫CDC，也就是疾控中心，这个部门统计美国本土各个地区的疾病就诊人数然后汇总，最后公布出来。但是呢，这个公布的数据的结果一般要延迟两周左右，也就是说当天的流感的全国就诊人数，要在两周之后才知道，Google呢就利用他的搜索引擎搭建了一个预测平台，把这个数据提前公布出来。所以说，Google做的工作并不是实际意义上的预测什么时候流感来，而是将CDC已经获得但是没及时公布的数据提前给猜出来，然后公布出来。当然，CDC为什么不及时公布数据，人家官方总是有自己的一堆理由的，我等草民不得而知，但是有一点是重要的，就是“越及时的数据，价值越高”，数据是有价值属性的。所以，Google的工作无论在公共管理领域还是商业领域都具有重大的意义。

Google的研究结果公布出来以后，大众对于这个研究案例的好评和差评都有不少，总之，引起了社会的热议，这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢？其原因就在于，如果在这个案例上成功了，Google就真正证明了大数据是“万能的”这件事，从而彻底颠覆社会对于大数据的看法。

首先，Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系，稍微有点儿高中数学基础的朋友很快就可以理解应用，但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法，预测复杂的问题。这件事为什么能成？根本就在于，Google的数据量大。这就是Google对于大数据的价值观。而大就是一切！Google有着世界上最大的搜索引擎，全世界每个用户的搜索行为都给存在Google的数据库里，Google想，我有这么多数据，不是想知道啥就知道啥。于是Google就做了这个伟大的事儿！

回过头来看三个经典的案例，从系统的角度上来看，一个人是一个小系统，一家超市是一个中等规模的系统，而一个国家一个地区则是一个超大的社会系统。如果要对一件事进行预测和分析，数据分析师要做两件事，一、构造理论模型；二、获取实证数据来拟合构造模型。对于小型简单系统，构造理论模型是可行的，而对于大规模的复杂系统，模型的构造则十分艰难（这也正是社会学家们每天忙碌研究的课题，也正是为什么社会革命家和思想家是如此的伟大，像马克思等等…）。大数据的观点之一认为，海量的数据可以弥补模型的不足，如果数据足够大，理论模型甚至根本就不需要。这种观点目前仍然处于争论中，搞理论的和搞实证（强调数据和统计方法）的专家们对此的口舌之战从没有停歇过。但无论如何，Google对于流感预测的研究无疑站在了支持大数据的一方，如果Google的案例是成功的，那么或许，拥有海量数据就真的意味着可以解决任意复杂的问题，大数据解决大问题！

上面的论述讲了半天Google案例的重要性，所以接下来，业界就把所有的目光凝聚在了Google预测的结果上。截止到Nature上面那篇Paper发表出来的时候，Google的预测还是准确的，不过到后来就发生了很大的偏差，偏差最大甚至高出了标准值（CDC公布的结果）将近一倍。

开始理论学家们是沮丧的，看到Google仗着自己庞大的数据库，在医疗监控这种复杂问题的预测分析过程中为所欲为，觉得自己马上就要下岗。然而时间到了2012年中旬的时候，他们就乐了，发现Google也不过如此，自己还是有价值的，实际上情况也确实如此。Google预测的失败也确实是过度地依赖于数据，导致很多被忽略了的因素对预测的结果产生了很大的影响。对客观世界进行预测需要模型，模型首先来自于理论构造，其次需要数据对模型进行训练对模型进行优化完善。大数据观点强调模型对数据训练的依赖，而尽可能地忽略理论构造这一部分的意义，这就有可能带来隐患。

从更加批判的角度来看，理论模型当中的确有一部分因素可以用数据量的规模来弥补，而仍然有一部分是不可弥补的。可弥补的部分因素，往往在数据量比较大的时候，被均匀的数据分布内部平滑抵消掉了，从整体上不会对最终的结果产生显著影响；而不可弥补的部分，往往和系统背后的结构性因素有关，这些因素不仅不会随着数据规模的增加而被消除，反而会由于系统的规模效应逐级放大最终产生背道而驰的结论。那么当数据分析专家需要对复杂的社会系统进行分析时，就一定要严谨地考虑对数据的依赖程度。因此，Google的案例既是一个很好的大数据的应用，同时其也为大数据在未来的发展道路上起到了很好的指示灯的作用。

99科技网：http://www.99it.com.cn