主页 > 科技问答 > 正文

大数据的来源有几种?不同来源的数据各有什么特点?

2022-07-23 14:39来源:未知编辑:时寒峰

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

今天的大数据来源是,除了专业研究机构产生的大量数据(CERN的离子碰撞器每秒产生高达40TB的数据),与业务运营相关的大数据可分为四个来源:

1.越来越多的机器配备了持续测量和报告操作条件的设备。几年前,跟踪遥测发动机的运行仅限于价值数百万美元的航天飞机。现在,汽车制造商已在其车辆中配备了监视器,以持续提供车辆机械系统的整体运行。一旦数据可用,公司将尽一切可能从中获利。这些机器传感数据属于大数据范围。

2.计算机生成的数据可能包含有关互联网和其他用户的行为和行为的有趣信息,提供对其愿望和需求的潜在有用的理解。

3.用户自己生成的数据/信息。人们通过电子邮件,短信,微博等生成的文本信息。

4.迄今为止最大的数据是音频,视频和符号数据。这些数据结构松散且数量庞大,因此难以提取有意义的结论和有用的信息。

大数据改变了公司在所有行业中的运作方式。 从了解市场到如何挖掘商业信息,大数据可以看到每一个变化。 致力于收集和分析大数据的行业已经形成,并对现有公司产生了深远的影响。 根据调查,10%的公司认为,在过去五年中,大数据彻底改变了他们的运营方式。 46%的公司认为大数据是决策过程中的重要支撑因素。

大数据是目前互联网及商务应用最重要的组成部分。

分三部分:大数据的来源,大数据的特点及大数据的应用

大数据来源关于数据来源,互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。如阿里,百度,腾讯等。物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源都是大数据金矿,还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息等。当然还有另外一类是政府部门掌握的数据资源。

大数据主要特点:1.准确(Veracity)

这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程),精确性与信噪比(signal-to-noise ratio)有关。

例如,在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化,如何增加可用数据的精确性是大数据的主要挑战。

2.高速(Velocity)

大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。

这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。

3.体量(Volume)

大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。

一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。

4.多样(Variety)

在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。

结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。半结构化数据有一些结构特征,但不总是保持一致(举例来说,看一看JSON文件),使得这种类型难以处理。更富于挑战的是非结构化数据(例如纯文本文件)毫无结构特征可言。在大数据中,更常见的是半结构化数据,而且这些数据源的数据格式还各不相同。

在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。

尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。注意,即使有些数据拥有这4种属性中的一种或多种,也不能被归类为大数据,要完全拥有以上4种特性才能称得上是大数据。

大数据应用大数据主要有以下几种较为常用的功能:

追踪。互联网和物联网无时无刻都在记录,大数据可以追踪、追溯任何一个记录,形成真实的历史轨迹。包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息,等等。

识别。在对各种因素全面追踪的基础上,通过定位、比对、筛选,可以实现精准识别,尤其是对语音、图像、视频进行识别,使可分析内容大大丰富,得到的结果更为精准。

画像。通过对同一主体不同数据源的追踪、识别、匹配,形成更立体的刻画和更全面的认识。对消费者画像,可以精准推送广告和产品;对企业画像,可以准确判断信用及风险。

匹配。在海量信息中精准追踪和识别,利用相关性、接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。

优化。按距离最短、成本最低等给定的原则,通过各种算法对路径、资源等进行优化配置。对企业而言,提高服务水平、提升内部效率;对公共部门而言,节约公共资源、提升公共服务能力。

从这里你就知道为什么当你在淘宝搜索过某一样东西后,近期电脑里的广告都是与之相关的信息,或者是你在今日头条里打开过几个“王者荣耀”视频,后面他就会推送更多的这类视频出现在你的手机上。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏 多智时代 ,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

99科技网:http://www.99it.com.cn

相关推荐
该如何学习大数据知识? 该如何学习大数据知识?

谢谢邀请! 大数据是我的主要研究方向之一,同时也在带大数据方向的研究生

科技问答2022-07-23

什么叫大数据? 什么叫大数据?

本人工作岗位是大数据咨询顾问,从事大数据行业多年,IT行业十年经验。 大数

科技问答2022-07-23

大数据是什么意思? 大数据是什么意思?

大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不

科技问答2022-07-23

云计算,大数据,人工智能,到底是什么意思?云计算是计算什么东西?大数据是什么数据? 云计算,大数据,人工智能,到底是什么意思?云计算是计算什么东西?大数据是什么数据?

云计算、大数据、人工智能都是当前科技界的热门技术,它们支撑了各行各业的

科技问答2022-07-23

Java和Java大数据的区别是什么? Java和Java大数据的区别是什么?

java是一门编程语言,大数据是java开发的一个领域。学好大数据首先要学好JAV

科技问答2022-07-23

区块链和大数据哪个更有发展前景? 区块链和大数据哪个更有发展前景?

区块链的不可篡改性特征让其在征信、金融等方面大有用武之地,其他更多的应

科技问答2022-07-23

大数据化时代是如何产生的? 大数据化时代是如何产生的?

大数据时代的出现是信息化发展的必然结果,再具体点来说是物联网和云计算发

科技问答2022-07-23

数据仓库和大数据的区别? 数据仓库和大数据的区别?

两个名词的从定义上就是有本质区别的 数据仓库:是为企业所有级别的决策制

科技问答2022-07-23

大数据和Hadoop什么关系?为什么大数据要学习Hadoop? 大数据和Hadoop什么关系?为什么大数据要学习Hadoop?

这是一个非常好的问题,作为一名IT从业者,我来回答一下这个问题。 首先,大

科技问答2022-07-23

大数据的2020年,有什么发展趋势? 大数据的2020年,有什么发展趋势?

数据已被国家层面定义为共创共享、可分配的“生产要素”,这必将极大的助力

科技问答2022-07-23