数据清洗:把数据改变成我们喜欢的样子,以便后续的数据分析
2022-07-28 10:27来源:未知编辑:zjl
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
1、选择子集
以问题为导向,将可能用到的列进行展示,其他则利用EXCEL的“隐藏”功能进行隐藏。
2、列名重命名
重命名的目的是方便后续做数据分析,将复杂的列名改成通俗易懂的名称。这里检查表1表2,列名都很浅显易懂,所以不做更改。
3、删除重复值
表1购买商品表属于行为数据,每一条数据代表一种行为且唯一,因此无需删除;表2婴儿信息表的用户ID是用户下单的身份信息,有唯一特性,因此通过EXCEL的“删除重复值”功能进行处理,操作过后未发现有重复值。
4、缺失值处理
原始数据会经常由于缺失记录或者是技术原因没有爬取到一些数据,然而这些缺失会影响到数据分析,因此需对其缺失数据进行处理。处理步骤如下;
第一步:统计缺失值
对比每列包含数据的单元格数,发现商品属性一栏存在缺失值。
第二步:缺失值处理
因数据体量较大,缺失的值占比很小,为方便起见,对其缺失数据直接舍弃。
EXCEL路径:开始—查找和选择—定位条件—空值—确定。
5、一致化处理
一致化指的是数据是否有统一的标准或者命名,比如将表1和表2的日期都通过“分列”功能更改为“yyyy/mm/dd”的格式,如图:
6、数据排序
数据经过排序后可以帮助我们看到更多信息,这里咱们在后面的数据分析中体现。
7、异常值处理
根据要研究的问题来看,表1表2无异常值。
99科技网:http://www.99it.com.cn
相关推荐

在各种营销方式层出不穷的今天,软文成了不可或缺的信息载体。比起一般的硬
技术经验2022-08-09