笔记:数据清理验证清单

数据验证是一个确认数据清理工作执行良好、结果数据准确可靠的过程。没有验证,就不能确定你的见解在数据驱动的决策中是否可以被信赖。

每个项目都有独特的组织和数据需求,所以有必要运行特有的清单进行验证。但无论项目和工具为何,均可参考以下清单。

1、确保发现了最常见的问题并加以纠正,包括:
1) 错误来源:是否使用了正确的工具和函数来查找数据集中的错误来源?
2) 空数据:是否使用条件格式和过滤器搜索null?
3) 拼写错误的单词:找到所有的拼写错误了吗?
4) 数字输入错误:是否再次检查的数字数据是否输入正确?
5) 额外的空格和字符:是否使用TRIM功能删除了任何额外的空格或字符?
6) 重复:是否使用删除重复功能或在SQL中删除电子表格中的重复?
7) 不匹配的数据类型:是否检查了数字、日期和字符串数据的类型转换正确?
8) 凌乱(不一致)的字符串:是否确保所有的字符串都是一致且有意义的?
9) 凌乱的(不一致的)日期格式:的数据集的日期格式一致吗?
10) 误导变量标签(列):的列的名字有意义吗?
11) 删节数据:是否检查过截断或缺失的数据需要更正?
12) 业务逻辑:是否根据对业务的了解,检查了数据的意义?

2、一旦完成了数据清理任务,最好检查一下项目的目标,并确认数据仍然与目标一致:
1) Confirm the business problem确认业务问题
2) Confirm the goal of the project确定项目目标
3) 验证数据可以解决问题,并与目标一致
当接收到更多的数据或对项目目标有了更好的理解时,可能需要重新回顾这些步骤的一部分或全部。这是一个贯穿于整个项目的持续过程。

另,清理过程中的变更日志非常非常重要。