Real-World data tend to be incomplete, noisy and incosistent.
Data cleaning(or data cleansing) routines attempt to fill in missing values, smooth out noise while identifying outlier and correct inconsistencies in the data.
ข้อมูลการทำความสะอาด (หรือ Data Cleansing) ประจำพยายามที่จะกรอกข้อมูลลงในค่าที่ขาดหายเรียบเสียงรบกวนในขณะที่การระบุขอบเขตที่ถูกต้องและไม่สอดคล้องกันในข้อมูล