در مرحله پاکسازی داده که گام سوم آماده سازی داده به شمار میرود، خطاهای داده شناسایی و پاکسازی میشوند، پاکسازی داده ها به صورت سنتی زمان زیادی را در آماده سازی داده دربر میگیرد، اما برای حذف داده های معیوب و پرکردن داده های گم شده بسیار مهم است.
پاکسازی داده یک مجموعه داده کامل و دقیق ایجاد میکند تا هنگام تجزیه و تحلیل پاسخهای معتبری ارائه دهند. این مرحله برای دادههای کوچک میتواند به صورت دستی انجام شود اما برای مجموعه دادههای واقعی نیاز به یک روش مکانیزه دارد.
پاکسازی داده شامل موارد زیر است: حذف داده های تکراری و پرت، حذف هزینههای اضافی، تصحیح خطاهای ورودی، حذف یا پرکردن مقادیر از دست رفته، تطبیق دادهها با الگوی استاندارد شده و پوشش دادههای خصوصی یا حساس مانند نام یا آدرس.
پس از مرحله پاکسازی داده ها باید فرآیند آماده سازی و پیش پردازش داده ها تا این مرحله مورد آزمایش خطایابی قرار گیرد تا اگر خطایی در این مرحله دیده شد، قبل از ورود به مرحله بعدی برطرف شود.