Datenbereinigung

Zur Datenbereinigung (englisch data cleansing oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.

Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).

Die Datenbereinigung ist ein Beitrag zur Verbesserung der Datenqualität. Allerdings betrifft dies auch die Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit), die sich mittels Datenbereinigung nicht verbessern lassen.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.