Datenfusion

Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze. Sie ist ein wichtiger Bestandteil der Informationsintegration. Es werden mit Hilfe eines Spenderdatensatzes Daten in einem Empfängerdatensatz ergänzt. Der Spenderdatensatz besteht aus Variablen und der Empfängerdatensatz aus Variablen . Die Variablen liegen also in beiden Datensätzen vor, während die Variablen bzw. nur in einem der Datensätze vorliegen. Auf Basis des Spenderdatensatzes wird ein Modell zur Berechnung der Werte aus den Variablen erstellt. Dieses Modell wird auf den Empfängerdatensatz angewandt, so dass ein neuer, fusionierter Datensatz entsteht: . Die verwendeten statistischen Verfahren werden dabei unter dem Begriff Statistical matching zusammengefasst und sind z. T. verwandt mit den Verfahren der Imputation von fehlenden Werten.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.