Als Dark Data bezeichnet man Daten, die zwar von Informationssystemen erfasst und gespeichert, aber nicht verwendet werden oder nicht verwendet werden können. Bei großen Datenmengen (Big Data) können viele Daten entstehen, die nicht alle analysiert, betrachtet oder benutzt werden und so kommt es dazu, dass man sich der Existenz der Daten nicht mehr bewusst ist. Der Begriff wurde wesentlich von Bryan P. Heidorn geprägt.

Gründe für Dark Data

Für die Entstehung von Dark Data bzw. die Entscheidung, Dark Data zuzulassen, gibt es unterschiedliche Gründe. Generell sind diese in schlechtem Datenmanagement zu suchen. Konkrete Gründe für die eingeschränkte Nutzbarkeit der Daten können beispielsweise sein:

  • sämtliche Daten sollen gesichert und archiviert werden, ohne dabei zu beachten, wie oft diese benutzt werden
  • rechtliche und sicherheitstechnische Gründe (z. B. Pflicht, bestimmte Daten nicht zu löschen)
  • überflüssige oder fehlerhafte Daten sind entstanden und geraten in den Hintergrund
  • Daten sind an andere Daten gebunden, werden aber selbst nicht genutzt
  • Daten sind nicht auffindbar, versteckt, beschädigt oder verschlüsselt und werden deswegen ignoriert
  • Daten sollen für spätere Analysen aufbewahrt werden und deswegen noch nicht weiter beachtet (Zeitaufschiebung oder Warten auf bessere Technologien)
  • veraltete Daten und Datenreste (Daten, die nicht an die Zeit angepasst sind werden als irrelevant eingestuft und vergessen bzw. ignoriert)
  • Speicher werden größer und damit auch mehr beansprucht und Daten lassen sich besser komprimieren
  • Mangel bei der Suche, Klassifikation, Sortierung und Kategorisierung von Daten
  • hoher Kosten- und Zeitaufwand bei der Auswertung
  • die Daten entsprechen nicht den FAIR-Prinzipien
  • die Daten sind verwaist
  • die Daten sind nicht mit Metadaten annotiert

Bedeutung und Ausblick

Nach Schätzungen von IBM werden ungefähr 90 % der Daten, die durch Sensoren und Analog-Digital-Umsetzer erzeugt werden, niemals genutzt. Die meisten Unternehmen analysieren zudem durchschnittlich nur 1 % der Daten. Dies liegt bei Unternehmen meist an der hohen Menge an Daten, die nicht mehr zu bewältigen ist und deren Bearbeitung sehr kostenintensiv wäre. Das deckt sich mit einer 2020 von Splunk durchgeführten Studie zum Datenzeitalter, in der 66 % der Führungskräfte berichten, dass mindestens die Hälfte der Daten in ihren Unternehmen Dark Data sind, was laut Splunk einem Anstieg von 10 % im Vergleich zum Vorjahr darstellt. Bei Computer Weekly gaben 60 % der befragten Organisationen an, zu glauben, dass ihre Business-Intelligence-Systeme unzureichend seien. 65 % sagten außerdem, dass das Content-Management sehr unorganisiert ablaufe. Zudem gaben bei der New York Times 90 % der Datenzentren an, dass 90 % ihres Energieverbrauches verschwendet wird und damit eine höhere Belastung für die Umwelt und Mehrkosten durch Dark Data entstünden. Daher versuchen viele Unternehmen, Dark Data mit Künstlicher Intelligenz auszuwerten. Ein bekanntes Beispiel ist Watson von IBM. Werden wichtige Daten erst zu spät erkannt, kann das für Unternehmen schlimme Folgen haben. Zudem ist es schwer zu beurteilen, wie mit sensiblen Daten umzugehen ist, die übertragen bzw. weitergereicht werden sollen, aber noch nicht analysiert worden sind oder was bei Datendiebstahl mit den Daten passiert.

Nach Meinung einiger Unternehmen können die heute nicht genutzten Daten allerdings in Zukunft für einzelne Anwendungen bzw. Analysen wichtig sein.

Einzelnachweise

  1. 1 2 Dark Data. In: ITwissen.info. DATACOM Buchverlag GmbH, abgerufen am 14. Oktober 2019.
  2. Dark Data: Die im Dunkeln sieht man nicht. In: sueddeutsche.de. Süddeutsche, abgerufen am 12. Mai 2023.
  3. Heidorn, P. Bryan. "Shedding light on the dark data in the long tail of science." Library trends 57.2 (2008): 280-299.
  4. Schembera, B., Durán, J.M. Dark Data as the New Challenge for Big Data Science and the Introduction of the Scientific Data Officer. Philos. Technol. 33, 93–115 (2020). https://doi.org/10.1007/s13347-019-00346-x
  5. Digging up dark data: What puts IBM at the forefront of insight economy | #IBMinsight – SiliconANGLE. In: SiliconANGLE. 30. Oktober 2015 (Online [abgerufen am 1. Februar 2018]).
  6. The big data challenge of transformation for the manufacturing. Abgerufen am 1. Februar 2018 (englisch).
  7. Splunk veröffentlicht Studie zum Datenzeitalter. Abgerufen am 1. Dezember 2020.
  8. Datenzeitalter. Abgerufen am 1. Dezember 2020 (deutsch).
  9. Splunk-Studie: Deutsche Unternehmen bei Big-Data gut gerüstet? – speicherguide.de. Abgerufen am 1. Dezember 2020.
  10. Dark data could halt big data’s path to success. In: ComputerWeekly.com. (Online [abgerufen am 1. Februar 2018]).
  11. James Glanz: Data Centers Waste Vast Amounts of Energy, Belying Industry Image. In: The New York Times. 22. September 2012, ISSN 0362-4331 (Online [abgerufen am 1. Februar 2018]).
  12. IBM Cognitive Colloquium Spotlights Uncovering Dark Data – InformationWeek. In: InformationWeek. (Online [abgerufen am 1. Februar 2018]).
  13. Deriving Value from Data Before It Goes Dark – insideBIGDATA. In: insideBIGDATA. 12. Oktober 2015 (Online [abgerufen am 1. Februar 2018]).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.