AI-Alignment

Innerhalb der Forschung zur Künstlichen Intelligenz (KI) zielt die AI-Alignmentforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als aligned (deutsch: ausgerichtet), wenn es die beabsichtigten Ziele fördert. Ein misaligned (deutsch: fehlausgerichtetes) KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die beabsichtigten.

Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die Erlangung menschlicher Zustimmung. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein eines korrekten Alignments belohnen.

Wenn ein KI-System misaligned (deutsch: fehlausgerichtet) ist, kann dies zu schwerwiegenden Fehlern führen oder Schaden anrichten. Die KI kann Schlupflöcher finden, die es ihr ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking). KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen. Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet, aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen, Robotern, autonomen Fahrzeugen und Empfehlungsalgorithmen für soziale Medien zu beobachten. Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle eines Fehlalignements gefährden könnte.

Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.

Das Wertalignement von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können. Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten. Zu den Herausforderungen im Bereich des KI-Wertalignements zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht. Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur Interpretierbarkeitsforschung, zur Erkennung von Anomalien, zur kalibrierten Unsicherheit, zur formalen Verifikation, zum Präferenzlernen, zur für Sicherheit relevanten Technik, zur Spieltheorie, zur Algorithmen-Fairness, und zu den Sozialwissenschaften.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.