AI-Alignment

Innerhalb der Forschung zur Künstlichen Intelligenz (KI, engl. AI, Artificial Intelligence) zielt die AI-Alignmentforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken: Ein KI-System gilt als aligned (deutsch: „ausgerichtet“), wenn es die beabsichtigten Ziele fördert – demgegenüber ist es misaligned (deutsch: „fehlausgerichtet“), wenn es fähig ist, bestimmte Ziele zu erreichen, nicht aber die beabsichtigten.

Für KI-Programmierende kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die „Erlangung menschlicher Zustimmung“. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein eines korrekten Alignments belohnen.

Wenn ein KI-System fehlausgerichtet ist, kann dies zu schwerwiegenden Fehlern führen oder Schaden anrichten: Die KI kann Schlupflöcher finden, die es ihr ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen („Belohnungs-Hacking“). KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen; außerdem können sie emergente Ziele entwickeln, das heißt, Ziele, die unerwartet, aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen, Robotern, autonomen Fahrzeugen und Empfehlungsalgorithmen für soziale Medien zu beobachten. Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle eines Fehlalignements gefährden könnte; die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach entsprechender technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1.797 KI- und Robotik-Forschenden unterzeichnet.

Das Wertalignment von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können; andere entspr. Teilbereiche sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten. Zu den Herausforderungen im Bereich des KI-Wertalignments zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung „ehrlicher“ KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht.

Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen:

zur Interpretierbarkeitsforschung,
zur Erkennung von Anomalien,
zur kalibrierten Unsicherheit,
zur formalen Verifikation,
zum Präferenzlernen,
zu für Sicherheit relevanter Technik,
zur Spieltheorie,
zur Algorithmen-Fairness, und
zu den Sozialwissenschaften.

1 2 3 4 5 6 Stuart J. Russell, Peter Norvig: Artificial intelligence: A modern approach. 4. Ausgabe. Pearson, 2020, ISBN 978-1-292-40113-3, S. 31–34; pearson.com
1 2 Richard Ngo, Lawrence Chan, Sören Mindermann: The alignment problem from a deep learning perspective. 22. Februar 2023; arxiv:2209.00626
1 2 Alexander Pan, Kush Bhatia, Jacob Steinhardt: The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations, 14. Februar 2022; abgerufen am 21. Juli 2022.
↑ Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.
↑ Joseph Carlsmith: Is Power-Seeking AI an Existential Risk? 16. Juni 2022; arxiv:2206.13353
1 2 3 Stuart J. Russell: Human compatible: Artificial intelligence and the problem of control. Penguin Random House, 2020, ISBN 978-0-525-55863-7.
↑ Brian Christian: The alignment problem: Machine learning and human values. W. W. Norton & Company, 2020, ISBN 978-0-393-86833-3; wwnorton.co.uk (Memento vom 10. Februar 2023 im Internet Archive)
↑ Lauro Langosco Di Langosco, Jack Koch, Lee D. Sharkey, Jacob Pfau, David Krueger: Goal Misgeneralization in Deep Reinforcement Learning. In: Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning, PMLR, 28. Juni 2022. S. 12004–12019. proceedings.mlr.press abgerufen am 11. März 2023.
↑ Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, J. Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, P. Welinder, P. Christiano, J. Leike, Ryan J. Lowe: Training language models to follow instructions with human feedback. 2022; arxiv:2203.02155
↑ Wojciech Zaremba, Greg Brockman: „OpenAI Codex“ OpenAI, 10. August 2021; openai.com/blog (Memento vom 3. Februar 2023 im Internet Archive)
↑ Jens Kober, J. Andrew Bagnell, Jan Peters: Reinforcement learning in robotics: A survey. In: The International Journal of Robotics Research, 1. September 2013, 32 (11), S. 1238–1274; doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843
↑ W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt, Peter Stone: Reward (Mis)design for autonomous driving. In: Artificial Intelligence, 1. März 2023, 316, S. 103829; doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
↑ Jonathan Stray: Aligning AI Optimization to Community Well-Being. In: International Journal of Community Well-Being, 2020, 3 (4), 443–463; doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010 (freier Volltext), PMID 34723107. S2CID 226254676.
↑ Stuart Russell, Peter Norvig: Artificial Intelligence: A Modern Approach. Prentice Hall, 2009, ISBN 978-0-13-604259-4, S. 1010; aima.cs.berkeley.edu
↑ Craig S. Smith: Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat. In: Forbes; abgerufen am 4. Mai 2023
↑ Asilomar AI Principles. Future of Life Institute, 11. August 2017.
↑ Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) Vereinte Nationen, 2021; un.org (Memento vom 22. Mai 2022 im Internet Archive; PDF) „Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.“
1 2 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané: Concrete Problems in AI Safety. 21. Juni, 2016; arxiv:1606.06565
1 2
1 2 Mordechai Rorvig: Researchers Gain New Understanding From Simple AI. In: Quanta Magazine, 14. April, 2022; quantamagazine.org (Memento vom 10. Februar 2023 im Internet Archive).
↑ Finale Doshi-Velez, Been Kim: Towards A Rigorous Science of Interpretable Machine Learning.2. März 2017; arxiv:1702.08608
↑ Stuart Russell, Daniel Dewey, Max Tegmark: Research Priorities for Robust and Beneficial Artificial Intelligence. In: AI Magazine, 31. Dezember 2015, 36 (4), S. 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. ojs.aaai.org (Memento vom 2. Februar 2023 im Internet Archive)
↑ Christian Wirth, Riad Akrour, Gerhard Neumann, Johannes Fürnkranz: A survey of preference-based reinforcement learning methods. In: Journal of Machine Learning Research, 2017, 18 (136), S. 1–46.
↑ Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei: Deep reinforcement learning from human preferences. In: Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Red Hook NY 2017, ISBN 978-1-5108-6096-4, S. 4302–4310.
↑ Will Douglas Heaven: The new version of GPT-3 is much better behaved (and should be less toxic). In: MIT Technology Review, 27. Januar 2022; technologyreview.com (Memento vom 10. Februar 2023 im Internet Archive)
↑ Sina Mohseni, Haotao Wang, Zhiding Yu, Chaowei Xiao, Zhangyang Wang, Jay Yadawa. Taxonomy of Machine Learning Safety: A Survey and Primer. 7. März 2022; arxiv:2106.04823.
↑ Jesse Clifton: Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda. Center on Long-Term Risk, 2020; longtermrisk.org (Memento vom 1. Januar 2023 im Internet Archive)
↑ Carina Prunkl, Jess Whittlestone: Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society. In: Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA, 7. Februar 2020. ACM, ISBN 978-1-4503-7110-0, S. 138–143; doi:10.1145/3375627.3375803. S2CID 210164673. acm.org (Memento vom 16. Oktober 2022 im Internet Archive)
↑ Geoffrey Irving, Amanda Askell: AI Safety Needs Social Scientists. In: Distill, 19. Februar, 2019, 4 (2); doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. distill.pub (Memento vom 10. Februar 2023 im Internet Archive)

[approach/31-34-1] 1 2 3 4 5 6 Stuart J. Russell, Peter Norvig: Artificial intelligence: A modern approach. 4. Ausgabe. Pearson, 2020, ISBN 978-1-292-40113-3, S. 31–34; pearson.com

[arxiv:2209.00626-2] 1 2 Richard Ngo, Lawrence Chan, Sören Mindermann: The alignment problem from a deep learning perspective. 22. Februar 2023; arxiv:2209.00626

[Misspecification-3] 1 2 Alexander Pan, Kush Bhatia, Jacob Steinhardt: The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations, 14. Februar 2022; abgerufen am 21. Juli 2022.

[4] Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.

[Carlsmith-5] Joseph Carlsmith: Is Power-Seeking AI an Existential Risk? 16. Juni 2022; arxiv:2206.13353

[:6-6] 1 2 3 Stuart J. Russell: Human compatible: Artificial intelligence and the problem of control. Penguin Random House, 2020, ISBN 978-0-525-55863-7.

[:7-7] Brian Christian: The alignment problem: Machine learning and human values. W. W. Norton & Company, 2020, ISBN 978-0-393-86833-3; wwnorton.co.uk (Memento vom 10. Februar 2023 im Internet Archive)

[:8-8] Lauro Langosco Di Langosco, Jack Koch, Lee D. Sharkey, Jacob Pfau, David Krueger: Goal Misgeneralization in Deep Reinforcement Learning. In: Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning, PMLR, 28. Juni 2022. S. 12004–12019. proceedings.mlr.press abgerufen am 11. März 2023.

[arxiv:2203.02155-9] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, J. Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, P. Welinder, P. Christiano, J. Leike, Ryan J. Lowe: Training language models to follow instructions with human feedback. 2022; arxiv:2203.02155

[:10-10] Wojciech Zaremba, Greg Brockman: „OpenAI Codex“ OpenAI, 10. August 2021; openai.com/blog (Memento vom 3. Februar 2023 im Internet Archive)

[11] Jens Kober, J. Andrew Bagnell, Jan Peters: Reinforcement learning in robotics: A survey. In: The International Journal of Robotics Research, 1. September 2013, 32 (11), S. 1238–1274; doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843

[12] W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt, Peter Stone: Reward (Mis)design for autonomous driving. In: Artificial Intelligence, 1. März 2023, 316, S. 103829; doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.

[13] Jonathan Stray: Aligning AI Optimization to Community Well-Being. In: International Journal of Community Well-Being, 2020, 3 (4), 443–463; doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010 (freier Volltext), PMID 34723107. S2CID 226254676.

[14] Stuart Russell, Peter Norvig: Artificial Intelligence: A Modern Approach. Prentice Hall, 2009, ISBN 978-0-13-604259-4, S. 1010; aima.cs.berkeley.edu

[15] Craig S. Smith: Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat. In: Forbes; abgerufen am 4. Mai 2023

[16] Asilomar AI Principles. Future of Life Institute, 11. August 2017.

[17] Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) Vereinte Nationen, 2021; un.org (Memento vom 22. Mai 2022 im Internet Archive; PDF) „Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.“

[:12-18] 1 2 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané: Concrete Problems in AI Safety. 21. Juni, 2016; arxiv:1606.06565

[DeepMind/safety-19] 1 2

[Rorvig-20] 1 2 Mordechai Rorvig: Researchers Gain New Understanding From Simple AI. In: Quanta Magazine, 14. April, 2022; quantamagazine.org (Memento vom 10. Februar 2023 im Internet Archive).

[21] Finale Doshi-Velez, Been Kim: Towards A Rigorous Science of Interpretable Machine Learning.2. März 2017; arxiv:1702.08608

[22] Stuart Russell, Daniel Dewey, Max Tegmark: Research Priorities for Robust and Beneficial Artificial Intelligence. In: AI Magazine, 31. Dezember 2015, 36 (4), S. 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. ojs.aaai.org (Memento vom 2. Februar 2023 im Internet Archive)

[:13-23] Christian Wirth, Riad Akrour, Gerhard Neumann, Johannes Fürnkranz: A survey of preference-based reinforcement learning methods. In: Journal of Machine Learning Research, 2017, 18 (136), S. 1–46.

[:14-24] Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei: Deep reinforcement learning from human preferences. In: Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Red Hook NY 2017, ISBN 978-1-5108-6096-4, S. 4302–4310.

[:15-25] Will Douglas Heaven: The new version of GPT-3 is much better behaved (and should be less toxic). In: MIT Technology Review, 27. Januar 2022; technologyreview.com (Memento vom 10. Februar 2023 im Internet Archive)

[26] Sina Mohseni, Haotao Wang, Zhiding Yu, Chaowei Xiao, Zhangyang Wang, Jay Yadawa. Taxonomy of Machine Learning Safety: A Survey and Primer. 7. März 2022; arxiv:2106.04823.

[27] Jesse Clifton: Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda. Center on Long-Term Risk, 2020; longtermrisk.org (Memento vom 1. Januar 2023 im Internet Archive)

[28] Carina Prunkl, Jess Whittlestone: Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society. In: Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA, 7. Februar 2020. ACM, ISBN 978-1-4503-7110-0, S. 138–143; doi:10.1145/3375627.3375803. S2CID 210164673. acm.org (Memento vom 16. Oktober 2022 im Internet Archive)

[29] Geoffrey Irving, Amanda Askell: AI Safety Needs Social Scientists. In: Distill, 19. Februar, 2019, 4 (2); doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. distill.pub (Memento vom 10. Februar 2023 im Internet Archive)