Bayes’sche Optimierung

Die Bayes’sche Optimierung ist eine sequenzielle Versuchsplanung für die globale Optimierung von Black-Box-Funktionen, die keine funktionalen Formen voraussetzt. Sie wird in der Regel zur Optimierung von Funktionen eingesetzt, die teuer zu bewerten sind.

Bei der Bayes’sche Optimierung wird bestehendes Wissen eingesetzt um neue Datenpunkte zur Auswertung durch die Black-Box-Funktion vorzuschlagen und so das Optimum zu finden. Die vorgeschlagenen Punkte gehen einen Trade-off zwischen Exploration und Exploitation ein, welcher durch die gewählte Erfassungsfunktionen beeinflusst wird.

Geschichte

Der Begriff wird im Allgemeinen Jonas Mockus zugeschrieben und ist in seiner Arbeit aus einer Reihe von Veröffentlichungen über globale Optimierung in den 1970er und 1980er Jahren geprägt.

Ausgangslage

Die Bayes'sche Optimierung wird typischerweise bei Problemen der Form ${\textstyle \max _{x\in A}f(x)}$ eingesetzt, wobei ${\textstyle A}$ eine Menge von Punkten ist, ${\textstyle x}$ , die sich auf weniger als 20 Dimensionen ( ${\textstyle \mathbb {R} ^{d},d\leq 20}$ ), und deren Zugehörigkeit leicht bewertet werden kann. Die Bayes'sche Optimierung ist besonders vorteilhaft für Probleme, bei denen ${\textstyle f(x)}$ aufgrund seiner Rechenkosten schwer zu bewerten ist. Die Zielfunktion, ${\textstyle f}$ ist kontinuierlich und hat die Form einer unbekannten Struktur, die als „Black Box“ bezeichnet wird. Bei ihrer Auswertung wird nur ${\textstyle f(x)}$ beobachtet und seine Ableitungen werden nicht ausgewertet.

Strategie

Da die Zielfunktion $f$ unbekannt ist, besteht die Bayes'sche Strategie darin, sie als Zufallsfunktion zu behandeln und ihr einen Prior zuzuweisen. Der Prior gibt die Überzeugungen über das Verhalten der Funktion wieder. Nach dem Sammeln der Funktionsbewertungen, die als Daten behandelt werden, wird der Prior aktualisiert, um die Posterior-Verteilung über die Zielfunktion zu bilden. Die Posterior-Verteilung wird wiederum verwendet, um eine Erfassungsfunktion (oft auch als Infill-Sampling-Kriterium bezeichnet) zu konstruieren, die den nächsten Abfragepunkt bestimmt.

In der Optimierung sollen neue Punkte $x_{t}^{*}$ vorgeschlagen werden, die $f$ maximieren/minimieren.

Die Bayes'sche Optimierung beruht darauf, dass ein Surrogatmodell ${\hat {f}}$ an der Stelle $x\in A$ leichter auszuwerten ist als die echte Black-Box Funktion $f$ . Typischerweise werden als Surrogatmodelle Gauß-Prozesse, Parzen-Tree Estimator, Random Forests oder andere bootstrap aggregated models verwendet. Gemeinsam haben diese Schätzmodelle, dass sie eine Varianzschätzung (und damit eine Schätzung der Verteilung) erlauben. Diese Varianzsschätzung wird anschließend in den Erfassungsfunktionen verwendet, um nicht nur das (mittlere, erwartete) Optimum zu finden, sondern zusätzlich einen Erwartungswert-Varianz-Trade-off einzugehen: Punkte $x$ mit hoher Varianz in der Vorhersage des Surrogatmodells, könnten beispielsweise einen deutlich höheren echten Wert $f$ aufweisen als das Modell ${\hat {f}}$ bisher modelliert hat. Punkte mit hoher Chance auf eine mögliche Verbesserung (gemessen durch die Erfassungsfunktion) werden als neue Punkte zur Auswertung von $f$ vorgeschlagen. Wenn die Auswertung erfolgt ist, wird das neue Wertepaar $(x,f(x))$ in die Modellierung des Surrogatmodells aufgenommen. Es ergeben sich dann neue Punkte mit hoher Chance auf eine mögliche Verbesserung und der Vorgang wird bis zur Konvergenz wiederholt.

Mit Kenntnis der durch das Surrogatmodell geschätzten bedingten Wahrscheinlichkeitsdichte ${\hat {p}}(f|x_{i})$ kann die Erfassungsfunktion erwartete Verbesserung $EI(x)=E[f|x]-f(x^{\dagger })$ geschätzt werden. Hierbei ist $f(x^{\dagger })$ der bisher tatsächlich beobachtete Maximalwert der Blackbox-Funktiom $f$ . Der bedingte Erwartungswert berechnet sich durch $E[f|x]=\int _{\mathbb {R} }fp(f|x)df$ . Der neue Vorschlag für den nächsten zu überprüfenden Punkt ist $x_{t}={\text{argmax}}_{x}EI(x)$ . Die argmax Funktion kann näherungsweise für eine endliche Menge an zufälligen Punkten $\{x_{1},\dots x_{n}\}$ ausgewertet werden. Die Näherung an argmax ist dann der x-Wert, welcher den größten Wert von EI hat.

Exotische Bayes'sche Optimierung

Probleme, die von der oben gemachten Annahme der leichten Auswertung abweichen, werden als exotische Bayes'sche Optimierungsprobleme bezeichnet. Optimierungsprobleme können exotisch werden, wenn bekannt ist, dass es Rauschen gibt, die Auswertungen parallel durchgeführt werden, die Qualität der Auswertungen von einem Kompromiss zwischen Schwierigkeit und Genauigkeit abhängt, zufällige Umgebungsbedingungen vorhanden sind oder die Auswertung Ableitungen beinhaltet.

Beispiele für Erfassungsfunktionen

Beispiele für Erfassungsfunktionen (engl. acquisition function) sind:

die Verbesserungswahrscheinlichkeit $p(f(x)>f(x^{\dagger })+\kappa )$ ,
die erwartete Verbesserung,
die erwarteten Verluste nach Bayes,
obere ( $\kappa >0$ ), bzw. untere ( $\kappa <0$ ) Konfidenzgrenzen $CB(x)={\hat {\mu }}(x)+\kappa {\hat {\sigma }}(x)$ ,
Thompson-Sampling und Mischformen davon.

Sie alle stellen einen Kompromiss (Trade-off) zwischen Erkundung und Ausnutzung dar, um die Anzahl der Funktionsabfragen zu minimieren. Die Bayes'sche Optimierung eignet sich daher gut für Funktionen, deren Auswertung teuer ist.

Lösungsmethoden

Das Maximum der Erfassungsfunktion wird in der Regel durch Diskretisierung oder mit Hilfe eines (eventuell randomisierten) Hilfsoptimierers gefunden. Erfassungsfunktionen werden mit einem numerischen Optimierungsverfahren wie dem Newtonverfahren oder Quasi-Newton-Methoden wie dem Broyden-Fletcher-Goldfarb-Shanno-Algorithmus maximiert.

Anwendungsgebiete

Der Ansatz wurde zur Lösung einer Vielzahl von Problemen angewandt, darunter Hyperparameteroptimierung, Rangordnungslernen, Computergrafik und visuelles Design, Robotik, Sensornetzwerke, automatische Algorithmenkonfiguration, automatische Toolboxen für maschinelles Lernen, Reinforcement Learning, Planung, visuelle Aufmerksamkeit, Architekturkonfiguration beim Deep Learning, statische Programmanalyse, experimentelle Teilchenphysik, Chemie, Materialdesign und Arzneimittelentwicklung.

Weblinks

Spearmint, a Python implementation focused on parallel and cluster computing.
SMAC, an implementation of random-forest-based Bayesian optimization for general algorithm configuration.
MOE MOE is a Python/C++/CUDA implementation of Bayesian Global Optimization using Gaussian Processes.
scikit-optimize, a Python implementation of Bayesian optimization.
BoTorch, a modular and modern PyTorch-based open-source library for Bayesian optimization research with support for GPyTorch.
GPflowOpt, a TensorFlow-based open-source package for Bayesian optimization.

Einzelnachweise

↑ Jonas Mockus (2012). Bayesian approach to global optimization: theory and applications. Kluwer Academic.
↑ Jonas Mockus: On Bayesian Methods for Seeking the Extremum. Optimization Techniques 1974: 400-404 doi:10.1007/3-540-07165-2_55
↑ Jonas Mockus: On Bayesian Methods for Seeking the Extremum and their Application. IFIP Congress 1977: S. 195–200
↑ J. Mockus, Bayesian Approach to Global Optimization. Kluwer Academic Publishers, Dordrecht, 1989
1 2 3 Peter I. Frazier: A Tutorial on Bayesian Optimization. 8. Juli 2018, doi:10.48550/arXiv.1807.02811.
↑ Samuel Wilson: Parallelizable Bayesian Optimization (Paketbeschreibung auf GitHub). 22. November 2019, abgerufen am 14. Juni 2022.
↑ Für diese Definition siehe: skopt. In der Literatur gibt es auch andere nicht äquivalente Definitionen der erwarteten Verbesserung: $EI(x)=\int _{\mathbb {R} }\max(f-f(x^{\dagger }),0)p(f|x)df$ , siehe z. B. Acquisition functions in Bayesian Optimization
↑ Matthew W. Hoffman, Eric Brochu, Nando de Freitas: Portfolio Allocation for Bayesian Optimization. Uncertainty in Artificial Intelligence: 327–336 (2011)
↑ Eric Brochu, Vlad M. Cora, Nando de Freitas: A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. CoRR abs/1012.2599 (2010)
↑ Eric Brochu, Nando de Freitas, Abhijeet Ghosh: Active Preference Learning with Discrete Choice Data. Advances in Neural Information Processing Systems: 409-416 (2007)
↑ Eric Brochu, Tyson Brochu, Nando de Freitas: A Bayesian Interactive Optimization Approach to Procedural Animation Design. Symposium on Computer Animation 2010: 103–112
↑ Yuki Koyama, Issei Sato, Daisuke Sakamoto, Takeo Igarashi: Sequential Line Search for Efficient Visual Design Optimization by Crowds. ACM Transactions on Graphics, Band 36, Nummer 4, S. 48:1–48:11 (2017). doi:10.1145/3072959.3073598
↑ Yuki Koyama, Issei Sato, Masataka Goto: Sequential Gallery for Interactive Visual Design Optimization. ACM Transactions on Graphics, Band 39, Nummer 4, S. 88:1–88:12 (2020). doi:10.1145/3386569.3392444, arXiv:2005.04107.
↑ Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Automatic Gait Optimization with Gaussian Process Regression (Memento des Originals vom 12. August 2017 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.aaai.org. International Joint Conference on Artificial Intelligence: 944–949 (2007)
↑ Ruben Martinez-Cantin, Nando de Freitas, Eric Brochu, Jose Castellanos and Arnaud Doucet. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot. Autonomous Robots. Band 27, Nummer 2, S. 93–103 (2009) doi:10.1007/s10514-009-9130-2.
↑ Scott Kuindersma, Roderic Grupen, and Andrew Barto. Variable Risk Control via Stochastic Optimization. International Journal of Robotics Research, volume 32, number 7, S. 806–825 (2013)
↑ Roberto Calandra, André Seyfarth, Jan Peters, and Marc P. Deisenroth: Bayesian optimization for learning gaits under uncertainty. Ann. Math. Artif. Intell. Band 76, Nummer 1, S. 5–23 (2016) DOI:10.1007/s10472-015-9463-9
↑ Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias W. Seeger: Information-Theoretic Regret Bounds for Gaussian Process Optimization in the Bandit Setting. IEEE Transactions on Information Theory 58(5):3250–3265 (2012)
↑ Roman Garnett, Michael A. Osborne, Stephen J. Roberts: Bayesian optimization for sensor set selection@1@2Vorlage:Toter Link/www.academia.edu (Seite nicht mehr abrufbar, festgestellt im Juni 2023. Suche in Webarchiven.) Info: Der Link wurde automatisch als defekt markiert. Bitte prüfe den Link gemäß Anleitung und entferne dann diesen Hinweis.. ACM/IEEE International Conference on Information Processing in Sensor Networks: 209–219 (2010)
↑ Frank Hutter, Holger Hoos, and Kevin Leyton-Brown (2011). Sequential model-based optimization for general algorithm configuration, Learning and Intelligent Optimization
↑ J. Snoek, H. Larochelle, R. P. Adams Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems: 2951-2959 (2012)
↑ J. Bergstra, D. Yamins, D. D. Cox (2013). Hyperopt: A Python Library for Optimizing the Hyperparameters of Machine Learning Algorithms. Proc. SciPy 2013.
↑ Chris Thornton, Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown: Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. KDD 2013: 847–855
↑ Jasper Snoek, Hugo Larochelle and Ryan Prescott Adams. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, 2012
↑ Philip Ilten, Mike Williams, Yunjie Yang. Event generator tuning using Bayesian optimization. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028
↑ Evaristo Cisbani et al. AI-optimized detector design for the future Electron-Ion Collider: the dual-radiator RICH case 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009
↑ Tsuyoshi Ueno, Trevor David Rhone, Zhufeng Hou, Teruyasu Mizoguchi, Koji Tsuda: COMBO: An efficient Bayesian optimization library for materials science. In: Materials Discovery. Band 4, Juni 2016, S. 18–21, doi:10.1016/j.md.2016.04.001 (elsevier.com [abgerufen am 12. Juni 2022]).
↑ Hud Wahab, Vivek Jain, Alexander Scott Tyrrell, Michael Alan Seas, Lars Kotthoff: Machine-learning-assisted fabrication: Bayesian optimization of laser-induced graphene patterning using in-situ Raman analysis. In: Carbon. Band 167, Oktober 2020, S. 609–619, doi:10.1016/j.carbon.2020.05.087 (elsevier.com [abgerufen am 12. Juni 2022]).
↑ Yuki K. Wakabayashi, Takuma Otsuka, Yoshiharu Krockenberger, Hiroshi Sawada, Yoshitaka Taniyasu: Machine-learning-assisted thin-film growth: Bayesian optimization in molecular beam epitaxy of SrRuO 3 thin films. In: APL Materials. Band 7, Nr. 10, 1. Oktober 2019, ISSN 2166-532X, S. 101114, doi:10.1063/1.5123019.
↑ Gomez-Bombarelli et al.: Automatic Chemical Design using a Data-Driven Continuous Representation of Molecules. ACS Central Science, Volume 4, Issue 2, 268-276 (2018). doi:10.1021/acscentsci.7b00572
↑ Griffiths et al. Constrained Bayesian Optimization for Automatic Chemical Design using Variational Autoencoders Chemical Science: 11, 577-586 (2020)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Jonas Mockus (2012). Bayesian approach to global optimization: theory and applications. Kluwer Academic.

[2] Jonas Mockus: On Bayesian Methods for Seeking the Extremum. Optimization Techniques 1974: 400-404 doi:10.1007/3-540-07165-2_55

[3] Jonas Mockus: On Bayesian Methods for Seeking the Extremum and their Application. IFIP Congress 1977: S. 195–200

[4] J. Mockus, Bayesian Approach to Global Optimization. Kluwer Academic Publishers, Dordrecht, 1989

[:0-5] 1 2 3 Peter I. Frazier: A Tutorial on Bayesian Optimization. 8. Juli 2018, doi:10.48550/arXiv.1807.02811.

[6] Samuel Wilson: Parallelizable Bayesian Optimization (Paketbeschreibung auf GitHub). 22. November 2019, abgerufen am 14. Juni 2022.

[7] Für diese Definition siehe: skopt. In der Literatur gibt es auch andere nicht äquivalente Definitionen der erwarteten Verbesserung: $EI(x)=\int _{\mathbb {R} }\max(f-f(x^{\dagger }),0)p(f|x)df$ , siehe z. B. Acquisition functions in Bayesian Optimization

[8] Matthew W. Hoffman, Eric Brochu, Nando de Freitas: Portfolio Allocation for Bayesian Optimization. Uncertainty in Artificial Intelligence: 327–336 (2011)

[:1-9] Eric Brochu, Vlad M. Cora, Nando de Freitas: A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. CoRR abs/1012.2599 (2010)

[:2-10] Eric Brochu, Nando de Freitas, Abhijeet Ghosh: Active Preference Learning with Discrete Choice Data. Advances in Neural Information Processing Systems: 409-416 (2007)

[:3-11] Eric Brochu, Tyson Brochu, Nando de Freitas: A Bayesian Interactive Optimization Approach to Procedural Animation Design. Symposium on Computer Animation 2010: 103–112

[:4-12] Yuki Koyama, Issei Sato, Daisuke Sakamoto, Takeo Igarashi: Sequential Line Search for Efficient Visual Design Optimization by Crowds. ACM Transactions on Graphics, Band 36, Nummer 4, S. 48:1–48:11 (2017). doi:10.1145/3072959.3073598

[:5-13] Yuki Koyama, Issei Sato, Masataka Goto: Sequential Gallery for Interactive Visual Design Optimization. ACM Transactions on Graphics, Band 39, Nummer 4, S. 88:1–88:12 (2020). doi:10.1145/3386569.3392444, arXiv:2005.04107.

[:6-14] Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Automatic Gait Optimization with Gaussian Process Regression (Memento des Originals vom 12. August 2017 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.aaai.org. International Joint Conference on Artificial Intelligence: 944–949 (2007)

[:7-15] Ruben Martinez-Cantin, Nando de Freitas, Eric Brochu, Jose Castellanos and Arnaud Doucet. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot. Autonomous Robots. Band 27, Nummer 2, S. 93–103 (2009) doi:10.1007/s10514-009-9130-2.

[:8-16] Scott Kuindersma, Roderic Grupen, and Andrew Barto. Variable Risk Control via Stochastic Optimization. International Journal of Robotics Research, volume 32, number 7, S. 806–825 (2013)

[:9-17] Roberto Calandra, André Seyfarth, Jan Peters, and Marc P. Deisenroth: Bayesian optimization for learning gaits under uncertainty. Ann. Math. Artif. Intell. Band 76, Nummer 1, S. 5–23 (2016) DOI:10.1007/s10472-015-9463-9

[:10-18] Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias W. Seeger: Information-Theoretic Regret Bounds for Gaussian Process Optimization in the Bandit Setting. IEEE Transactions on Information Theory 58(5):3250–3265 (2012)

[:11-19] Roman Garnett, Michael A. Osborne, Stephen J. Roberts: Bayesian optimization for sensor set selection@1@2Vorlage:Toter Link/www.academia.edu (Seite nicht mehr abrufbar, festgestellt im Juni 2023. Suche in Webarchiven.) Info: Der Link wurde automatisch als defekt markiert. Bitte prüfe den Link gemäß Anleitung und entferne dann diesen Hinweis.. ACM/IEEE International Conference on Information Processing in Sensor Networks: 209–219 (2010)

[:12-20] Frank Hutter, Holger Hoos, and Kevin Leyton-Brown (2011). Sequential model-based optimization for general algorithm configuration, Learning and Intelligent Optimization

[:13-21] J. Snoek, H. Larochelle, R. P. Adams Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems: 2951-2959 (2012)

[:14-22] J. Bergstra, D. Yamins, D. D. Cox (2013). Hyperopt: A Python Library for Optimizing the Hyperparameters of Machine Learning Algorithms. Proc. SciPy 2013.

[:15-23] Chris Thornton, Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown: Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. KDD 2013: 847–855

[:16-24] Jasper Snoek, Hugo Larochelle and Ryan Prescott Adams. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, 2012

[:17-25] Philip Ilten, Mike Williams, Yunjie Yang. Event generator tuning using Bayesian optimization. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028

[:18-26] Evaristo Cisbani et al. AI-optimized detector design for the future Electron-Ion Collider: the dual-radiator RICH case 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009

[27] Tsuyoshi Ueno, Trevor David Rhone, Zhufeng Hou, Teruyasu Mizoguchi, Koji Tsuda: COMBO: An efficient Bayesian optimization library for materials science. In: Materials Discovery. Band 4, Juni 2016, S. 18–21, doi:10.1016/j.md.2016.04.001 (elsevier.com [abgerufen am 12. Juni 2022]).

[28] Hud Wahab, Vivek Jain, Alexander Scott Tyrrell, Michael Alan Seas, Lars Kotthoff: Machine-learning-assisted fabrication: Bayesian optimization of laser-induced graphene patterning using in-situ Raman analysis. In: Carbon. Band 167, Oktober 2020, S. 609–619, doi:10.1016/j.carbon.2020.05.087 (elsevier.com [abgerufen am 12. Juni 2022]).

[29] Yuki K. Wakabayashi, Takuma Otsuka, Yoshiharu Krockenberger, Hiroshi Sawada, Yoshitaka Taniyasu: Machine-learning-assisted thin-film growth: Bayesian optimization in molecular beam epitaxy of SrRuO 3 thin films. In: APL Materials. Band 7, Nr. 10, 1. Oktober 2019, ISSN 2166-532X, S. 101114, doi:10.1063/1.5123019.

[:19-30] Gomez-Bombarelli et al.: Automatic Chemical Design using a Data-Driven Continuous Representation of Molecules. ACS Central Science, Volume 4, Issue 2, 268-276 (2018). doi:10.1021/acscentsci.7b00572

[:20-31] Griffiths et al. Constrained Bayesian Optimization for Automatic Chemical Design using Variational Autoencoders Chemical Science: 11, 577-586 (2020)