Feature Subset Selection

Die Feature Subset Selection (FSS), kurz Feature Selection oder Merkmalsauswahl, ist ein Ansatz aus dem maschinellen Lernen, bei dem nur eine Teilmenge der verfügbaren Features für maschinelles Lernen verwendet wird. FSS ist notwendig, weil es teilweise technisch unmöglich ist, alle Features miteinzubeziehen oder weil es Differenzierungsprobleme gibt, wenn eine große Anzahl an Features, aber nur eine kleine Zahl an Datensätzen vorhanden ist oder um Überanpassung des Modells zu vermeiden, siehe Verzerrung-Varianz-Dilemma.

Ansätze

Es gibt drei Hauptansätze zur Feature Selection.

Filter-Ansatz

Berechne ein Maß zur Unterscheidung von Klassen. Messe das Gewicht der Features und wähle die besten n aus. Auf dieses Feature Subset wird der Lernalgorithmus angewendet. Filter können entweder univariat (z. B. euklidische Distanz, Chi-Quadrat-Test) oder multivariat (z. B. Korrelationsbasierte Filter) die intrinsischen Eigenschaften der Daten berechnen.

Vorteile:

schnell berechenbar
skalierbar
intuitiv interpretierbar

Nachteile:

Redundante Features (Verwandte Features werden ähnliche Gewichtung haben)
ignoriert Abhängigkeiten mit dem Lernalgorithmus

Wrapper-Ansatz

Durchsuche die Menge aller möglichen Feature-Subsets. Auf jedes Subset wird der Lernalgorithmus angewendet. Das Durchsuchen kann entweder deterministisch oder randomisiert erfolgen: Deterministische Algorithmen sind z. B.:

Forward selection
Recursive feature elimination

Randomisierte Algorithmen sind z. B.:

simulated annealing
genetische Algorithmen

Vorteile:

Findet ein Feature-Subset, das optimal zum Lernalgorithmus passt
Bezieht auch Kombinationen von Features ein und nicht nur jedes Feature einzeln
Entfernt redundante Features
einfach umzusetzen
interagiert mit Lernalgorithmus

Nachteile:

Sehr zeitaufwändig
bei heuristischen Verfahren besteht die Gefahr nur lokale Optima zu finden
Gefahr der Überanpassung der Daten
Abhängigkeit vom Lernalgorithmus

Embedded-Ansatz

Die Suche nach einer optimalen Untermenge ist direkt mit dem Lernalgorithmus verbunden.

Vorteile:

bessere Laufzeiten und geringere Komplexität
Abhängigkeiten zwischen Datenpunkten werden modelliert

Nachteile:

Wahl der Untermenge hängt stark vom verwendeten Lernalgorithmus ab.

Beispiele:

Entscheidungsbäume
Gewichtete naive Bayes
Auswahl der Teilmenge mit Hilfe des Wichtungsvektor von SVM

Beispiele für Algorithmen

Correlation Feature Selection

Gute Untermengen von Features enthalten Features, welche stark mit der Zielvariablen korreliert sind, aber dennoch möglichst unkorreliert untereinander sind. Correlation Feature Selection (CFS) wählt als Filter-Algorithmus die Untermengen $S_{k}$ mit $k$ vielen Features wie folgt aus:

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k}}}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{k-1}})}}}\right],

wobei $r_{cf_{i}}$ die Korrelationskoeffizienten (z. B. Spearman-Korrelation oder Pearson-Korrelation) zwischen Zielvariable $c$ und Feature $f_{i}$ sind und $r_{f_{i}f_{j}}$ die Korrelationskoeffizienten der Features $f_{i}$ und $f_{j}$ untereinander.

Literatur

Dunja Mladenić: Feature Selection for Dimensionality Reduction. Craig Saunders et al. (Hrsg.): SLSFS, 2005, S. 84–102 ISBN 3-540-34137-4
Yvan Saeys, Inaki Inza and Pedro Larranaga (2007) A review of feature selection techniques in bioinformatics. Bioinformatics. 23(19) 2507--2517.

Einzelnachweise

↑ https://scikit-learn.org/stable/modules/feature_selection.html
↑ Duda,P., et al. (2001) Pattern Classification. Wiley, New York.
↑ Guyon,I. and Elisseeff,A. (2003) An introduction to variable and feature selection. J. Mach Learn Res., 3, 1157–1182.
↑ Baris Senliol, Gokhan Gulgezen, Lei Yu, Zehra Cataltepe: Fast Correlation Based Filter (FCBF) with a different search strategy. In: 2008 23rd International Symposium on Computer and Information Sciences. 2008, S. 1–4, doi:10.1109/ISCIS.2008.4717949 (englisch).

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] ttps://scikit-learn.org/stable/modules/feature_selection.html

[2] Duda,P., et al. (2001) Pattern Classification. Wiley, New York.

[3] Guyon,I. and Elisseeff,A. (2003) An introduction to variable and feature selection. J. Mach Learn Res., 3, 1157–1182.

[4] Baris Senliol, Gokhan Gulgezen, Lei Yu, Zehra Cataltepe: Fast Correlation Based Filter (FCBF) with a different search strategy. In: 2008 23rd International Symposium on Computer and Information Sciences. 2008, S. 1–4, doi:10.1109/ISCIS.2008.4717949 (englisch).