Markt Magazin

iStock.com/Goodbye Picture Germany

Automated Machine Learning (AutoML): Die Grundlage für die Modellfabrik

Data Scientisten sind auf dem Arbeitsmarkt nach wie vor eine knappe Ressource, und es wird erwartet, dass sich dieser Fachkräftemangel durch den steigenden Bedarf von Unternehmen, Daten systematisch zu nutzen, zukünftig weiter verschärfen wird. Zeitgleich ist die Entwicklung von Machine-Learning-basierten Lösungen zur Anwendung in Geschäftsprozessen häufig mit einem monatelangen Zeit- und Koordinationsaufwand verbunden, der von der Konzeption über die eigentliche Modellentwicklung bis hin zum Monitoring des implementierten Modells reicht.

Das Ziel von Automated Machine Learning (AutoML) ist es, einen Großteil der manuell durchgeführten Schritte im Entwicklungsprozess zu automatisieren und damit deutlich schneller und effizienter einen tatsächlichen Wert für Unternehmen zu schaffen. Dabei ist AutoML eine wesentliche Voraussetzung, um den Ansatz einer Modellfabrik im Unternehmen zu realisieren.

Die Idee einer solchen Modellfabrik besteht darin, einen hochgradig automatisierten Prozess zu etablieren, der sowohl eine effiziente Entwicklung von völlig neuen Modellen als auch schnelle Updates von bereits existierenden Modellen ermöglicht und somit den Modell-Output messbar steigern kann. Dabei ist jedoch auch wichtig hervorzuheben, dass nicht sämtliche Schritte der Modellentwicklung automatisiert werden können. Besonders am Anfang eines Projekts ist manueller Aufwand notwendig. Entsprechend ist auch in einem stark automatisierten Modellierungsprozess die Arbeit von Data Scientisten ein zentrales Element für eine erfolgreiche Implementierung eines Modells in die Geschäftsprozesse. Siehe auch Darstellung » 1 .

So gilt es insbesondere zu Beginn, ein tiefgehendes Verständnis für den Anwendungsfall durch den Austausch mit den Stakeholdern zu entwickeln und ein Konzept für mögliche Lösungen zu erarbeiten. Dieses Konzept beinhaltet idealerweise eine Definition relevanter KPIs für die Bewertung der Modellgüte sowie eine Strategie zur möglichen Implementierung des Modells.

Darüber hinaus sind die Verfügbarkeit und Qualität von Daten zu überprüfen, was gerade im Bankenumfeld häufig auch Abstimmungen mit der Datenschutzabteilung erfordert. Nach der Konzeptionsphase und Klärung datenschutzrechtlicher Aspekte kann mit dem eigentlichen Entwicklungsprozess auf Basis der verfügbaren Daten begonnen werden.

Der nun folgende Schritt der Datenaufbereitung gilt gemeinhin als der zeitaufwendigste Teil des gesamten Modellierungsprozesses und kann nur teilweise durch AutoML unterstützt werden. So erfordert etwa die initiale Erstellung eines Datensatzes für die Modellentwicklung nach wie vor manuellen Aufwand sowie die Expertise von Data Scientisten und Experten aus den jeweiligen Geschäftsbereichen. Die Identifizierung, Extraktion und Aufbereitung (z. B. Berechnung des Alters anhand des Geburtsdatums) von relevanten Informationen aus den Datenbeständen des Unternehmens, die für qualitativ hochwertige Modelle essenziell sind, erfordern spezifisches Fachwissen über Daten und Prozesse und sind nicht automatisierbar.

Da Daten häufig nicht auf der erforderlichen Aggregationsebene vorhanden sind, erfordert dieser Schritt oft auch eine Aufbereitung der Rohdaten auf der gewünschten Ebene. Wenn beispielsweise ein kundenindividuelles Kaufwahrscheinlichkeitsmodell für ein Girokonto entwickelt werden soll, müssen sämtliche Informationen auf Kundenebene aggregiert vorliegen und eine grobe Vorauswahl an fachlich sinnvollen Features (Variablen) getroffen werden.

Darüber hinaus umfasst die Datenaufbereitung auch das sogenannte Feature Engineering, also das Erstellen weiterer Variablen, um möglichst die Modellqualität durch diese zusätzlichen Informationen zu erhöhen. Hierbei können neue Informationen etwa durch Division oder Subtraktion von zwei Features oder durch die Transformationen einzelner Features (z. B. Logarithmieren, Gruppieren etc.) gebildet werden, was von vielen AutoML-Tools unterstützt wird.

Ebenfalls mittels AutoML automatisierbar ist eine Reihe von Aufbereitungsschritten, wie das Ersetzen fehlender numerischer Werte (z. B. durch den Mittelwert), die Standardisierung von Features, die Konvertierung kategorialer in numerische Features und das Aufteilen der Daten in einen Trainings- und Testdatensatz.

Vor der eigentlichen Modellbildung wird üblicherweise anhand der nun vorliegenden Features eine Vorauswahl getroffen, um lediglich solche mit einer besonders hohen Relevanz für die Modellierung zuzulassen, was zudem auch die Dauer des Trainingsprozesses verringert. Hierbei existieren verschiedenste Methoden, mit deren Hilfe sich Kennzahlen zur Relevanz von Features berechnen lassen und die wichtigsten  Features anhand definierter Qualitätskriterien automatisch selektiert werden können.

Im Anschluss kann mit der eigentlichen Modellierung auf Basis der aufbereiteten Daten begonnen werden, wobei AutoML-Ansätze in den folgenden Prozessschritten ihre Stärken voll ausspielen können. Je nach Problemstellung und Datenkonstellation unterscheiden sich die optimalen Algorithmen. Zusätzlich verfügen die meisten Algorithmen über verschiedene sogenannte Hyperparameter, die eine wesentliche Funktion in der Kontrolle des Trainingsprozesses einnehmen und beispielsweise die Modellkomplexität regulieren.

Da sowohl der optimale Algorithmus als auch die ideale Hyperparameterkombination je nach Anwendungsfall variieren und ex ante nicht bekannt sind, kann mittels AutoML eine Vielzahl an Modellen mit verschiedenen Algorithmen und Hyperparameterkombinationen automatisiert auf den Daten getestet werden. Anhand von Performance-Metriken werden die unterschiedlichen Modelle evaluiert und verglichen, um das optimale Modell für den Anwendungsfall zu bestimmen.

Neben der Evaluation der unterschiedlichen Modelle sind außerdem weitere Schritte wie die Verwendung von Methoden zur Modellexploration (z. B. Variablen-Wichtigkeiten, LIME, SHAP etc.) und die Erstellung von Reportings automatisierbar, sodass manuelle Schritte für die Dokumentation entfallen können.

Auch das Deployment, also die Live-Stellung eines finalen Modells, kann durch die Nutzung von AutoML-Tools oftmals vereinfacht werden. Sowohl kommerzielle als auch Open-Source-basierte Lösungen bieten verschiedene Möglichkeiten zur produktiven Verwendung der resultierenden Modelle an oder liefern benutzerfreundliche Dateiformate der Modelle, die sich effizient in gängige Produktionsumgebungen integrieren lassen.

Dynamisches Bankenumfeld erfordert regelmäßige Modell-Updates
Eine Mehrzahl der schematischen Darstellungen des Entwicklungsprozesses von Machine-Learning-Modellen endet mit der erfolgreichen Übertragung des fertigen Modells in eine Produktionsumgebung (Deployment), was suggeriert, dass die Arbeit mit der initialen Live-Stellung des Modells abgeschlossen ist.

Tatsächlich sind für einen nachhaltigen Beitrag eines Modells zur Wertschöpfung des Unternehmens ein kontinuierliches Überwachen der Modell-Performance und fortlaufende Optimierungen erforderlich. Gerade in einem dynamischen, sich stark verändernden Bankenumfeld ist es von zentraler Bedeutung, dass die genutzten Modelle regelmäßig auf Basis der aktuellsten Daten neu trainiert werden, um somit das Optimum aus den eigenen Daten herauszuholen. So ist etwa bei Modellen zur Selektion von Zielgruppen für Direktmarketing-Kampagnen keinesfalls garantiert, dass besonders affine Kunden für ein Produkt noch die gleichen Charakteristiken haben wie vor einigen Monaten, als das Modell entwickelt wurde. Veränderte Konditionen bei den eigenen Produkten oder bei Wettbewerbern (z. B. die Einführung von Kontoführungsgebühren), ein dynamisches ökonomisches Umfeld sowie sich generell verändernde Kundengewohnheiten erfordern regelmäßige Neuentwicklungen bereits produktiv eingesetzter Modelle, um mögliche Veränderungen von Zielgruppen adäquat zu berücksichtigen.

AutoML leistet durch die deutliche Beschleunigung des Entwicklungsprozesses hierbei einen zentralen Beitrag, um mit knappen Ressourcen überhaupt erst diesen Anforderungen effizient begegnen zu können. Sogar ein vollautomatisierter Austausch des alten Produktivmodells mit dem neu entwickelten Modell ist grundsätzlich umsetzbar.

Kommerzielle Tools vs. Open-Source-Lösungen
AutoML ist aktuell eines der Trendthemen aus dem Bereich Data Science. Mehrere kommerzielle Anbieter haben in den vergangenen Jahren ihre AutoML-Lösungen auf den Markt gebracht und permanent weiterentwickelt. Neben Start-ups bieten mittlerweile auch praktisch alle großen Cloud-Anbieter ihre eigenen AutoML-Lösungen an. Darüber hinaus gibt es aber auch zahlreiche Open-Source-Pakete, mit denen die verschiedenen Teilbereiche der Modellentwicklung automatisiert werden können und die für die Entwicklung eigener AutoML-Pipelines als Grundlage verwendet werden können. Die Antwort auf die Frage, ob kommerzielle oder Open-Source-basierte Lösungen bevorzugt werden sollten, lässt sich nicht pauschal beantworten. Verschiedene Faktoren wie die Anzahl und Expertise der vorhandenen Data Scientisten im Unternehmen sowie die Verfügbarkeit von Plattformen, auf denen die Entwicklung von Machine-Learning-Modellen bereits möglich ist, könnten aber die Entscheidung zugunsten einer internen Lösung auf Basis von Open-Source-Paketen beeinflussen.

Eigenentwickelte AutoML-Pipelines dürften zwar grundsätzlich ein weniger breites Spektrum verschiedener Anwendungsgebiete abdecken als kommerzielle Lösungen, ermöglichen dabei jedoch spezifischere Anpassungen an die eigenen Anforderungen. Wenn etwa die Entwicklung von Klassifikationsmodellen im Fokus steht, kann der Entwicklungsprozess für diese Art der Problemstellung durch eine maßgeschneiderte AutoML-Pipeline erheblich beschleunigt und der automatisierte Prozess auf die eigenen Bedürfnisse zugeschnitten werden. So kann beispielsweise die Optimierung der Modell- Parameter anhand benutzerdefinierter Performance-Metriken erfolgen oder andere Algorithmen und Funktionalitäten in die automatisierte Entwicklung eingebaut werden, die kommerzielle Tools nicht in dem benötigten Umfang bieten.

Besitzt ein Unternehmen jedoch nicht die erforderlichen personellen und infrastrukturellen Voraussetzungen, können kommerzielle AutoML-Lösungen, die in der Cloud oder On-Premise betrieben werden können, attraktive Alternativen sein. Dabei bestechen vor allem Cloud-basierte Angebote durch ihre große Flexibilität hinsichtlich der buchbaren Rechenkapazitäten und der nutzungsabhängigen Bepreisung. Allerdings existieren besonders im stark regulierten Bankenumfeld verschiedene Fragen rund um die Themen Regulatorik und Datensicherheit in der Cloud, wie z. B. die Standorte der Server. Die Beantwortung dieser Fragen stellt für viele Banken aktuell noch eine größere Hürde für die Nutzung von Cloud-Lösungen dar.

Autor



Benjamin Stahl ist Data Scientist bei der INGDiBa AG in Frankfurt und beschäftigt sich dort u. a. mit der Automatisierung von Machine Learning sowie Verfahren zur Erklärbarkeit von KI für Anwendungen im Direktmarketing.

Stichworte

Verwandte Artikel

Anzeige