Trends Magazin

iStock.com/marchmeena29

Data Science und KI: Wie man aus Daten Wissen generiert

Im Zentrum solcher KI-Anwendungen stehen jeweils datengestützte Analysen und Modelle, auf deren Grundlage Entscheidungsprozesse optimiert werden. Data Science – zu Deutsch auch Datenwissenschaft – hat zum Ziel, das für die Entscheidungsfindung benötigte Wissen aus Daten zu generieren. Dabei kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz. Eine hohe Relevanz haben heutzutage insbesondere die unterschiedlichen Methoden des Maschinellen Lernens (ML), die sich für die Analyse großer Datenmengen und unstrukturierter Daten – Texte, Bilder, Video, Ton – besonders eignen.

Definition und Kernbegriffe von Data Science und KI

Im Kontext von Künstlicher Intelligenz und Data Science werden Begriffsdefinitionen nicht immer einheitlich oder im Fall von KI, ML und Deep Learning sogar fälschlich synonym verwendet.

John McCarthy prägte den Begriff KI bereits 1955 mit folgendem Anspruch: „Ziel der KI ist es, Maschinen zu entwickeln, die sich verhalten, als verfügten sie über Intelligenz.“ Diese Definition beschreibt im heutigen Verständnis eine sogenannte schwache KI, d.h. ein System, das für einen eng begrenzten Einsatzzweck handelt, als wäre es intelligent. Die allermeisten heutigen KI-Anwendungen, wie z. B. Text-, Bild- und Spracherkennung (Siri, Alexa), eine Betrugserkennung oder Navigationsassistenten fallen in diese Kategorie. Starke oder echte (menschengleiche) Künstliche Intelligenzen, die zusätzlich über erweiterte Abstraktions- und Planungsfähigkeiten sowie Kreativität verfügen, sind derzeit trotz großer Fortschritte in diese Richtung noch nicht verfügbar.

Ein besonders einflussreiches Teilgebiet der Künstlichen Intelligenz bzw. Data Science stellt das Maschinelle Lernen dar. Durch selbstlernende Algorithmen analysieren Computerprogramme Daten und erkennen Muster und Gesetzmäßigkeiten, ohne dafür explizit programmiert zu sein. Somit können unbekannte, neue Daten durch intelligente Verknüpfung in einen Zusammenhang gesetzt und Rückschlüsse gezogen werden, um auf dieser Basis Vorhersagen zu treffen.

Deep Learning beschreibt die Umsetzung eines maschinellen Lernverfahrens in Form eines künstlichen neuronalen Netzes. Der Unterschied zu anderen Verfahren des Maschinellen Lernens besteht darin, über verfügbare Daten hinaus zu lernen. Durch Informationsanalysen und -bewertungen können logische Schlüsse gezogen werden, die über die einfache Datenanalyse hinausgehen. » 1 visualisiert die Verknüpfung zwischen Artificial Intelligence, Machine Learning und Deep Learning und zeigt die Entwicklung der Technologien chronologisch auf.

Data Science – Rollen

Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise interne Produktions- und Verwaltungsprozesse zu optimieren oder die Entscheidungsfindung zu unterstützen. Um dieses Ziel erreichen zu können, müssen verschiedene Fachkompetenzen miteinander kombiniert werden. Es hat sich hierbei ein gewisser Konsens bezüglich drei grundlegender Kompetenzbereiche oder Rollen ergeben, auch wenn die Rollenbezeichnungen teilweise variieren.

Ausgangspunkt ist dabei stets ein solides Verständnis des Anwendungskontexts und seiner Randbedingungen. In einem Data-Science-Team ist daher immer die Rolle des Business Analyst notwendig, der als Schnittstelle zwischen Fachbereich und Analyse-Experten fungiert.

Die Rolle des Data Analyst umfasst Experten für Datenanalysen und Methoden des Maschinellen Lernens. Teammitgliedern dieser Kategorie obliegt es, Daten für die Analyse vor zubereiten, geeignete Algorithmen und Methoden für den Einsatzzweck auszuwählen und die erzeugten Modelle zu evaluieren.

Komplettiert wird ein Data-Science-Team durch die Rolle des Data Engineers. Diesem obliegt die Zusammenführung, Verwaltung und Bereitstellung der Ausgangsdaten sowie die Konzeptionierung und Umsetzung der nötigen Infrastruktur für das Ausrollen und den Betrieb der erstellten KI-Anwendung.

Data Science – Prozessmodell

Unabhängig von dem jeweiligen Geschäftsumfeld ist ein gängiges Vorgehensmodell bei Data-Science-Projekten der sogenannte Cross Industry Standard Process for Data Mining (CRISP-DM). Das Vorgehen besteht aus sechs Phasen, die nicht nur sequenziell durchlaufen werden, sondern zudem in starker Wechselwirkung zueinander stehen. » 2 Die erste Phase Geschäftsverständnis konzentriert sich auf die Definition der Projektziele und Anforderungen an das Projekt aus Geschäftsperspektive. Diese Informationen gehen in die Definition der Data-Science-Problemstellung ein, und ein vorläufiger Lösungsplan wird erstellt.

Die Sammlung von Datenquellen und der Aufbau von Verständnis für die vorhandenen Daten bestimmt die zweite Phase Datenverständnis. Datenqualitätsprobleme müssen an dieser Stelle erkannt und behoben werden. Erste Erkenntnisse über die Daten können dabei helfen, Hypothesen für die Modellierungsphase zu formulieren.

In die Datenvorverarbeitungsphase fallen alle Aktivitäten, die durchgeführt werden müssen, um einen finalen bereinigten Datensatz für das Training von Modellen zu erstellen. Darunter fallen unter anderem die Auswahl der Instanzen und Attribute, Datentransformationen sowie Datensäuberung.

In der Modellierungsphase werden verschiedene Modellierungsansätze ausgewählt, angewendet und deren Parameter optimal kalibriert. Typischerweise gibt es mehrere mögliche Herangehensweisen mit unterschiedlichen Formatanforderungen an die eingehenden Daten. Datenvorverarbeitung und Modellierung erfolgen daher häufig inkrementell im Wechsel. Bevor ein solches Modell in eine Anwendung überführt werden kann, muss dessen Güte ausführlich anhand geeigneter Gütekriterien überprüft werden und somit, ob das in der ersten Phase gewählte Geschäftsziel erreicht wurde.

Die Erstellung eines Modells markiert typischerweise nicht das Ende des Projekts. Selbst wenn als Projektziel lediglich Wissenssteigerung über einen Datensatz festgelegt wurde, müssen die extrahierten Informationen organisiert und bereitgestellt werden. Die letzte Phase des Ausrollens kann daher alles von der Erstellung eines Reports bis hin zur Implementierung einer vollständigen DataSciencePipeline im gesamten Unternehmen umfassen. Dieser Schritt muss in enger Abstimmung mit dem Endkunden und den letztlichen Anwendern erfolgen.

Fazit
Die Anwendungsmöglichkeiten der Data Science und der darauf basierenden KI-Anwendungen bergen ein enormes Potenzial. Überall dort, wo große Datenmengen anfallen und auf Basis der Daten Entscheidungen getroffen werden müssen, ist der Einsatz sinnvoll. Speziell im Finanzsektor sind datengetriebene Lösungen, wie z. B. die Echtzeit-Betrugserkennung in Transaktionsdatenströmen, nicht mehr wegzudenken. Zeitgemäße KI-Ansätze zeigen bereits jetzt den Weg zukünftiger Arbeitsteilung zwischen Fachanwendern, Kunden und KI. Mitarbeitende können von einfachen, wiederkehrenden und entsprechend monotonen Aufgaben entlastet werden und sich auf die relevanten Fälle konzentrieren. Kunden profitieren von maßgeschneiderten Angeboten und dem immer verfügbaren, bestens informierten KI-Assistenten am Kontaktpunkt. Grundlage und Kernpunkt derartiger KI-Anwendungen sind dabei stets die beschriebenen Ansätze der Data Science, die es erlauben, relevantes und wertvolles Wissen aus vorhandenen Daten für (teil-)automatisierte Entscheidungsfndungen verfügbar zu machen.

 

Autor



Dr. Georg Fuchs ist Geschäftsfeldleiter Big Data Analytics and Intelligence am Fraunhofer Institut IAIS.


Nur wenige Branchen verfügen über so umfangreiche Daten wie die Finanzindustrie. In dem interaktiven Web-Seminar „Grundlagen des Data Science in Kreditinstituten“ des Bank-Verlags erläutert unser Autor gemeinsam mit einem weiteren Referenten, welche Bedeutung die Datenanalyse im Kontext von Künstlicher Intelligenz hat. Mehr dazu erfahren Sie hier.

Stichworte

Verwandte Artikel

Anzeige

Lexikoneinträge