Was ich jetzt über Data Science weiss, weil ich zu fragen wagte!

Letztes Jahr habe ich als „gestandene“ Digitalmanagerin, berufsbegleitend ein Zertifikatsstudium Data Science absolviert.  Grund diese Strapazen auf mich zu nehmen, war meine große Neugierde auf ein Thema, das mit seinen Buzzwords „Big Data“, „Machine Learning“, „AI“, eine immer größere Präsenz in Fachpresse und im beruflichen Alltag bekommen hat. Mein persönliches Ziel war es, durch Praxis und Theorie das Thema für mich deutlich greifbarer zu machen und zu erkennen, was schon funktioniert und wo noch Stolpersteine liegen. Um es vorweg zu nehmen: Ja, die vielen Lern-Wochenenden und Abende waren es wert. Der Zauber des Data Science hat sich für mich verstärkt, aber die Magie konnte ich in vielen Teilen entmystifizieren. Oder sagen wir mal so, wenn der nächste Anbieter damit um die Ecke kommt, dass die Applikation mit „KI“ ist, langt es allemal für das Nachhaken. Meine wichtigsten Erkenntnisse habe ich zusammengefasst und teile sie gerne mit Leuten, die wie ich als Quereinsteiger, also nicht ganz so technisch und wissenschaftlich auf das Thema schauen.

Hier also der Start meiner kleinen Mini-Serie: 

Teil 1: Gab es eigentlich einen Data Science Urknall?

Einen Blick in die Anfänge des Data Science so wie man es heute versteht.

Zunächst habe ich mich gefragt, warum ausgerechnet jetzt alle von Data Science, Big Data, AI reden? Gibt es wirkliche, faktische Entwicklungen, die dieses hohe Maß an Aufmerksamkeit rechtfertigen und wenn ja, welche? Denn digitale Daten und auch den Begriff „Data Science“ gibt natürlich schon länger. So war der Begriff des Data Scientist in den 60er Jahren eine US-amerikanische Bezeichnung für Statistiker und in Deutschland ein Begriff für Informatik (Quelle: Wikipedia). Und die Geschichte der KI ist mindestens genauso alt. Data Science ist heute eher ein allgemeiner Ausdruck für „die Extraktion von Wissen aus Daten“. Und dieses zu tun, ist in der Tat deutlich komplexer geworden, durch Entwicklungen, die sich in den letzten 10 Jahren auf den heutigen Tag zuspitzen. 

Der Urschleim – Social Media verändert die Datenlage drastisch

Wie gesagt, digitale Daten gibt es natürlich schon lange. Eine entscheidende Veränderung in der Datenlage vollzieht sich aber mit der Wandlung zum Web 2.0. Mit und durch das Internet wird jetzt „interagiert“! Und so ist, wenn man so will, vor allem ein Anwendungsbereich des Web 2.0. der zentrale Treiber des  „Urknalls“. Sprechen wir heute von „Big Data“, meinen wir vor allem „Social Media“, so einer der Professoren des Studiums. Und wenn unsereins natürlich schon in den 0er Jahren dabei war, haben sich Netze wie Facebook erst in den letzten 5 Jahren als Massenmedium durchgesetzt. Waren es 2008 erst 100 Mio. User, ging es in den letzten 5 Jahren explosionsartig nach vorne: 2013 wurde die erste Milliarde geknackt (Quelle: Statista). Letztlich ist Facebook natürlich nur exemplarisch für unüberschaubare Menge an Applikationen, bei denen Menschen kommunizieren und Datenspuren hinterlassen. Jede Anwendung, ob Google Maps, die Fitness App, der Streaming Anbieter und natürlich das Shoppen bei Amazon liefert Daten. Aber warum kümmert uns das erst jetzt? Der Statistiker würde sagen, weil die Daten jetzt repräsentativ sind – jetzt ist doch wirklich jeder dabei! Sprich, das Interesse an einer Auswertung der Daten ist in den letzten Jahren extrem gestiegen. Waren es zunächst vor allem die Tec-Pioniere (Google, Amazon, Facebook, Apple), die die Daten zur Optimierung ihrer Userexperience und Geschäftsmodelle verwendet haben, ist jetzt auch traditionellen Unternehmen klar geworden, was mit Daten gemacht werden kann. Der oft neidvolle Blick zur wirtschaftlichen Performance dieser Tec-Titanen tut sein übriges.

Unternehmerische Internet Pioniere stellen die Weichen für neue Dateninfrastrukturen

Mit den neuen Anwendungen einher, kommt die Herausforderung diese Daten zu speichern und zu schnellstens zu verarbeiten. Wer z.B. bei Google einen Suchbegriff eingibt, löst eine Abfrage in einer gigantischen Menge von Webseiten aus und bekommt sofort eine Antwort. Google (aber auch andere Web-Titanen z.B. auch Yahoo) haben mit ihrer ganz auf den User zentrierten Sichtweise Probleme gelöst, die bei den herkömmlichen Dateninfrastrukturen nicht einkalkuliert waren. Das Hadoop Framework ist z.B. solch eine Plattform. Basierend auf Google Entwicklungen wurde Hadoop dann durch die Apache Foundation entscheidend und in der Open Source Philosophie weiterentwickelt und bietet der Entwickler Community die Grundlagen für ihre Anwendungen. Professor Vossen von der WWU wurde nicht müde, zu verdeutlichen, dass sich hier ein Paradigmen Wechsel vollzogen hat. Wenn traditionelle Systeme vor allem auf Transaktionssicherheit ausgerichtet sind, spielt in dieser neuen Datenlandschaft vor allem die Schnelligkeit / Performance die größte Rolle.
Gleichzeitig vollzieht sich der Wandel von Rechenzentren zu verteilten Systemen  – und mit der „Cloud“ ist Datenspeicherung nicht nur billig geworden, sondern auch skalierbar. Auch hier ist es eines der GAFA Unternehmen, den man als Impulsgeber sehen kann. Amazon suchte aus eigenem Leid (das Weihnachtgeschäft 2006 verursachte einen 10 x höhere Last im Vergleich zum Tagesgeschäft) Lösungen, aus der die heutige Amazon Cloud (AWS) entstanden ist. Das Cloud Computing ist ein weiterer Motor der Entwicklungen: zunächst vor allem für Startups und heute für jedes traditionelle Unternehmen, das Kosten einsparen möchte.

Ich fasse zusammen: Viele der Entwicklungen haben sich in den letzten 10-20 Jahren eher „schleichend“ vollzogen. Wenn man so will, kann man den Launch der Social Networks als „Big Data“ Geburtsstunde sehen. Meines Erachtens aber genauso wichtig, mit diesen Anwendungen hat sich der Blickwinkel auf Daten verändert. Die traditionellen Datenverarbeitungsstrukturen, haben keine Lösungen für diese neue Anforderungen (big, unstrukturiert, realltime) geboten. Es sind u.A. die (heute) großen Tec-Unternehmen, die die neuen Data Frameworks geschaffen haben, die ein Zusammenspiel von Big Data und performanter Verarbeitung (in „Echtzeit“) ermöglichen. Und das ist bekanntlich der Nährboden für alle jetzigen und künftigen Entwicklungen. Auf dieser technischen Basis kommt auch die KI in Schwung und raus aus den Labor-Situationen, bei dem sich Super-Computer mit Schachspielern gemessen haben. Google startet 2009 sein autonomes Fahren. Vieles was jetzt in im Licht der Öffentlichkeit diskutiert wird, hat sich in den letzten Jahren angebahnt. Es sind wahrscheinlich aber solche Themen, die jetzt uns Normalsterblichen veranschaulichen, was man aus Daten herausziehen kann.