Öffentlich verfügbare Datensätze sind eine Rarität. Nun, sie waren es zumindest für eine sehr lange Zeit. Oftmals suchte ich nach passenden Daten für die Vorlesung, um den Studenten den Sinn und die Bedeutung von Cloud, Machine Learning und Big Data besser vermitteln zu können. Doch lange Zeit war nicht viel zu holen, außer in den Datensätzen aus den USA. Dies hat sich geändert und zwar sehr drastisch. Dadurch brach eine Innovationswelle aus, welche bis heute am Beschleunigen ist.
Datenquellen
In den USA sind alle von staatlichen Mitteln finanzierten Datensätze frei verfügbar. Denn was der Staat bezahlt und damit die Bürger finanzieren, sollte hinterher auch allen gehören bzw. zur Verfügung stehen. Wenn man sich allein die Webseite Data.gov anschaut, dann bietet hier die Regierung der Vereinigten Staaten aktuell 182.580 Datensätze in den unterschiedlichsten Formaten und aus den unterschiedlichsten Bereichen an. Auch in Deutschland hat man diesen Trend erkannt und bietet nun den Rohstoff Informationen über das Portal GovData für jedermann an. Immerhin gelangt man hier schon auf 27.772 Datensätze aus den unterschiedlichsten Bereichen der Verwaltung. Überraschenderweise ist der Bereich Gesetze und Justiz relativ schwach vertreten, obwohl hier ein starkes Interesse an Daten besteht und auch viele Daten erzeugt werden.
Die Verteilung auf unterschiedliche Lizenzmodelle wirkt zunächst ein wenig erschlagend, ist aber dennoch eine wichtige Unterscheidung und auch ein wichtiges Kriterium für den Gebrauch und die Verwendung der Daten. Der Großteil der Daten darf jedoch für die kommerzielle und nicht kommerzielle Nutzung herangezogen werden.
Neben der Erlaubnis auch zur kommerziellen Nutzung, ist auch immer die Anzahl der Datensätze und die damit verbunden Größe ein wichtiges Maß. Wenn wir uns den Bereich der Datensatzgröße allein anschauen, so bietet sich z.B. auf den Seiten der Open Science Data Cloud ein Wertebereich von knapp 80 GB bis hin zu 397 TB. Daten zu bekommen ist wichtig, Daten in der richtigen Anzahl und Güte zu bekommen, noch wichtiger. Als besonders freigiebig im Umfeld von Datenquellen zeigt sich der Bereich der Biologie. Bei sehr vielen Datensätzen, welche weltweit zur Verfügung gestellt werden, spielt diese Kategorie eine wichtige Rolle. Auch viele Daten aus dem gesellschaftlichen Leben und Alltag, sei es digital oder analog, werden erhoben und bereitgestellt, wie auch die Untersuchung der Daten der deutschen Regierung zeigt.
Ein interessanter und in den letzten Jahren stärker angestiegener Bereich betrifft und bedient das Gebiet des Machine Learning.
Meilenstein in der Qualität der Öffentlichen Datensätze
Viele Unternehmen, öffentliche Einrichtungen, Vereine und Einzelpersonen haben in den letzten Jahren begonnen große Datenmengen zu archivieren. Gerade der Zuwachs und der Anstieg von Cloud-basierten Kommunikationsplattformen und sozialen Kollaborationsdiensten hat einen enormen Schub von nutzergenerierten Daten in einer vollkommenen neuen Qualität und Güte gebracht. Hinzu kommt die technische und finanzielle Möglichkeit diese Daten auf Cloud Plattformen abspeichern und auch wiederum teilen zu können.
Ein wichtiger Meilenstein im Bereich maschinelles Lernen war u.a. die ImageNet Challenge vor einigen Jahren. Dabei wurden erstmals Daten, in diesem Fall Bilder, in einer Qualität und Quantität bereitgestellt, die es den Forschern erlaubten die Algorithmen zu trainieren und zu optimieren. Eine Million Bilder mit 1.000 verschiedenen Kategorien wurden bereitgestellt und brachten eine enorme Entwicklung in der Computervision, so konnte z.B. die Fehlerrate in der Zuordnung eines Bildes zu einer Kategorie, also ob auf dem Bild beispielsweise eine Katze zu sehen ist, von über 25 Prozent auf 5 Prozent in Jahren nach dem Veröffentlichen des Datensatzes gesenkt werden.
Dieses eine Beispiel zeigt, welchen enormen Einfluss Daten in der richtigen Menge und Güte auf die technologische Entwicklung haben. Mittlerweile gibt es viele Datensätze, welche mehr Daten und mehr Zuordnungen bereitstellen. Jedoch ist auch die Qualität der Daten immer zu untersuchen, bevor man diese einsetzt. Dies musste Microsoft leider recht schmerzhaft lernen. Der kreierte Bot Tay lernte viele negative Attribute aus solchen Datensätzen. Trotzdem lässt sich festhalten, dass die Anzahl an verfügbaren Datensätzen und die Qualität der Datensätze immens gestiegen ist.
Die Wertschöpfung durch Daten
Im Zuge der Digitalisierung in Unternehmen wird momentan auch viel Wert auf Daten gelegt. Gerade Kundendaten und Verkaufsverhalten sind wichtige Datensätze, welche zur Erstellung neuer Dienste und Produkte herangezogen werden. Die Daten zu kontrollieren und damit neue Dienste zu erbringen, ist ein beinahe offen geführter Kampf. Betrachten wir nur einmal unser geliebtes Automobil, so werden aus den unterschiedlichsten wirtschaftlichen Bereichen gleich mehrere Versuche gestartet die Datenoberhand zu behalten bzw. zu erlangen. Neben den Automobilherstellern versuchen natürlich auch Versicherungsunternehmen die Daten zu erheben. Doch damit ist die Reise noch lange nicht zu Ende. Es gibt Plattformen, Apps und viele andere Produkte und Hersteller, welche Daten aus unserem Automobil nutzbar machen wollen. Denn auch andere Hersteller können einen Anteil am Automobil ergattern, wenn beispielsweise das Navigationssystem oder die Einparkhilfe kostenlos nachgerüstet wird. Auch im Kommunikationssektor ist das Rennen um die Daten in vollem Gange. Und selbst Google versucht mit der auf der Google I/O 2016 vorgestellten neuen Messenger-App noch einmal Anteile in einem bereits stark gesättigten Marktsegment zu erlagen. Laut einer Untersuchung von Android-Smartphone-Daten durch SimilarWeb ist in 109 Ländern WhatsApp die führende Messeging-App und in 49 Ländern der Facebook Messenger. Da beide zu Facebook gehören, bedeutet dies, dass in 158 von 187 untersuchten Ländern weltweit, Facebook Herrscher der digitalen Kommunikation via Messenger ist. Das sind beinahe 85 Prozent des weltweiten Messaging! Dies schließt alle großen Wirtschaftsnationen mit ein – außer China, wo nach wie vor WeChat überwiegt. Damit kontrolliert natürlich auch Facebook den Markt und das Ökosystem für neue Märkte, wie z.B. das Suchen, Bezahlen und Buchen von Produkten und Dienstleistungen aus dem Messenger heraus.
Öffentliche Daten als Katalysator
Oftmals haben Unternehmen nicht genügend relevante Datenquellen, um bestimmte Analysen durchführen zu können. Ein Unternehmen kann den Zugang zu den fehlenden Datenquellen entweder durch einen Kauf der Datenquelle ausgleichen oder auf Basis eines Pay-per-Use-Modells die Daten dynamisch und aktuell abfragen. Microsoft beispielsweise bietet mit seinem Data market ein solches Modell für die aktuell 207 verfügbaren Datenquellen an. Zum Teil können Daten bis zu einem freien Kontingent an Transaktionen pro Monat genutzt werden und werden erst darüber hinaus kostenpflichtig. Bei anderen Datenquellen sind bereits mit der ersten Transaktion Kosten verbunden. Ähnlich verhält es sich bei anderen Anbietern von Datenquellen im Bereich von Machine Learning. Allein die Existenz dieser Produkte zeigt, wie wichtig der Zugang zu relevanten Datenquellen ist und welche Bedeutung er in Zukunft einnehmen wird. Für die Evolution von Machine Learning sind verlässliche und qualitativ hochwertige Datenquellen ein notwendiges Kriterium. Offene Datensätze sind somit nicht nur für die Forschung, sondern auch für Unternehmen und zukünftige Geschäftsmodelle entscheidend.
Unternehmen sollten handeln
Unternehmen sollten also gerade im Hinblick auf die digitale Transformation versuchen öffentliche und frei verfügbare Daten zu erschließen, um damit die eigenen Produkte und Dienstleistungen zu erweitern. Robuste und möglichst fehlerfreie Algorithmen sind dafür ein wesentlicher Baustein eines soliden digitalen Fundaments. Ebenso wichtig ist es weitere Datenquellen und die Möglichkeiten zur Erschließung zu lokalisieren.
Quellen:
https://www.opensciencedatacloud.org/
http://www.bmi.bund.de/DE/Nachrichten/Dossiers/OpenData/opendata_node.html
https://github.com/caesar0301/awesome-public-datasets
https://cloud.google.com/bigquery/public-data
http://aws.amazon.com/de/datasets/
http://www.kdnuggets.com/datasets/
https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public