Was ist Big Data
Big Data ist schon seit Längerem ein Schlüsselbegriff für die Digitalisierung, der sowohl für Chancen als auch für Risiken steht, der also gleichzeitig Hoffnung weckt und Ängste hervorruft. Die Chancen liegen in erster Linie im wirtschaftlichen Bereich, und in zweiter Linie bilden Big Data eine Ressource für die zivile Sicherheit.
Die Risiken liegen in der intransparenten Beobachtung und möglichen Fremdsteuerung des Verhaltens von Kunden und Bürgern. Unter Big Data versteht man die Sammlung, Zusammenführung und Auswertung von Daten über alle Lebenszyklen von Gütern und über ihre Umgebungen bei der Beschaffung, Herstellung, Ausführung und beim Vertrieb und Kundendienst. Die Daten kommen aus allen Bereichen über einzelne Firmen, Branchen und Ländergrenzen hinweg zusammen, und zwar sehr schnell – oft online während der Entstehungsprozesse, aus den verschiedensten Quellen und in großer Menge.
Mithilfe von Big Data können Produktions- und Logistiksteuerung von Massenwaren in großen Produktionsstraßen und Vertriebsnetzen verbessert und kostengünstiger gestaltet werden. Sie erlauben die Optimierung von Dienstleistungen und eine schnellere und sachnähere Bedienung von Kunden.
Erst die moderne Kommunikationstechnik macht es möglich: Wir haben heute das Internet in Verbindung mit der mobilen Smarttelefonie, wir haben leistungsfähige, schnelle Computer, große Server, Riesenspeichermedien mit raschen Zugriffen, und wir haben (und entwickeln immer weiter) starke Algorithmen, die die Datenmengen durchpflügen und neue Zusammenhänge herstellen können, wie es Menschen aufgrund der schieren Masse händisch niemals leisten könnten.
Algorithmen und Tracker
Es ist für den wirtschaftlichen Erfolg von Angeboten wesentlich, die Kunden gut zu unterscheiden und jeden einzelnen in seinen Wünschen und Schwächen gut zu verstehen. Wie können sie zum Kauf gewonnen werden, zu welchen Zeiten und auf welchen Medien sind sie am besten anzusprechen, mit welchen Mitteln und in welchen Umfängen sind sie fähig und willens zu bezahlen? Mit diesem Wissen können Kunden nicht nur besser bedient, sondern auch passgenauer beworben und damit letztendlich in ihrem Kaufverhalten gesteuert werden.
Zur Verhaltensbeobachtung braucht man erstens Daten, die bei der Nutzung entstehen, und zweitens Algorithmen , die die Daten interpretieren und daraus Schlüsse für die Anwendung ziehen.
Ein typischer Mechanismus zur Sammlung von Webnutzungsdaten sind Cookies. Das sind kleine Datensätze, die ein Nutzer beim Aufruf einer Webseite in seinem Browser speichert. Cookies enthalten ein Pseudonym des Nutzers (wie eine Garderobenmarke) und die Adresse der gerade aufgerufenen Webseite. Beim nächsten Aufruf der Webseite durch den Nutzer wird das Cookie an den Webserver zurückgeschickt und dieser erkennt seinen Nutzer wieder und kann an die vorherige Sitzung anknüpfen.
Cookies, die mithilfe eingebetteter Bilder oder Logos von Drittanbietern bei verschiedenen Webservices untergebracht sind, erlauben den Drittanbietern die Spurenverfolgung über eben diese verschiedenen Webservices hinweg, das nennt man Tracking. Weit verbreitete Tracker stammen von Doubleclick und Adition mit dem Ziel der personalisierten Werbung und von Google-Analytics zur Erstellung von Statistiken über die Nutzung von Webseiten.
Mithilfe von sogenannten Anti-Trackern, etwa Ghostery, können Nutzer Tracker auf den von ihnen besuchten Webseiten erkennen und abschalten, was allerdings in der Regel zu Serviceverlusten führt.
Cookies sind übrigens nicht die einzigen Tracking-Mechanismen. Mit denselben technischen und algorithmischen Mitteln, mit denen Anbieter Kunden und ihr Verhalten auswerten, können Bürger in ihrem Verhalten beobachtet werden, mit dem Ziel, daraus kriminelle oder gar terroristische Tätigkeiten herauszufiltern.
Algorithmen müssen sich zwangsläufig an einer jeweiligen Anwendungsaufgabe orientieren. Zum Beispiel leitet ein Werbealgorithmus aus dem Kauf eines Reiseführers und dem Buchen einer Fahrkarte zum selben Reiseziel sowie aus der Kenntnis bisher gebuchter Hotelkategorien ab, dass dieser Nutzer bereit ist, ein Hotel am Reiseziel zu einer gewohnten Hotelkategorie zu buchen. Diese Hotelkategorie wird dann punktgenau angeboten.
Ein Algorithmus zur Kriminalitätsbekämpfung dagegen würde zum Beispiel aus dem Surfen über Waffenangebote und bestimmte Lokale, die als Treffpunkte gewaltbereiter Menschen aufgefallen sind, eine Zugehörigkeit zu einer Gewaltszene ableiten. Das könnte zur polizeilichen Überwachung dieser Person und der auffällig werdenden Lokale führen.
Die Algorithmen unterscheiden sich zwar im Einzelnen, indem sie sich an ihren jeweiligen Aufgaben orientieren. Die Theorie und Technik der Informatik zum Sammeln, Zusammenführen und Auswerten von Big Data aber sind für die serviceorientierte Kundenansprache und für die Abwehr kriminellen Verhaltens dieselben. Für beide Anwendungsbereiche ergeben sich daher für den Umgang mit Big Data kritische Fragen.
Die Sorge um den Verlust von Privatheit und Freiheit
Einerseits wollen Kunden gerne gut und preiswert bedient werden, auf der anderen Seite wollen sie nicht grenzenlos ausgespäht werden. Einerseits wollen Bürger in ihrer Sicherheit geschützt werden, andererseits in ihrem privaten und öffentlichen Verhalten nicht immer unter Beobachtung und potenziellem Verdacht stehen.
Das Bundesverfassungsgericht hat in seinem bahnbrechenden Volkszählungsurteil 1983 die informationelle Selbstbestimmung der Bürger auf Verfassungsrang gehoben, dem später noch das Recht auf kommunikative Selbstbestimmung und auf die Integrität der Datenverarbeitung hinzugefügt wurden. Diese Grundrechte haben in Deutschland und Europa einen hohen Stellenwert als Grundsäulen der Demokratie und Freiheit.
Die größte Besorgnis ergibt sich aus der Intransparenz der Sammlung und Auswertung. Wer sammelt auf welche Weise welche Daten von mir, zu welchen Zwecken werden sie ausgewertet und an wen werden sie weitergegeben? Welche Schlüsse werden über mich gezogen, und welche Konsequenzen habe ich daraus zu tragen? Außerdem: Sind die Quelldaten immer richtig und zuverlässig? Sind die Auswertungsergebnisse zutreffend?
Es gibt bekannte Beispiele für die Verweigerung von Krediten oder Versicherungen aufgrund fehlinterpretierter oder gar falscher Vorgeschichten. Jugendliche werden gewarnt, dass Partybilder in Facebook ihre späteren Berufschancen mindern, der Kauf von Medikamenten im Internet könnte den falschen Verdacht von Drogenabhängigkeit wecken usw.
Hieraus ergeben sich zentrale Aufgaben für die weitere Gestaltung der Informations- und Kommunikationstechnik und für den Umgang mit ihr. Das Ziel ist es, die Chancen von Big Data für ein besseres Leben zu nutzen, ohne die Freiheit der Menschen einzuschränken. Der Weg dahin führt über drei Wege: erstens über die Herstellung der Technik, zweitens über ihre professionelle Nutzung auf Anbieterseite und drittens über ihre professionelle und private Nutzung als Nutzer.
Datenschutz-Skills in drei Dimensionen
Die erste Dimension der datenschutzfreundlichen Technikentwicklung ist das sogenannte Privacy by Design. In dieser Dimension müssen IT-Entwickler und -Techniker speziell dafür ausgebildet werden, geeignete Anonymisierungsverfahren, Verschlüsselungsmechanismen und Analyseinstrumente zu entwickeln.
Ein zentrales Element von Privacy Design ist die Datensparsamkeit, d.h. die Beschränkung auf nur solche personenbezogenen Daten, welche für die Dienst-Erbringung notwendig sind, und nicht mehr. Eine Kamera-App zum Beispiel braucht keinen Zugriff auf den Terminkalender, und ein Terminabgleichsprogramm braucht keinen Zugriff auf die Kamera.
Diese und weitere vertiefte Kenntnisse über Netzwerk- und Speichertechnologien sowie über ganz neue technische Ansätze wie Blockchain müssen als Inhalte der entsprechenden Ausbildungs- und Studiengänge an Hochschulen und Universitäten gelehrt werden.
Die zweite Dimension bezieht sich auf die Fachleute, die die algorithmische Nutzung von Big Data professionell betreiben. Die rasche Zunahme an Daten überfordert die meisten Mitarbeiter, die Datenschutzverantwortlichen und Analysten, gerade in den kleinen und mittleren Betrieben. Wie sollen sie damit umgehen? Welche Verfahren gibt es und wie setzt man sie gleichzeitig produktiv, sicher und datenschutzfreundlich ein? Eine Hauptaufgabe liegt dabei in der Organisation des komplexen Zugriffsschutzes.
Die dritte Dimension schließlich betrifft alle Nutzerinnen und Nutzer der weltweit vernetzten Kommunikation und ihrer Anwendungen. Das sind wir alle, sowohl im Privatleben als auch im Berufsleben, im Privaten wie im Öffentlichen, als politisch Handelnde und als Rückzugsuchende, sowohl als Hersteller und Anbieter von Waren als auch als Käufer, als Reisende, Wohnende, Spielende, Wählende, und so weiter.
Die Digitalisierung betrifft alle Bereiche, und durch Big-Data-Mechanismen werden sie alle zusammengeführt. Deshalb muss allen Menschen bereits in der Schule ein gewisses Basiswissen in Form eines Datenschutz-Unterrichts vermittelt werden.
Dabei kommt es nicht nur darauf an, für die private IT-Nutzung zu lernen, weder zu restriktiv noch zu freizügig mit persönlichen Informationen umzugehen, etwa bei der Installation von Apps auf Smartphones oder bei der Nutzung von Cloud-Diensten.
Es geht vor allem auch darum, Schüler darauf vorzubereiten, dass sie in ihrem Berufsleben tagtäglich mit Daten umgehen werden. Dafür sind Lerninhalte und Lernprogramme zu entwickeln und Lehrkräfte auszubilden. Dazu müssen wir verstehen, was Datenschutzkompetenz überhaupt ist. Welche Fähigkeiten sind erforderlich, welche Art von Hintergrundwissen, Urteilsfähigkeit, Vorsicht und Risikobereitschaft?
Es ist wie beim Autofahren. Zu Anfang muss man viel steuern, schalten und auf den Verkehr achten, in späteren Entwicklungsstadien mögen diese Vorgänge automatisiert und dadurch sicherer werden. Jedenfalls ist es sinnvoll, über die Verbesserung des Selbstdatenschutzes hinaus bereits heute den Systemdatenschutz zu stärken, der den Nutzern die Sorge nimmt, sich selber um alles kümmern zu müssen.