Datenschutz ohne Hindernisse: Warum Unternehmen auf synthetische Daten setzen sollten
Wie synthetische Daten bei Analytics- und KI-Projekten helfen können, beschreibt Omar Ali Fdal, Co-Gründer und CEO von Statice.
Daten sind eine der wertvollsten Währungen unserer Technologiegesellschaft. Sie helfen beispielsweise, innovative Sprachsysteme zu trainieren, damit diese schneller sinnvoll im individuellen Einsatz arbeiten können. Auch Staus vorhersagen und vermeiden oder das Training autonomer Fahrzeuge sind dank Nutzung und Auswertung hoher Datenmengen möglich, nebst vielen anderen Dingen. Durch stetig strenger werdende Datenschutzgesetze laufen Unternehmen jedoch leicht Gefahr, hohe Strafen zahlen zu müssen, sollten die Daten nicht korrekt gelagert und verwendet werden. Um dennoch weiterhin mit großen Datenmengen arbeiten zu können, greifen immer mehr Unternehmen auf synthetische Daten zurück.
Seit vier Jahren ist mit der DSGVO die bisher strengste Datenschutzverordnung in Kraft und längst mutet die Zeit davor ein bisschen wie der Wilde Westen der Datenvorherrschaft an. Besonders große Unternehmen, die auf viele Nutzende oder viel besuchte Webseiten aufbauten, hatten oftmals die Möglichkeit, relativ ungestört mit Datensätzen zu arbeiten, ohne dass die eigentlichen Inhaber:innen dieser Daten das unbedingt wussten. Nicht nur das hat sich seit Mai 2018 drastisch verändert, auch steigen nach wie vor die verhängten DSGVO-Bußgelder an. Wurde im Juli 2018, also direkt nach Inkrafttreten der DSGVO, lediglich eine Bußgeldstrafe über 400.000 € verhängt, waren es zwei Jahre später bereits über 330 Bußgelder mit einer Gesamtsumme von mehr als 130 Mio. €. Anfang 2022 waren bereits über eintausend Bußgelder mit einer Gesamtsumme von über 1,6 Mrd. € registriert. (Quelle). Auch in Zukunft ist anzunehmen, dass sowohl die Gremien der EU als auch jene auf nationaler Ebene mit ihren Digitalstrategien und der geplanten ePrivacy-Verordnung datengetriebene Geschäftsmodelle von Unternehmen noch stärker regulieren werden. Wie das jedoch konkret aussehen wird, ist nach den jüngsten Vereinbarungen zwischen der EU und den USA von März 2022 derzeit ungewiss. Denn noch gibt es keine Details, worauf sich die EU und die USA in ihrem neuen Datenschutzabkommen verständigt haben, nachdem der Europäische Gerichtshof (EuGH) das vorherige Datenschutzabkommen „Privacy Shield“ im Juli 2020 für nichtig erklärt hatte. Fest steht jedoch, dass damit die Weitergabe persönlicher Daten europäischer Nutzenden an US-Digitalkonzerne besser geregelt werden soll.
Bis 2024 sollen 60 Prozent der Daten synthetischen Ursprungs sein
Ob in der Gesundheitsbranche, im Finanz- oder im Versicherungswesen: Große Datenmengen sind weiterhin selten wegzudenken. Eine gute Lösung kann der Einsatz von synthetischen Daten sein. Diesen wurde erst kürzlich durch Gartner eine enorme Relevanz prognostiziert. Das Analyse-Unternehmen geht davon aus, dass bis 2024 ca. 60 Prozent aller Daten, mit denen Unternehmen regelmäßig arbeiten, synthetischen Ursprungs sein werden (Quelle) – und auch das MIT qualifiziert synthetische Daten als eine Breakthrough Technology des Jahres 2022 (Quelle). Global agierende Unternehmen wie American Express, Google und Amazon arbeiten bereits damit, um datenschutzgerechte Datensätze zu erhalten. Und da auch immer mehr europäische Unternehmen zum Teil sehr hohe Strafen erhalten, werden es stetig mehr.
Aber wie funktioniert das Ganze? Im Gegensatz zu realen Daten, die aus den Informationen von Menschen gewonnen werden, basiert die Erzeugung synthetischer Daten auf Algorithmen des maschinellen Lernens. Bei synthetischen Datensätzen handelt es sich daher nicht einfach um eine Umgestaltung bereits vorhandener Daten, vielmehr entsteht ein Satz völlig neuer Datenpunkte. Sowohl die statistischen Eigenschaften der Daten als auch deren Grundstruktur bleiben dabei grundsätzlich ähnlich, sodass die neuen Datensätze quasi baugleich wie die ursprünglichen verwendet werden können. Ebenfalls enthalten die neu generierten Daten keinerlei sensiblen Informationen und können von Unternehmen daher freier für Analysen, das Trainieren von KI-Modellen, Tests, Forschung und vieles mehr verwendet werden.
Auch das Teilen großer Datensätze mit Geschäfts- und Entwicklungspartnern oder auch schon die Inhouse-Datenverarbeitung wird so um ein Vielfaches einfacher und rechtssicherer. Da sich die Synthetisierung durch dieses Vorgehen unendlich skalieren lässt, ist die Technologie für Unternehmen jeder Größe und praktisch jeden Einsatz möglich.
Synthetische Daten eröffnen vielen Branchen neue Möglichkeiten
Schnell wird deutlich: Das Potenzial der Technologie endet nicht beim Datenschutz. Viele global agierende Unternehmen, die immer stärker mit KI und Deep-Learning-Modellen arbeiten, haben das bereits erkannt. Um einige Beispiele zu nennen: Amazon nutzt synthetische Daten, um ihr Spracherkennungssystem Alexa zu skalieren, die Alphabet-Tochter Waymo nutzt sie, um ihre KI für autonomes Fahren zu trainieren und American Express verwendet synthetische Daten, um Muster bei Kreditkartenbetrug schneller und besser zu erkennen.
Auch ein kleiner Blick in die Versicherungsbranche zeigt, welchen weiteren Nutzen synthetische Daten haben: So führte z. B. die Provinzial erfolgreich prädiktive Analysen auf synthetischen Versicherungsdaten durch, indem sie den Prozess der Datennutzungsgenehmigung mit ihrem Datenschutzteam straffte und ihr maschinelles Lernmodell eine Leistungseffizienz von 97 % auf synthetischen Daten erreichte – durch Einsparungen von bis zu Monaten bei der Bewertung von Datenschutzrisiken (Quelle). Im Gesundheitswesen hat bspw. das Newsenselab-Team die Verwendung synthetischer Daten zur Anonymisierung medizinischer Daten validiert. Es gelang ihnen, mehr als 170.000 Datenpunkte zu Migränesymptomen zu anonymisieren und dabei dennoch die Nutzbarkeit der Daten zu gewährleisten, so dass die Daten ohne Verletzung der Privatsphäre für die Migräneforschung weitergegeben werden können (Quelle).
Insgesamt zeigt schon diese kleine Auswahl, welche breit gefächerten Möglichkeiten hinter der Technologie stecken. Unternehmen mit besonders datengetriebenen Geschäftsmodellen wie die Telekommunikationsbranche, der Finanzsektor oder das Gesundheitswesen bzw. die Pharmaindustrie sollten daher nicht länger zögern und die Nutzung synthetischer Daten schon jetzt in Betracht ziehen. Denn letztlich spielen die Qualität und risikoarme Nutzbarkeit von Daten eher mittel- als langfristig eine wichtige Rolle für den zukünftigen Erfolg.
Über den Autor:
Omar Ali Fdal ist CEO und Co-Gründer von Statice, einem in Berlin ansässigen, hochmodernen Anbieter von Datenschutz-Technologien für Unternehmen aus der Gesundheits-, Versicherungs- und Finanzbranche. Mit der Statice-Software können diese Unternehmen synthetische Datensätze für die tägliche Anwendung generieren.
Bildquelle/Lizenz Aufmacher: Bild von Hans Braxmeier auf Pixabay
Creative Commons Lizenz CC BY-ND 4.0
Sie dürfen:
Teilen — das Material in jedwedem Format oder Medium vervielfältigen und weiterverbreiten und zwar für beliebige Zwecke, sogar kommerziell.
Der Lizenzgeber kann diese Freiheiten nicht widerrufen solange Sie sich an die Lizenzbedingungen halten.
Unter folgenden Bedingungen:
Namensnennung — Sie müssen angemessene Urheber- und Rechteangaben machen, einen Link zur Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Diese Angaben dürfen in jeder angemessenen Art und Weise gemacht werden, allerdings nicht so, dass der Eindruck entsteht, der Lizenzgeber unterstütze gerade Sie oder Ihre Nutzung besonders.
Keine Bearbeitungen — Wenn Sie das Material remixen, verändern oder darauf anderweitig direkt aufbauen, dürfen Sie die bearbeitete Fassung des Materials nicht verbreiten.