Gesichter und Namen, Geokoordinaten, E-Mails und sogar Kontonummern: Einer Recherche des Bayerischen Rundfunks (BR) zufolge beinhaltet der weltweit größte Trainingsdatensatz für Bildgenerierung durch Künstliche Intelligenz allerlei sensible Daten. Das zeigte eine Untersuchung des LAION5B-Datensatzes („Large-scale Artificial Intelligence Open Network“, übersetzt: „Groß angelegtes offenes Netzwerk für künstliche Intelligenz“).
Der LAION5B-Datensatz besteht aus fünf Milliarden Links auf Bilder und ihren Beschreibungen im Internet. Dieser bietet die Grundlage für KI-generierte Bilder. Entsprechenden Programmen geben Anwender Anweisungen dazu, was für ein Bild erstellt werden soll und schon generiert das Programm ein täuschend echtes Motiv.
Bei einer Stichprobe des öffentlich einsehbaren Datensatzes von LAION5B wurde dem Bericht zufolge unter anderem ein Nacktfoto eines Mannes zutage gefördert, das mit Geo-Daten und weiteren Informationen versehen war. Mithilfe einer kurzen Recherche konnte der Niederländer von den Journalisten identifiziert werden.
LAION setzt auf Transparenz
Dem Bericht zufolge beinhaltet auch der deutsche Datensatz massenhaft sensible Daten. So konnte der BR offenbar zu 310.000 Bildverweisen im deutschsprachigen LAION-Teil den exakten Aufnahmeort auslesen. LAION-Mitgründer Christoph Schuhmann war sich dessen dem Bericht nach nicht bewusst: „Auf das Problem werden wir jetzt das erste Mal hingewiesen“, so Schuhmann.
LAION setzt im Gegensatz zu Microsoft, Google und OpenAI auf Transparenz. Über das Trainingsmaterial der großen Konzerne ist nur wenig bekannt. Doch der LAION-Datensatz lässt dem Bericht zufolge auch Rückschlüsse darauf zu.




