Technologie

Wenn dem Internet die Daten ausgehen

Daten sind das neue Öl, heißt es. Doch der Rohstoff wird knapp – und könnte in ein paar Jahren zur Neige gehen. Eine alternative Quelle könnten synthetische Daten sein.

Irgendwann hat KI alles gelesen, was es im Internet gibt. Und dann? Werden die Daten knapp, weil Menschen zu wenig produzieren?
Irgendwann hat KI alles gelesen, was es im Internet gibt. Und dann? Werden die Daten knapp, weil Menschen zu wenig produzieren?dpa

Wenn man einem Kind beibringen will, was ein Auto ist, genügen ein paar Beispiele als Anschauungsmaterial. Wenn der Machine-Learning-Algorithmus einer Künstlichen Intelligenz lernen soll, was ein Auto ist, benötigt er hunderttausende, manchmal sogar Millionen Fotos. Der Bildgenerator Dall-E 2 etwa wurde mit 650 Millionen Text-zu-Bild-Paaren trainiert. Das Sprachmodell ChatGPT, das ebenfalls von OpenAI stammt, wurde derweil mit 300 Milliarden Wörtern gefüttert. Zum Vergleich: James Joyces Monumentalwerk „Ulysses“ kommt auf 265.000 Wörter. Wie ein Supernerd in einer Bibliothek wühlt sich die KI durch tonnenweise Texte: Wikipedia-Artikel, Bücher, Fachzeitschriften.

Die Daten, mit denen ChatGPT und andere großen Sprachmodelle trainiert wurden, stammen von Common Crawl, einer gemeinnützigen Organisation, die das Web seit 2007 systematisch durchforstet und über die Jahre eine der größten Textdatenbanken aufgebaut hat. Daten sind das neue Öl, heißt es. Doch der begehrte Rohstoff, der die KI-Maschinerie antreibt, ist knapp – und könnte schon bald zur Neige gehen. Bis 2028, schätzt das Institut Epoch AI, wird die Größe eines Datensatzes so groß wie die gesamte verfügbare Textmenge im Internet sein.

Berliner Zeitung

Mit einem Abo weiterlesen

  • Zugriff auf alle B+ Inhalte
  • Statt 9,99 € für 2,00 € je Monat lesen
  • Jederzeit kündbar