Reddit möchte dafür bezahlt werden, dass es beim Unterrichten großer KI-Systeme hilft

Unterstützt durch

Die Internetseite ist seit langem ein Diskussionsforum zu den unterschiedlichsten Themen und wird von Unternehmen wie Google und OpenAI in ihren KI-Projekten genutzt.

Von Mike Isaac

Mike Isaac lebt in San Francisco und schreibt über soziale Medien und die Technologiebranche.

Reddit ist seit langem ein Hotspot für Gespräche im Internet. Ungefähr 57 Millionen Menschen besuchen die Website täglich, um sich über so unterschiedliche Themen wie Make-up, Videospiele und Tipps für das Waschen von Einfahrten mit Hochdruckreinigern zu unterhalten.

In den letzten Jahren waren die Chats von Reddit auch ein kostenloses Lehrmittel für Unternehmen wie Google, OpenAI und Microsoft. Diese Unternehmen nutzen die Reddit-Gespräche bei der Entwicklung riesiger künstlicher Intelligenzsysteme, von denen viele im Silicon Valley glauben, dass sie auf dem Weg sind, das nächste große Ding der Technologiebranche zu werden.

Nun will Reddit dafür bezahlt werden. Das Unternehmen teilte am Dienstag mit, dass es beabsichtige, den Unternehmen den Zugang zu seiner Anwendungsprogrammierschnittstelle (API) in Rechnung zu stellen, der Methode, mit der externe Unternehmen die große Auswahl an persönlichen Gesprächen des sozialen Netzwerks herunterladen und verarbeiten können.

„Der Reddit-Datenbestand ist wirklich wertvoll“, sagte Steve Huffman, Gründer und CEO von Reddit, in einem Interview. „Aber wir müssen nicht den ganzen Wert einigen der größten Unternehmen der Welt kostenlos zur Verfügung stellen.“

Der Schritt ist eines der ersten bedeutenden Beispiele dafür, dass ein soziales Netzwerk für den Zugriff auf die von ihm gehosteten Konversationen Gebühren erhebt, um KI-Systeme wie ChatGPT, das beliebte Programm von OpenAI, zu entwickeln. Diese neuen KI-Systeme könnten eines Tages zu großen Unternehmen führen, aber Unternehmen wie Reddit werden sie wahrscheinlich nicht sehr helfen. Tatsächlich könnten sie genutzt werden, um Konkurrenten zu schaffen – automatisierte Duplikate der Reddit-Konversationen.

Reddit bereitet sich auch auf einen möglichen Börsengang an der Wall Street in diesem Jahr vor. Das 2005 gegründete Unternehmen verdient den Großteil seines Geldes mit Werbung und E-Commerce-Transaktionen auf seiner Plattform. Reddit sagte, man arbeite noch an den Einzelheiten der Gebühren für den API-Zugriff und werde die Preise in den kommenden Wochen bekannt geben.

Die Konversationsforen von Reddit sind zu wertvollen Gütern geworden, da große Sprachmodelle (LLMs) zu einem wesentlichen Bestandteil der Entwicklung neuer KI-Technologie geworden sind.

Bei LLMs handelt es sich im Wesentlichen um hochentwickelte Algorithmen, die von Unternehmen wie Google und OpenAI, einem engen Partner von Microsoft, entwickelt wurden. Für die Algorithmen sind die Reddit-Konversationen Daten, und sie gehören zu dem riesigen Materialpool, der in die LLMs eingespeist wird, um sie zu entwickeln.

Der zugrunde liegende Algorithmus, der zum Aufbau von Bard, dem Konversations-KI-Dienst von Google, beigetragen hat, wird teilweise auf Reddit-Daten trainiert. Das Chat GPT von OpenAI nennt Reddit-Daten als eine der Informationsquellen, auf denen es trainiert wurde.

Auch andere Unternehmen beginnen, den Wert der von ihnen gehosteten Gespräche und Bilder zu erkennen. Shutterstock, der Bildhostingdienst, verkaufte auch Bilddaten an OpenAI, um bei der Erstellung von DALL-E zu helfen, dem KI-Programm, das lebendige grafische Bilder erstellt, für die lediglich eine textbasierte Eingabeaufforderung erforderlich ist.

Letzten Monat sagte Elon Musk, der Besitzer von Twitter, dass er hart gegen die Verwendung der Twitter-API vorgeht, die Tausende von Unternehmen und unabhängigen Entwicklern verwenden, um Millionen von Konversationen im gesamten Netzwerk zu verfolgen. Obwohl er LLMs nicht als Grund für die Änderung nannte, könnten die neuen Gebühren deutlich in die Zehntausende oder sogar Hunderttausende Dollar gehen.

Um ihre Modelle weiter zu verbessern, benötigen Hersteller künstlicher Intelligenz zwei wichtige Dinge: eine enorme Rechenleistung und eine enorme Datenmenge. Einige der größten KI-Entwickler verfügen über reichlich Rechenleistung, suchen aber dennoch außerhalb ihrer eigenen Netzwerke nach den Daten, die sie zur Verbesserung ihrer Algorithmen benötigen. Dazu gehören Quellen wie Wikipedia, Millionen digitalisierter Bücher, wissenschaftliche Artikel und Reddit.

Vertreter von Google, Open AI und Microsoft antworteten nicht sofort auf eine Bitte um Stellungnahme.

Reddit pflegt schon lange eine Symbiose mit den Suchmaschinen von Unternehmen wie Google und Microsoft. Die Suchmaschinen „crawlen“ die Webseiten von Reddit, um Informationen zu indizieren und für Suchergebnisse verfügbar zu machen. Dieses Crawlen oder „Scraping“ ist nicht immer auf jeder Website im Internet willkommen. Aber Reddit hat davon profitiert, dass es in den Suchergebnissen weiter oben erscheint.

Bei LLMs ist die Dynamik anders – sie verschlingen so viele Daten wie möglich, um neue KI-Systeme wie die Chatbots zu erstellen.

Reddit hält seine Daten für besonders wertvoll, da sie kontinuierlich aktualisiert werden. Diese Neuheit und Relevanz sei es, was große Sprachmodellierungsalgorithmen benötigen, um die besten Ergebnisse zu erzielen, sagte Huffman.

„Mehr als jeder andere Ort im Internet ist Reddit ein Ort für authentische Gespräche“, sagte Huffman. „Es gibt eine Menge Dinge auf der Website, die man nur in der Therapie oder AA oder gar nicht sagen würde.“

Herr Huffman sagte, die API von Reddit sei weiterhin kostenlos für Entwickler, die Anwendungen erstellen wollten, die den Menschen bei der Nutzung von Reddit helfen. Mithilfe der Tools könnten sie beispielsweise einen Bot erstellen, der automatisch verfolgt, ob Benutzerkommentare den Regeln für das Posten entsprechen. Forscher, die Reddit-Daten für akademische oder nichtkommerzielle Zwecke untersuchen möchten, haben weiterhin freien Zugang dazu.

Reddit hofft außerdem, mehr sogenanntes maschinelles Lernen in die Funktionsweise der Website selbst zu integrieren. Es könnte beispielsweise verwendet werden, um die Verwendung von KI-generiertem Text auf Reddit zu identifizieren und eine Kennzeichnung hinzuzufügen, die Benutzer darüber informiert, dass der Kommentar von einem Bot stammt.

Das Unternehmen versprach außerdem, die Softwaretools zu verbessern, die von Moderatoren verwendet werden können – den Benutzern, die ehrenamtlich dafür sorgen, dass die Foren der Website reibungslos funktionieren und die Gespräche zwischen Benutzern verbessert werden. Und Bots von Drittanbietern, die Moderatoren bei der Überwachung der Foren unterstützen, werden weiterhin unterstützt.

Aber für die KI-Macher ist es Zeit zu zahlen.

„Das Crawlen von Reddit, das Generieren von Werten und das Fehlen einer Rückgabe dieses Werts an unsere Benutzer ist etwas, womit wir ein Problem haben“, sagte Huffman. „Es ist ein guter Zeitpunkt für uns, die Dinge zu verschärfen.“

„Wir finden das fair“, fügte er hinzu.

Mike Isaac ist Technologiekorrespondent und Autor von „Super Pumped: The Battle for Uber“, einem Bestseller über den dramatischen Aufstieg und Fall des Fahrdienstleisters. Er berichtet regelmäßig über Facebook und Silicon Valley und hat seinen Sitz in San Francisco. @MikeIsaac • Facebook

Nachricht

Reddit möchte dafür bezahlt werden, dass es beim Unterrichten großer KI-Systeme hilft