Künstliche Intelligenz Teil 4: Achtung, laut Stanford-Forschern ist ChatGPT dümmer geworden!

05Sep

Künstliche Intelligenz Teil 4: Achtung, laut Stanford-Forschern ist ChatGPT dümmer geworden!

«Stanford-Forscher behaupten, dass die Leistung und Genauigkeit von ChatGPT mit der Zeit abgenommen hat», titelt die wissenschaftliche Onlineplattform «Interesting Engineering» am 20. Juli 2023. Es scheint demnach, dass die unkritischen Flitterwochen für die mit einem Riesenerfolg global eingeführten Künstliche-Intelligenz-Sprachmodelle wie ChatGPT schon vorbei sind. Entwickler, Berufsleute aller Art und Unternehmen, die ChatGPT zur Erreichung ihrer Ziele einsetzen, werden von den Verfassern der Studie «How Is ChatGPT’s Behavior Changing over Time?» (Stanford University und UC Berkeley) dringend aufgefordert: «Ihr müsst das Verhalten von ChatGPT in Euren produktiven Anwendungen kontinuierlich überwachen, bewerten und beurteilen.» Lesen Sie Einzelheiten dazu.

Das Studienziel der Forscher aus Stanford und UC Berkeley

GPT-3.5 und GPT-4 sind die beiden am weitesten verbreiteten Anwendungen für grosse Sprachmodelle der Künstlichen Intelligenz (Large Language Models LLM). Die Forscher aus Stanford und UC Berkeley wollten mit der Studie «How Is ChatGPT’s Behavior Changing over Time?» herausfinden, ob sich ChatGPT verbessert, wenn aufgrund von Daten, Nutzerfeedback oder Designänderungen ChatGPT-Aktualisierungen veröffentlicht werden. Zu diesem Zweck bewertete das Forscherteam das Verhalten der im März 2023 und Juni 2023 veröffentlichten Versionen von GPT-3.5 und GPT-4 aufgrund von vier Aufgaben: Bei der ersten Aufgabe ging es um das Lösen mathematischer Probleme, bei der zweiten Aufgabe um die Beantwortung sensibler Fragen, bei der dritten Aufgabe um die Generierung von Codes und bei der vierten Aufgabe um die Bewertung der Modelle bezüglich des visuellen Denkens.

Die hauptsächlichen Studienergebnisse

Die Forscher stellten fest, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 bei den jeweiligen Veröffentlichungen im März 2023 und Juni 2023 variierten. So konnte GPT-4 in seiner Version vom März 2023 Primzahlen mit einer Genauigkeit von 97,6 Prozent identifizieren. In der Version vom Juni 2023 hat GPT-4 bei derselben Fragestellung unglaublich schlecht abgeschnitten und nur noch eine Genauigkeit von 2,4 Prozent erreicht. Und erstaunlich: Die GPT-3.5-Version vom Juni 2023 war bei der gleichen Aufgabe viel besser als die Version vom März 2023. Das Team stellte ausserdem fest, dass GPT-4 im Juni 2023 weniger bereit war, sensible Fragen zu beantworten als im März 2023. Kommt dazu: Sowohl GPT-4 als auch GPT-3.5 wiesen im Juni 2023 mehr Fehler bei der Codegenerierung auf als im März 2023.

Fazit der Forscher aus Stanford und UC Berkeley

Insgesamt zeigen die Ergebnisse der Studie «How Is ChatGPT’s Behavior Changing over Time?», dass sich das Verhalten eines Sprachmodells der Künstlichen Intelligenz (Large Language Models LLM) wie ChatGPT-3,5 und ChatGPT-4 in relativ kurzer Zeit erheblich ändern kann. Die Forscher schreiben wörtlich: «Wir planen, die hier vorgestellten Ergebnisse in einer laufenden Langzeitstudie zu aktualisieren, indem wir GPT-3.5, GPT-4 und andere Sprachmodelle der Künstlichen Intelligenz (Large Language Models LLMs) bei verschiedenen Aufgaben im Laufe der Zeit regelmässig evaluieren. Anwendern oder Unternehmen, die sich auf LLM-Dienste als Bestandteil ihres laufenden Workflows verlassen, empfehlen wir, ähnliche Überwachungsanalysen wie hier für ihre Anwendungen zu implementieren.» Das unterstreicht die Notwendigkeit, dass Entwickler, Berufsleute aller Art und Unternehmen, die ChatGPT zur Erreichung ihrer Ziele einsetzen, das Verhalten von ChatGPT bei produktiven Anwendungen kontinuierlich überwachen, bewerten und beurteilen müssen.

Globale Diskussion der Studienergebnisse

Die Studienergebnisse der Forscher aus Stanford und UC Berkeley werden in der Welt der Künstlichen Intelligenz rund um den Globus eifrig diskutiert. Dabei werden hauptsächlich die folgenden zwei Gründe für die Leistungsschwankungen von ChatGPT genannt:

Optimierungen und Updates von Sprachmodellen der Künstlichen Intelligenz führen über veränderte Trainingsdaten und Parameter zu unerwünschten und nicht voraussehbaren Leistungsveränderungen.
Die Flut von Anfragen an ChatGPT führt über aufwendige Rechenoperationen zu hohen Kosten: Das könnte OpenAI, die Betreiberin von ChatGPT, mittels vereinfachten Modellen zu qualitätssenkenden Einsparungen verleiten.

Etliche namhafte Experten äussern sich aufgrund der Studienergebnisse der Forscher aus Stanford und UC Berkeley bereits unverfroren: «OpenAI ist mit seinem ChatGPT als Grundlage für Künstliche Intelligenz-Anwendungen von Unternehmen schlicht nicht mehr verlässlich.»

Alternativen zu ChatGPT

OpenAI, die Betreiberin von ChatGPT, legt nicht offen, wie sie ihre Modelle trainiert. Man kann deshalb nicht ganz genau nachvollziehen, weshalb die ChatGPT-Sprachmodelle «dümmer werden». Diese Intransparenz von OpenAI ruft die Konkurrenz auf den Plan. So hat Elon Musk am 12. Juli 2023 angekündigt, er wolle es mit seinem neugegründeten Künstliche Intelligenz-Unternehmen xAI namentlich hinsichtlich der Transparenz besser machen als OpenAI. Und: Der Facebook-Konzern Meta hat eine neue Version seines Sprachmodells Llama 2 veröffentlicht. Llama2 hat einen grossen Vorteil: Meta stellt das Modell mittels einer Open-Source-Lizenz frei zur Verfügung. Unternehmen dürfen Llama2 lokal herunterladen und auch in kommerziellen Produkten einsetzen. Damit können die Nutzerinnen und Nutzer selbst entscheiden, wann und wie sie das Modell verändern.

Künstliche Intelligenz Teil I: Es gibt unzählige Künstliche Intelligenz-Anwendungen, die uns das Leben und die Arbeit erleichtern

Künstliche Intelligenz Teil II: «Die Auswirkungen der Künstlichen Intelligenz auf die Cybersicherheit sind sowohl positiv als auch negativ»

Künstliche Intelligenz Teil III: Schweizer Ärztinnen und Ärzte stellen zehn Forderungen hinsichtlich der Künstlichen Intelligenz KI in der Medizin