Künstliche Intelligenz Software Technologien

Ein Jahr ChatGPT – Eine Bestandsaufnahme

Nico Zentner

6 MIN LESEDAUER

10.01.2024 –

Wir werfen einen Blick auf die erstaunlichen Fortschritte, die dieser KI-Chatbot in nur einem Jahr gemacht hat.

ChatGPT4 ist nicht mehr nur ein einfacher Textgenerator; er hat die Grenzen dessen, was ein Chatbot kann, erweitert und bietet nun vielschichtige Fähigkeiten, die weit über das hinausgehen, was wir bisher von KI-Modellen kannten.

Die Analyse erfolgte im Dezember 2023. Wir haben ChatGPT4 genutzt, um die Beispielinhalte zu generieren.

Was steckt inzwischen alles hinter ChatGPT4?

Diese Frage stellte ich mir neulich. Klar, mit ChatGPT4 kann man mittlerweile beinahe so chatten wie mit einem Menschen und bekommt auf seine Fragen nicht nur eine vorgefertigte, sondern eine „kreative“ Antwort generiert. Doch das, was die aktuelle Version von ChatGPT4 leistet, sprengt den Rahmen eines gewöhnlichen Chatbots. Entdecken wir gemeinsam, wie ChatGPT4 die Spielregeln verändert und zeigt, dass ein Chatbot mehr als nur programmierte Antworten bieten kann.

Beyond Simple Text: Die vielschichtigen Fähigkeiten von ChatGPT4 und LLMs

Wir sprechen häufig von Large Language Models (LLMs), die die Grundlage moderner KI-Chatbots wie ChatGPT4, Bard, Bing, Claude und vieler weiterer bilden. Oft werden LLMs als eine Art fortschrittliche Auto-Textvervollständigung betrachtet. Es wird berichtet, dass sie im Wesentlichen nichts anderes tun, als das nächste Wort in einem Satz vorherzusagen, um so Ihre Antworten zu generieren. Aber entspricht das wirklich der Wahrheit?

Hierzu ein Beispiel:

Gebe ich ChatGPT4 den Befehl „Führe fort: Ich esse am liebsten ein Croissant mit“, antwortet es wie erwartet:

ChatGPT: Antwort — Abbildung 1: Antwort von ChatGPT, Quelle: ChatGPT

Lasse ich allerdings die Aufforderung „Führe fort“ weg und schreibe nur „Ich esse am liebsten ein Croissant mit“, setzt es meinen Satz nicht einfach fort, sondern gibt eine angepasste Antwort:

Natürlich kann man argumentieren, dass das LLM hinter ChatGPT4 auch auf Basis vieler Konversationen trainiert wurde und daraus gelernt hat, welche Antworten die Nutzer erwarten. Das führt dazu, dass es meine Anfrage indirekt fortführt, jedoch unterscheidet sich das Ergebnis dennoch von einer simplen Satzvervollständigung.

Kontextbewusstsein bei ChatGPT4

Was ChatGPT4 zudem stark von einer einfachen Textvervollständigung unterscheidet, ist die Fähigkeit innerhalb einer Konversation bis zu einem gewissen Grad den Kontext zu behalten. Zu diesem Zweck nutzt es das „Transformer-Modell“, um bei der Generierung einer Antwort, stets alle vorherigen Fragen und Antworten innerhalb der Konversation zu berücksichtigen.

Hierzu ein Beispiel:

Wenn ich ChatGPT4 im Anschluss an die vorherige Anfrage den Satz „Nenne mir ausschließlich Vegane und Kohlenhydrat freie Alternativen“ übergebe, antwortet dieses:

ChatGPT4 hat durch den Kontext erkannt, dass ich mich auf die vorherige Antwort beziehe und vegane, kohlenhydrat-freie Alternativen für das Belegen meines Croissants suche – ohne, dass ich dies explizit genannt habe.

Die Kunst von Function Calling

Die Funktionen von ChatGPT4 enden hier bei weitem noch nicht. Es ist standardmäßig dazu in der Lage, den Wunsch eine Funktion auszuführen aus einer Nutzer-Anfrage zu identifizieren und besitzt zudem eine Reihe von Standardfunktionen.

Implizites Function Calling (Standardfunktionen)

OpenAI hat die Integration zuvor unabhängigen Funktionen und KI-Modelle in ChatGPT4 realisiert. Jetzt können Nutzer in ein und derselben Konversation auf die vielfältigen Funktionen zugreifen.

Bildgenerierung

Angenommen, ich möchte eine Illustration einer Croissant-Variante mit Tofu. Hierfür bleibe ich in derselben Konversation und stelle ChatGPT4 folgende Anfrage „Erstelle mir eine ultra-realistische Illustration der Variante mit Tofu.“

Antwort von ChatGPT — Abbildung 4: Bildgenerierung mit ChatGPT, Quelle: ChatGPT

ChatGPT4 hat, ähnlich wie es eine „Alexa“ ausführen würde, die Funktionsanfrage (Bilderstellung) identifiziert, automatisch an das DALL-E Bilderzeugungs-Modell weitergeleitet und mir das Ergebnis in derselben Konversation präsentiert. Interessant ist, wie ChatGPT4 aus dem Gesprächskontext ableitet, dass ich ein mit Tofu gefülltes Croissant illustriert haben möchte – ein deutlicher Hinweis darauf, dass die Fähigkeiten von ChatGPT4 weit über die einer einfachen Textvervollständigung hinausgehen.

Web-Browsing

Möchte ich jetzt wissen, wie man ein Croissant gefüllt mit Tofu backt, kann ich entweder ChatGPT4 darum bitten mir diese Anleitung zu generieren, oder es darum bitten bereits existierende, von einem Menschen generierte Rezepte im Internet zu suchen. Hierfür stelle ich die Anfrage „Suche und präsentiere mir hierzu ein Rezept, welches du im Internet findest.“

Das erhaltene Rezept weicht möglicherweise leicht von meiner ursprünglichen Anfrage ab. Es ist wahrscheinlich, dass im Internet kein spezifisches Rezept für ein Tofu-gefülltes Croissant verfügbar ist. ChatGPT4 hat jedoch auf Basis meiner Anfrage und dem Kontext der Konversation identifiziert, nach was für einem Rezept es suchen soll. Es erkennt, wonach ich suche, identifiziert die Funktion des Web-Browsings und sucht nach Croissant-Rezepten mit Tofu-Füllung. Womöglich wird mir das erste gefundene Rezept, zusammen mit einer Quellenangabe präsentiert.

Bilderkennung

Möchte ich wissen, wie sich das Nahrungsmittel, welches ich fotografiert habe und das Croissant ähneln, lade ich einfach ein Foto hoch und stelle die Anfrage „Worin ähneln sich die Lebensmittel?“

ChatGPT4 hat hier durch das Hochladen des Bildes der Mini-Brioche mit der Verknüpfung meiner Frage zunächst das Bild mit einer Bild-Analytik-KI analysieren lassen und erkannt, dass es sich um eine Mini-Brioche handelt. Anschließend hat es über den Kontext der Konversation indirekt geschlussfolgert, dass ich einen Vergleich mit einem Croissant wünsche und so meine Frage beantwortet.

Explizites Function Calling

Aber hier enden die Fähigkeiten von ChatGPT4 noch lange nicht. ChatGPT4 ist bekannt dafür, dass es Programmcode erzeugen kann. ChatGPT4 kann diesen jedoch sogar bedingt mittels Code-Interpreter – bis lang ausschließlich Phyton Code – ausführen und das Ergebnis präsentieren, was den Standardfunktionsumfang nochmals erweitert.

Code-Interpreter

Möchte ich also die Kalorien von 123 g der Minibrioche berechnen, frage ich zunächst in einer Anfrage nach der Kalorienangabe und lasse diese erneut über Web-Browsing suchen: „Suche mir zu den Brioche falls möglich der Marke (Maitre Jean Pierre) konkrete Kalorienangaben im Internet, solltest du hierzu keine finden, suche einen Standardwert für Brioche.“

Anschließend möchte ich, dass ChatGPT4 ein Programm zur Berechnung der Kalorien einer 123 g Portion generiert und dieses ausführt, um mir das Ergebnis zu präsentieren „Erstelle mir Programmcode, in einer Sprache, welche du ausführen kannst, um auf Basis der Informationen der letzten Anfrage Kalorien zu berechnen. Als Input soll eine Gramm-Zahl (Ganzzahl) und eine Kalorienanzahl (Ganzzahl) bei dieser zuvor gegebenen Gramm-Zahl dienen. Zusätzlich wird die tatsächliche Portionsgröße als Gramm-Zahl (Ganzzahl) benötigt. Das Programm soll dann auf Basis der drei Werte die Kalorienanzahl bei der gegebenen Portionsgröße berechnen und als Ganzzahl ausgeben. Führe anschließend das soeben erstellte Programm aus, wähle als Input die Informationen (Gramm-Zahl und Kalorienzahl) aus deiner letzten Antwort und als Portionsgröße 123 g und präsentiere mir das Ergebnis der Berechnung.“

Die Berechnung war nicht sehr komplex, das Ergebnis ist jedoch erstaunlich! Was ist hier passiert? Wir schauen Schritt für Schritt darauf:

Abbildung 8: ChatGPT Berechnung, Quelle: ChatGPT

ChatGPT4 hat zunächst meine Anfrage verstanden und einen Code zum Berechnen der Kalorien einer beliebigen Portionsgröße auf Basis gegebener Informationen (Kalorien bei Portionsgröße x) generiert.
ChatGPT4 hat zudem die geforderten Input-Werte aus meiner aktuellen Anfrage und dem vorherigen Kontext identifiziert und diese in den Code integriert.
ChatGPT4 hat anschließend den erstellten Code mithilfe einer internen Funktion ausgeführt und so das Ergebnis berechnet.
Zum Schluss wurde das Ergebnis präsentiert.

Erkenntnis: ChatGPT4 verhielt sich hier nicht wie ein einfaches Textvervollständigungsprogramm. Vielmehr verhält sich die teilautomatisierte KI-Toolbox ChatGPT4 (wie ich es nennen würde) wie ein KI-Agent.

Nutzt ChatGPT ein Large Multimodal Model (LMM)?

Ein LMM wird häufig als die Weiterentwicklung von LLMs bezeichnet. Es ist dazu in der Lage nicht nur eine, sondern gleich mehrere Modalitäten, wie Text, Bild und Audio zu erzeugen. Ob ChatGPT4 nun ein LLM oder LMM ist, bleibt wohl Definitionssache. Es ist nicht klar, ob hinter ChatGPT4 tatsächlich eine KI steckt, welche diese Fähigkeiten in sich vereint oder lediglich all diese Funktionen, durch unabhängige KI-Modelle ermöglicht und über automatisierte Schnittstellen dem Nutzer als eine KI präsentiert.

Was sind KI-Agenten?

Funktionsweise von KI-Agenten

KI-Agenten wie GodmodeAI sollten in der Theorie wie folgt agieren:

Identifizieren der Vorgehensweise, um eine komplexe Aufgabe zu lösen.
Schrittweise Ausführen der identifizierten Teilschritte, soweit möglich, inklusive automatisches Prüfen der Ergebnisse.
Präsentation des Gesamtergebnisses aus den zuvor ausgeführten „Prozessschritten“.

Aus meiner Sicht hat ChatGPT4 genau dies in einer recht simplen Form ausgezeichnet ausgeführt.

Praxisbeispiel eines KI-Agenten

Ein praktisches Beispiel: Nutzung und Anfrage – „Ich möchte ein Start-up, welches einzigartige Croissants verkauft gründen, erstelle mir hierfür einen minimalistischen Businessplan.“

Ich empfand alle vorgeschlagenen Teilschritte als sinnvoll, fügte sie hinzu und startete den Agenten.

Nächster Schritt — Abbildung 10: Nächste Schritte, Quelle: GODMODE AI

Schritt für Schritt hat der Agent die Aufgaben korrekt durchgeführt. Allerdings stoppte er beim letzten Schritt und forderte aufgrund hoher Auslastung die Eingabe eines eigenen OpenAI API-Keys, um fortzufahren. Daher musste ich den Vorgang an dieser Stelle abbrechen.

GODMODE AI Abbruch — Abbildung 11: Teilschritte, Quelle: GODMODE AI

Hier als Beispiel das Ergebnis der Teilaufgabe „Croissant-Rezepte suchen.“

Die Ergebnisse, die der Agent vor Verweigerung seiner Dienste lieferte, lassen darauf schließen, dass er mit der Bereitstellung eines eigenen OpenAI API-Keys wahrscheinlich auch den letzten Schritt und somit das übergeordnete Ziel erfüllen könnte. Es bleibt spannend, wie solche KI-Agenten in Zukunft unsere tägliche Arbeit beeinflussen und erleichtern werden.

Potenziale, die sich für die Zukunft ergeben könnten

KI Agenten könnten in der Zukunft in der Lage sein, eigenständig verschiedene Fähigkeiten zu erlernen, die sie zur Erfüllung von Aufgaben benötigen. Dies funktioniert bereits jetzt schon in einem begrenzten Umfang.
KI Agenten könnten autonom ihre eigenen Antworten evaluieren und kontinuierlich verbessern und weiterentwickeln.

Mehr zu ChatGPT erfahren