Die kontinuierliche Verbesserung von Sprachmodellen ist seit geraumer Zeit ein wichtiger Schwerpunkt in der Forschung und Entwicklung zur künstlichen Intelligenz. Die Leistungsfähigkeit ist in den vergangenen fünf Jahren um den Faktor 10 gestiegen.Ziel ist es, eine natürliche und menschenähnliche Interaktion mit Sprachtechnologie zu ermöglichen, die etwa zur Beantwortung von Fragen und zur automatischen Dokumentenverarbeitung eingesetzt werden kann.
Die GPT-Modelle (Generative Pre-trained Transformer) gibt es seit dem Sommer 2018. Die letzte Version 3.5 ist auch die Grundlage für ChatGPT, das in den letzten Monaten so populär geworden ist. Mit diesem Hype ist die Frage, was als nächstes kommt, ähnlich populär geworden wie das Tool selbst.
Was kann Version 4?
Die Antwort auf diese Frage ist nun da und zwar in Form von GPT-4. Gerüchte gab es schon länger – z.B. dass die Anzahl der Parameter wieder um einiges größer sein wird (100 Billionen gegenüber 175 Milliarden bei GPT-3) und Spekulationen darüber, was dies für die Leistung bedeuten wird.
Mit der Veröffentlichung gibt OpenAI bekannt, dass das Modell zwar immer noch „in vielen realen Szenarien weniger leistungsfähig als der Mensch“ sein wird, aber in professionellen Benchmarks erstaunliche Ergebnisse erzielt. So soll es bei der bekannten US-Anwaltsprüfung ‚Bar Exam‘ unter den besten 10 % der Teilnehmer liegen. Zum Vergleich: das frühere GPT-3.5-Modell lag bei derselben Prüfung unter den letzten 10 %.
Die Entwickler behaupten, dass das Modell nicht speziell darauf trainiert wurde, in dieser und anderen Prüfungen, die zur Bewertung herangezogen wurden, gut abzuschneiden. Obwohl also einige der Prüfungsfragen während des Modell-Trainings gezeigt wurden, zeigt dies die Fähigkeit von GPT-4.
Neben der sachlichen Genauigkeit der generierten Ergebnisse wird GPT-4 auch eine bessere Steuerungsfähigkeit attestiert. Das bedeutet, dass es sich an verschiedene Sprachstile oder Textarten anpassen kann – von einem Interview oder Anleitungen bis hin zur Erstellung gut strukturierter Artikel.
Aufgrund seiner Fähigkeit, längere Eingaben zu verarbeiten, kann es auch dazu verwendet werden, Eingabetexte auf verschiedene Weise zusammenzufassen – von der Hervorhebung mehrerer wichtiger Kernaussagen bis hin zu Einzeilern mit erzwungenen Alliterationen und Ähnlichem.
Visueller Input
Eine weitere offensichtliche Neuerung ist die Möglichkeit, visuelle Eingaben in das Netzwerk einzuspeisen. Es kann Objekte erkennen, sie verbal beschreiben und sogar ungewöhnliche Aspekte eines Bildes hervorheben. Multimodale Embedding Spaces gibt es zwar schon seit einiger Zeit und sie werden beispielsweise in Suchmaschinen eingesetzt, um die Lücke zwischen Bild- und Textbereich zu schließen, aber ein erster Blick lässt auch hier auf deutlich verbesserte Fähigkeiten schließen.
Eingeschränkte Möglichkeiten
Wie bei den früheren Versionen handelt es sich bei GPT um ein Sprachmodell, das auf der Grundlage von Statistiken über große Korpora von Trainingstexten plausibel klingende Ergebnisse erzeugt, anstatt Schlussfolgerungen aus einer Datenbank mit bekannten Fakten und Regeln zu ziehen. Dies führt zu dem Effekt der „Halluzination“, d.h. es werden Aussagen produziert, die für den Laien korrekt klingen, aber faktisch nicht korrekt sind. Da dies ein Hauptproblem ist, das viele Anwendungsfälle verhindert, haben die Entwickler dieser Einschränkung besondere Aufmerksamkeit gewidmet. In der Tat übertrifft GPT-4 seinen Vorgänger und schneidet bei internen Bewertungen der faktischen Leistung deutlich besser ab.
Eine weitere wesentliche Einschränkung besteht in den Trainingsquellen, die nur bis September 2021 reichen. Neuere Themen können also gar nicht bearbeitet werden.
GPT-4 für Developer
Wie bei den Vorgängerversionen gibt es auch für GPT-4 eine API. Diese ist bisher nur in der kostenpflichtigen Pro-Version zugänglich. Für die kostenlose Nutzung gibt es eine Warteliste, um Zugang zu erhalten.
Künftige Einsatzbereiche
In Anbetracht der oben genannten Einschränkungen des Modells und der allgemeinen Leistungsfähigkeit gibt es eine große Anzahl interessanter Anwendungsfälle in verschiedenen Kontexten. Dennoch muss klar sein, dass GPT-4 oder LLMs (Large Language Models) keine Einheitslösung für jede Herausforderung sind. Wie bei allen KI-Systemen muss der Benutzer die tatsächliche Technik, die eine Aufgabe effizient löst, die Datennutzung und den Datenschutz, die Anpassungsfähigkeit an einen bestimmten (Unternehmens-)Kontext und vieles mehr berücksichtigen.
Bei Cloudflight haben wir Machine-Learning-Techniken bereits in unterschiedlichen Branchen angewandt. Wir unterstützen Sie gern bei Ihren KI-Initiativen, von der Strategiedefinition über das Design bis hin zur Implementierung, dem Betrieb und der Wartung von KI-Lösungen.