Sogenannte Large Language Models (LLMs) sind fortschrittliche Modelle maschinellen Lernens. Sie sind in der Lage, natürliche Sprache – also bspw. auch umgangssprachliche menschliche Gespräche – zu verstehen und zu generieren. Mit Hilfe sehr großer Datenmengen können diese großen Sprachmodelle trainiert werden. Dies geschieht durch das Erlernen von Parametern und dem Erkennen von Sprachmustern in den gefütterten Trainingsdaten [1].
Bei der Anwendung von LLMs stellen sich einige Herausforderungen. So benötigt das Training der KI eine enorm große Menge an Daten und damit auch eine dementsprechend hohe Rechenleistung. Ist das Modell einsatzbereit, stellen sich weitere Bedenken ein. Indem das LLM textbasierte Antworten auf Basis der zuvor zur Verfügung gestellten Datenmenge erstellt, werden häufig bestehende Vorurteile und Vorannahmen aus den vorliegenden Daten einfach übernommen und dadurch verstärkt. Zudem kann es bei den ausgegebenen Antworten auch immer wieder einmal zu sogenannten Halluzinationen kommen. Gemeint ist damit das Erfinden von Dingen, die nicht korrekt sind, aber als Fakten dargestellt werden. Eine Überprüfung dessen, was ein LLM ausgibt, ist also unerlässlich. Außerdem stellt sich stets auch die Frage nach dem Datenschutz, da die Server vieler der bekannten LLMs nicht in Deutschland stehen und damit auch nicht der Datenschutzgrundverordnung (DSGVO) unterliegen müssen.
Anwendungsfelder
Große Sprachmodelle werden für viele unterschiedliche Zwecke eingesetzt. Sie können beim Lernen helfen, z.B. beim Erlernen einer neuen Sprache, und sind damit auch in der Lehre von Nutzen. Selbstverständlich können LLMs auch beim Erstellen von Texten und/oder der dazugehörigen Recherche Anwendung finden. Darüber hinaus sind einige LLMs auch in der Lage beim Programmieren zu unterstützen und Code zu generieren.
Besonders in der Robotik erleichtern LLMs den Einsatz von Robotiklösungen. Sprachmodelle ermöglichen in der Mensch-Roboter-Interaktion einen Austausch in natürlicher Sprache – also mit einem Roboter zu sprechen, wie mit einem Menschen. Zudem erhöhen sie die Zugänglichkeit. Bei der Planung und Ausführung von Aufgaben können große Sprachmodelle Anweisungen, die laut ausgesprochen werden, in die nötige Programmiersprache übersetzen. Somit wird der Einsatz von Robotern auch in kleinen oder mittelständischen Betrieben ohne Expert*innen möglich [2].
Ein Beispiel für die Anwendung von LLMs in der Robotik ist die Kombination des Roboters Spot mit ChatGPT [3].

Beispiele für ChatBots und Large Language Modelle
ChatGPT (OpenAI)
ChatGPT ist ein Chatbot des US-amerikanischen Unternehmens OpenAI. Dieser basiert auf einem Large Language Model und kommuniziert textbasiert. Seinen Namen verdankt der Chatbot dem zugrundeliegenden Sprachmodell GPT („Generative Pre-trained Transformer“). Seit 2023 ist die neue Version, GPT-4, auf dem Markt, die laut Entwickler über einige Vorteile zum Vorgängermodell verfügt und nun auch multimodal funktioniert. Mit der vierten Version können nun also neben Texten auch Bilder oder Audio genutzt werden [5].
Vorteile: Erzeugen menschenähnlicher Texte
Kann sowohl technisch argumentieren, als auch Lösungen mathematisch erläutern
Nachteile: Keine Kontrolle über Daten (US Server vs. DSGVO)
Souveräne Falschaussagen („kann Wissenslücken nicht zugeben“, halluziniert stattdessen)
Das Transformer-Modell, für das das T in GPT steht, versteht mithilfe von neuronalen Netzen menschliche Eingaben und wandelt diese – ja nach dem – in Texte, Bilder oder Musik um [5].
Gemini (Google)
Gemini, ehemals Bard, ist ein multimodaler Chatbot von Google. Multimodal bedeutet, dass Ein- und Ausgabe in unterschiedlichen Medien erfolgen kann, also neben Text beispielsweise auch Bilder akzeptiert werden. Ursprünglich basierte der Chatbot auf dem Large Language Model LaMDA. Seit einiger Zeit wird jedoch auf PALM 2 zurückgegriffen, das beispielsweise im Test besser mit Fremdsprachen umgehen kann.
Vorteile: Antworten können aktuelle Ereignisse beinhalten
Seit Umstieg auf PALM 2 besser in Mathe und Logik
Nachteile: Daten auf US Server, Weiterverwendung durch Google (DSGVO)
Programmierung wird (noch) nicht unterstützt
Laut Google nach Schwächen vorhanden
BERT/RoBERTa (Google)
BERT steht für „Bidirectional Encoder Representations from Transformers“ und ist ein vorprogrammiertes Deep-Learning-Modell von Google. Deep-Learning ist eine Form des maschinellen Lernens, die die Verarbeitung komplexer Datensätze erlaubt. Anders als unidirektionale Sprachmodelle, die Sätze lediglich von links nach rechts oder von rechts nach links lesen können, kann ein bidirektionales Sprachmodell wie BERT Informationen aus beiden Richtungen verwenden. Dadurch können genauere Vorhersagen getroffen werden [6].
Vorteile: Kann gut komplexe Beziehungen zwischen Wörtern/Sätzen im Text lernen
Verarbeitung natürlicher Sprache
Kann gut komplexe Beziehungen zwischen Wörtern/Sätzen im Text lernen
Verarbeitung natürlicher Sprache
Nachteile: Neigt zu overfitting, vor allem bei kleinen Datensätzen
Benötigt große Menge hochwertiger Trainingsdaten
Großes Modell mit vielen Parametern, speicher- und rechenintensiv
Overfitting meint das Fehlen von Flexibilität eines Deep-Learning-Modells, weil dieses zu stark auf die verwendete Trainingsdatenmenge fixiert ist. Dadurch kann das Modell auf Informationen außerhalb dieser Datenmenge nicht mehr korrekt reagieren [7].
Koala (Berkeley + LLaMA)
Koala ist ein Chatbot des Entwicklers Berkeley AI der University of California, Berkeley. Er ist ein Abkömmling des Sprachmodells LLaMA von Meta AI, da Koala durch Feinabstimmung LLaMAs auf Dialogdaten aus dem Internet trainiert wurde.
Vorteile: Konzipiert für wissenschaftliche Recherche & akademische Forschung
Kann Aufgaben lösen, für die keine direkten Trainingsdaten gegeben wurden (Zero-Shot-Learning) – sehr gute Generalisierung
Nachteile: Halluzinieren: erzeugen nicht-faktischer Antworten (stärker als bei vergleichbaren Modellen)
Lizenzen
Die unterschiedlichen Modelle unterliegen verschiedenen Lizenztypen: Die Online-Demo von Koala ist ausschließlich für die akademische Forschung gedacht. Der Trainings- und Inferenzcode ist unter der Apache Licence 2.0 veröffentlicht und demnach frei nutzbar [8]. Gemini, BERT und LLaMA unterliegen ebenfalls der Apache Licence 2.0. ChatGPT unterliegt keiner Open Source- oder Softwarelizenz, sondern lediglich den allgemeinen Nutzungsbedingungen und Richtlinien des Entwicklers OpenAI.
Weiterführende Quellen:
O. Bünte. (2024, Juni 12). MIT lässt Roboter textbasiert mit LLMs navigieren. [Online]. Verfügbar: https://www.heise.de/news/MIT-laesst-Roboter-textbasiert-mit-LLMs-navigieren-9758885.html. [Abruf Oktober 8, 2024].
Referenzen:
[1] P. Kelbert, J. Siebert. (2024, Dezember 12). Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? [Online]. Verfügbar: https://www.iese.fraunhofer.de/blog/large-language-models-ki-sprachmodelle/. [Abruf Oktober 8, 2024].
[2] M. Schebek. Wie KI und LLMs die Robotik für alle zugänglich machen. [Online]. Verfügbar: https://www.aiav.technikum-wien.at/post/wie-ki-und-llms-die-robotik-f%C3%BCr-alle-zug%C3%A4nglich-machen. [Abruf Oktober 8, 2024].
[3] B. Wessling. (2023, Oktober 30). Boston Dynamics turns Spot into a tour guide with ChatGPT. [Online]. Verfügbar: https://www.therobotreport.com/boston-dynamics-turns-spot-into-a-tour-guide-with-chatgpt/. [Abruf Oktober 8, 2024].
[4] Underfitted. (2023, April 25). We integrated ChatGPT with our robots. [Online]. Verfügbar: https://www.youtube.com/watch?v=Y1-s37zrm1M. [Abruf Oktober 8, 2024].
[5] T. Jahn. (2023, Juni 19). ChatGPT. Was Sie über OpenAIs KI wissen sollten. [Online]. Verfügbar: https://www.handelsblatt.com/technik/it-internet/chatgpt-was-sie-ueber-openais-ki-wissen-sollten-/28941524.html. [Abruf Oktober 8, 2024].
[6] DataScientest. (2022, November 17). BERT: Ein innovatives Tool zur Sprachverarbeitung. [Online]. Verfügbar: https://datascientest.com/de/bert. [Abruf Oktober 8, 2024].
[7] ibm. What is overfitting? [Online]. Verfügbar: https://www.ibm.com/topics/overfitting. [Abruf Oktober 8, 2024].
[8] X. Geng et al. (2023, April 3). Koala: A Dialogue Model for Academic Research. [Online]. Verfügbar: https://bair.berkeley.edu/blog/2023/04/03/koala/. [Abruf Oktober 8, 2024].