Retrieval-Augmented Generation zum kostengünstigen Maßschneidern von Large Language Models - CURE Intelligence
+352 2674 554 41Mo. - Fr. 8:00 - 18:00 Uhr

    Retrieval-Augmented Generation zum kostengünstigen Maßschneidern von Large Language Models

    Sie betrachten gerade Retrieval-Augmented Generation zum kostengünstigen Maßschneidern von Large Language Models

    Einleitung – Erfolg der Large Language Models

    Anfang der 2020er-Jahre gab es bahnbrechende Fortschritte bei der Entwicklung generativer KI-Technologie. Mächtige Systeme, wie etwa ChatGPT oder MS Copilot, haben in kürzester Zeit unseren Alltag sowie das Berufsleben weitreichend verändert. Bei dieser fortlaufenden Entwicklung spielen insbesondere große Sprachmodelle (Large Language Models; LLMs) eine zentrale Rolle. Hierbei handelt es sich um äußert aufwändige stochastische Modelle, welche in der Lage sind, komplexe menschliche Sprache kontextuell zu interpretieren, sowie basierend auf Wahrscheinlichkeiten neu zu erzeugen (Textgenerierung). Siehe Manning (2022) für weitere Details. Um dies zu ermöglichen, beinhalten LLMs in der Regel mehrere Milliarden bis hin zu Billionen Parameter. Diese können, stark vereinfacht, als mathematische Repräsentation des digitalen Wissens, welches dem LLM antrainiert wurde, interpretiert werden. Ein Beispiel: Das GPT-4-Modell, welches der aktuellen Version von ChatGPT zugrunde liegt, soll schätzungsweise 1,8 Billionen Parameter enthalten (Lubbad, 2023). 

    Die Werte der Parameter werden durch aufwändige Trainingszyklen (sogenannte Epochen) mithilfe von großen Rechenzentren auf Basis immenser Datenmengen (den Trainingsdaten) berechnet. Dieser Vorgang kann mehrere Monate dauern und mehrstellige Millionensummen an Kosten verursachen. Je mehr Parameter ein Modell hat, desto mehr digitales Wissen kann ein LLM prinzipiell inkorporieren (beachte: neueste Forschungsergebnisse legen nahe, dass die Modellarchitektur ebenfalls eine entscheidende Rolle spielt). Deshalb haben sich in den letzten Jahren die Global Player der KI-Industrie, wie etwa OpenAI, Meta oder Microsoft, gegenseitig in der Parameterzahl überboten, um mit dem „besten Modell“ werben zu können.

    Eingeschränkter Nutzen der LLMS

    Je mehr NutzerInnen mächtige KI-Systeme in ihren Arbeitsalltag integrieren, desto häufiger wird deutlich, dass, je nach Use Case, der tatsächliche Nutzen des LLMs eingeschränkt sein kann. Die Gründe hierfür sind vielfältig, aber häufig ist der Output, welchen das LLM generiert, zu allgemein. So benötigen viele NutzerInnen etwa Antworten auf konkrete Fragen (Prompts bzw. Queries), welche sich spezifisch auf unternehmensinterne Vorgänge oder Begebenheiten beziehen. Auf ein derartig kontextuelles Wissen kann ein LLM jedoch in der Regel nicht zurückgreifen, da firmeninterne Dokumente / Daten nicht Teil seiner Trainingsdaten waren. Im besten Fall spiegelt das KI-System den NutzerInnen dann wider, dass es nicht über die notwendigen Informationen zur Beantwortung der Frage bzw. zur Erledigung der Aufgabe verfügt. Im schlimmsten Fall generiert das KI-System einen nicht-korrekten Output, welcher dann fälschlich als korrekt angenommen wird. Dies wird in der Literatur als Halluzinieren bezeichnet. Siehe Huang et al. (2025) für eine Übersichtsstudie.   

    Die wesentliche Problematik besteht also darin, dass das KI-System zwar technisch in der Lage wäre, konkrete firmenspezifische Fragen bzw. unternehmensbezogene Aufgaben zu erledigen, ihm jedoch die hierfür notwendigen externen kontextuellen Informationen fehlen. Prinzipiell könnte diese Hürde damit überwunden werden, dass das Unternehmen ein Open-Source LLM, wie etwa eine LLaMA-Variante, herunterlädt, und es auf eigenen Trainingsdaten, welches das notwendige firmenspezifische Wissen beinhalten, neu trainiert. Vor dem Hintergrund der einleitenden Bemerkungen wird jedoch deutlich, dass dieser Vorgang mit immensen Kosten und benötigten Rechenkapazitäten verbunden ist. Folglich ist dies für die große Mehrheit der Unternehmen keine praktikable Lösung.

    Die Alternative: Retrieval-Augmented Generation

    In diesem Spannungsfeld wurde in den letzten Jahren eine neue Technologie entwickelt, welche LLM-basierte KI-Systeme in die Lage versetzen, firmenspezifisches Wissen bei der Erzeugung eines Outputs zu berücksichtigen, ohne dass dabei ein erneutes Training vonnöten ist. Diese Technologie heißt Retrieval-Augmented Generation (RAG), und impliziert die Einbindung einer zusätzlichen, aus der Perspektive des LLMs externen Datenbasis, welche das fehlende Wissen (häufig in Form von Vektordatenbanken) liefert. Die Architektur kann anhand des folgenden Schaubilds von Amazon Web Services (2025) verstanden werden. 

    Grafik: RAG-Systemarchitektur nach AWS
    Grafik: RAG-Systemarchitektur nach AWS

    Im ersten Schritt starten die NutzerInnen, wie sie es von der gewöhnlichen LLM-Verwendung kennen, nämlich mit einer Eingabeaufforderung (Prompt + Query). Bei „normalen“ LLM-basierten KI-Systemen würde diese Eingabeaufforderung nun transformiert und anhand der ursprünglichen Trainingsdaten des LLMs verarbeitet werden. Bei RAG-Systemen wird jedoch stattdessen zunächst ein Query zur Suche nach relevanten Zusatzinformationen an die externe Datenbasis geschickt. Dafür wird sie in eine Vektordarstellung transformiert und anschließend mit der externen Vektordatenbank, welche das zusätzliche kontextuelle Wissen enthält, abgeglichen. Die als relevant identifizierten Informationen werden als erweiterter Kontext („Enhancement“) der initialen Eingabeaufforderung beigefügt. Anschließend erzeugt das LLM seinen Output nicht nur auf Basis der initialen Eingabeaufforderung, sondern zusätzlich auch auf dem erweiterten Kontext.

    Der Output des LLMs kann sich hierdurch deutlich von der „Standardvariante“ unterscheiden. Wir erinnern uns, dass LLMs ihren Output in der Regel basierend auf Wahrscheinlichkeiten erzeugen. Stellt der Nutzer etwa eine Frage, so ist der LLM-Output eine Sequenz an Wörtern, welche die höchste Wahrscheinlichkeit haben, die richtige Antwort auf die Frage vor dem Hintergrund des digitalen Wissens des LLMs zu sein. Die Bewertung, welche Wortsequenz am wahrscheinlichsten ist, erfolgt also ausschließlich auf den ursprünglichen Trainingsdaten des LLMs. Wird nun durch ein RAG-System eine externe Wissensbasis diesem Prozess beigefügt, so hat unter Umständen eine andere Wortsequenz die höchste Wahrscheinlichkeit, die richtige Antwort zu sein. Mathematisch wird dabei die Wahrscheinlichkeitsmasse zu Wortsequenzen verlagert, welche firmenspezifisches Wissen widerspiegeln. Das LLM ist somit also in der Lage, Anfragen sinnvoll zu bearbeiten, welche unternehmensbezogene Informationen benötigen.

    Vorteile von RAG-Systemen

    Vor diesem Hintergrund lassen sich die folgenden Vorteile von RAG-Systemen für generative KI-Anwendungsfälle ableiten.

    • Kostengünstig: RAG-Systeme erlauben ein umfassendes Maßschneidern von LLMs für Firmen zu einem Bruchteil der Kosten, welche ein Neutraining des LLMs verursachen würde.
    • Dauerhaft hohe Relevanz: RAG-Systeme können dauerhaft Ergebnisse mit hoher Relevanz erzeugen, wenn die externe Wissensbasis stetig mit neuen relevanten Daten versorgt wird.
    • Höhere Verlässlichkeit: Da RAG-Systeme ihren Output mithilfe von erweitertem Kontext generieren, welcher sich aus vertrauenswürdigen (firmeninternen) Informationen speist, wird die Verlässlichkeit der Ergebnisse deutlich verbessert.
    • Einfache Kontrolle: Der gleiche Mechanismus, welcher die Verlässlichkeit verbessert, erlaubt auch eine leichtere Kontrolle des LLMs. Das Antwortverhalten des LLMs kann sich durch das gezielte Kuratieren der externen Wissensbasis weitreichend steuern.

    CURE als Entwicklungspartner

    Mit dem neuen Team AI Research & Development hat CURE eine Gruppe von ExpertInnen mit umfassender Erfahrung in KI-, LLM-, sowie RAG-Technologien. Diese Expertise konnte bereits in großen Entwicklungsprojekten wie AURELA als auch Kundenprojekten nutzenstiftend eingesetzt werden.

    Literatur

    Amazon Web Services (2025). Was ist Retrieval-Augemented Generation (RAG)? Online, URL: https://aws.amazon.com/de/what-is/retrieval-augmented-generation/, abgerufen am 28.02.2025.

    Huang, L., Weijiang, Y., Weitao, M., et al. (2025). A Survey on Hallucinations in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM Transactions in Information Systems, Vol. 43, Nr. 2, S. 1-55.

    Lubbard, M. (2023). GPT-4 Parameters: Unlimited Guide NLP’s Game-Changer. Medium. Online, URL: https://mlubbad.medium.com/the-ultimate-guide-to-gpt-4-parameters-everything-you-need-to-know-about-nlps-game-changer-109b8767855a, abgerufen am 27.02.2025.

    Manning, C. D. (2022). Human Language Understanding & Reasoning. Daedalus, Vol. 151, Nr. 2, S. 127-138.

    Schreiben Sie einen Kommentar