Große Sprachmodell-Inferenz ## Was ist ein großes Sprachmodell? Ein großes Sprachmodell (LLM) ist eine Art künstliche Intelligenz, die darauf trainiert wurde, Text zu verstehen und zu erzeugen. Es lernt, indem es riesige Mengen an geschriebenem Text liest – Bücher, Webseiten, Artikel und vieles mehr. ## Wie lernt es? Das Modell lernt, indem es versucht, das nächste Wort in einem Satz vorherzusagen. Stell dir vor, du vervollständigst immer wieder Lückentexte – nach Milliarden von Beispielen beginnt das Modell, Sprache wirklich gut zu verstehen. ## Was bedeutet „Inferenz"? Inferenz ist das, was passiert, wenn du ein trainiertes Modell tatsächlich verwendest. Das Training ist der Lernprozess; Inferenz ist das Anwenden des Gelernten, um Antworten zu generieren. Stell dir vor, du lernst für eine Prüfung (Training) und machst sie dann (Inferenz). ## Wie erzeugt das Modell Text? - Es nimmt deinen Eingabetext (das sogenannte „Prompt") entgegen - Es verarbeitet ihn durch viele Schichten mathematischer Berechnungen - Es sagt das wahrscheinlichste nächste Wort (oder Token) vorher - Es wiederholt diesen Vorgang, bis die Antwort vollständig ist ## Was ist ein Token? Token sind die kleinen Texteinheiten, mit denen das Modell arbeitet. Ein Token kann sein: - Ein ganzes Wort wie „Katze" - Ein Wortteil wie „un-" oder „-lich" - Ein Satzzeichen wie „." ## Die wichtigsten Schritte bei der Inferenz 1. **Tokenisierung** – Dein Text wird in Token aufgeteilt 2. **Einbettung** – Jeder Token wird in eine Zahlenreihe umgewandelt 3. **Aufmerksamkeitsberechnung** – Das Modell prüft, welche Wörter zueinander in Beziehung stehen 4. **Vorhersage** – Das Modell wählt das nächste Token aus 5. **Ausgabe** – Die Token werden wieder in lesbaren Text umgewandelt ## Warum dauert die Inferenz manchmal? Große Modelle haben Milliarden von Parametern (Zahlen, aus denen das Modell besteht). Jede Antwort zu generieren erfordert Billionen von Rechenoperationen – weshalb leistungsstarke Hardware benötigt wird. ## Temperatur und Kreativität Ein interessanter Parameter heißt „Temperatur". Er steuert, wie kreativ oder vorhersehbar die Antworten des Modells sind: - **Niedrige Temperatur** – Das Modell wählt vorhersehbarere, konservativere Wörter - **Hohe Temperatur** – Das Modell wählt überraschendere, kreativere Wörter ## Kontextfenster Jedes Modell kann sich nur eine bestimmte Menge Text auf einmal „merken". Diese Grenze wird als Kontextfenster bezeichnet. Wenn ein Gespräch zu lang wird, „vergisst" das Modell möglicherweise frühere Teile davon. ## Zusammenfassung Große Sprachmodelle erzeugen Text, indem sie immer wieder das nächste wahrscheinlichste Token vorhersagen. Inferenz ist der Prozess, bei dem das trainierte Modell auf neue Eingaben reagiert – ein faszinierendes Zusammenspiel aus Mathematik, Sprache und Rechenleistung.Ein Microsoft-Forscher hat in Age of Empires 2 ein neuronales Netz aus Ziegen gebaut. Der Punkt ist nicht das, was du denkst.Adrian de Wynters absurdes Experiment ist das bisher deutlichste Argument dafür, warum Entwickler und Lernende aufhören sollten, KI zu vermenschlichen.Age of Empires 2Große SprachmodelleAdrian de WynterMicrosoft ResearchSkill Issue·Heute·5 min readStory lesen