Die Transformer-Architektur ist ein spezielles Design für neuronale Netze, das besonders in der Verarbeitung von sequenziellen Daten wie Text oder Sprache extrem erfolgreich ist. Stell dir vor, du liest einen Satz – um ihn zu verstehen, musst du die Beziehungen zwischen den Wörtern erkennen, auch wenn sie weiter auseinander stehen. Transformer-Modelle nutzen dafür einen Mechanismus namens „Attention“ (Aufmerksamkeit), der es ihnen erlaubt, verschiedene Teile der Eingabedaten unterschiedlich stark zu gewichten und so den Kontext besser zu erfassen. Diese Architektur ist eine der Grundlagen für den Erfolg vieler moderner LLMs, einschließlich der GPT-Modelle.
Transformer-Architektur
« Back to Glossary Index