Karriere
Wissen
Über uns
08. Jul 2025
Der Hype um Large Language Models (LLM) ist unübersehbar – aber was einsetzen, wenn LLM-Cloud-Lösungen keine Option sind? Small Language Models (SLMs) können die Antwort sein. Sie ermöglichen den On-Premise-Einsatz von KI, bieten maximale Kontrolle über sensible Daten und ermöglichen einen effizienten Offline-Betrieb auch auf leistungsschwächerer Hardware. Das macht sie ideal für Szenarien, in denen Sicherheit und Unabhängigkeit entscheidend sind.
Small Language Models sind darauf optimiert, mit deutlich weniger Rechenleistung auszukommen, was sie ideal für den Einsatz auf eigener Hardware macht. Wir sind bei der Entwicklung eines KI-Stabsassistenten für die STA Schweizerische Gesellschaft Technik und Armee genau auf eine solche Situation gestossen und möchten unsere Erfahrungen hier teilen.
Es gibt mehrere Vorteile bei der Nutzung von Small Language Models: Wie schon anfangs erwähnt, können SLMs sehr viel einfacher und mit wenigen Ressourcen auf eigenen Maschinen betrieben werden. Das wiederum ermöglicht es, den Datenfluss zu den Sprachmodellen komplett auf die eigene Umgebung abzuschotten, wenn Datenschutz und -sicherheit ein kritischer Faktor ist. Unternehmen können so die volle Kontrolle über ihre sensiblen Daten behalten, Compliance-Anforderungen (wie die DSGVO) leichter erfüllen und Betriebsgeheimnisse schützen, ohne auf die Verarbeitung durch Drittanbieter angewiesen zu sein.
Da im STA-Projekt Dokumente des Militärs verwendet werden, ist dies nicht nur ein Vorteil, sondern eine zwingende Notwendigkeit. Die Verarbeitung von klassifizierten oder sensiblen dieser Informationen auf externen Servern wäre ein inakzeptables Sicherheitsrisiko. Ein SLM, das auf einem abgeschlossenen, nicht mit dem Internet verbundenen System läuft, erweist sich hier als eine besonders valable und sichere Lösung. Die Idee, dass die Maschine direkt auf dem Feld – also draussen und ohne jegliche Internetverbindung – einsatzfähig sein muss, unterstreicht diesen Punkt zusätzlich. Für diesen hochspezialisierten Anwendungsfall ist ein SLM daher eine technologisch hervorragend geeignete Wahl, gerade weil es auf Unabhängigkeit und Effizienz in einer kontrollierten Umgebung optimiert ist.
So gut das alles auch klingen mag, haben SLMs auch ihre Schwächen: Im Vergleich zu LLMs sind SLMs in ihrer Fähigkeit zum allgemeinen logischen Schliessen und zur kontextuellen Erfassung komplexer, vielschichtiger Zusammenhänge oft limitiert. Ihre Wissensbasis ist naturgemäss kleiner, was dazu führen kann, dass sie bei allgemeinen Wissensfragen oder bei Themen ausserhalb ihres trainierten Fachgebiets ungenaue oder veraltete Antworten geben. Ihre geringere Parameterzahl macht sie zudem anfälliger für das sogenannte «Halluzinieren» – das Erfinden von Fakten –, wenn sie mit Anfragen konfrontiert werden, für die ihnen die Datenbasis fehlt. Die Wahl zwischen einem SLM und einem LLM ist daher immer ein Kompromiss zwischen Effizienz, Kontrolle und der benötigten Breite und Tiefe der kognitiven Fähigkeiten. Ein weiterer kritischer Punkt ist die Hardwareabhängigkeit für Echtzeitanwendungen: Sollen SLMs auf lokalen Maschinen tatsächlich schnell, also mit geringer Latenz, operieren, benötigen sie dennoch leistungsstarke Hardware, insbesondere eine potente GPU. Dies kann eine hohe Anfangsinvestition bedeuten. Ohne diese Investition wären die Modelle auf schwächerer Hardware zu langsam für viele interaktive Anwendungsfälle, was ihre Eignung für solche Einsatzzwecke stark einschränken würde.
Im STA-Projekt werden Maschinen eingesetzt, hinter denen sich NVIDIA Jetsons verstecken. Diese sind speziell für «AI at the Edge» konzipierte Computerplattformen, was exakt dem Anforderungsprofil des Projekts entspricht. Sie integrieren eine leistungsfähige GPU direkt auf einem kompakten, energieeffizienten Modul. Damit adressieren sie genau die im vorherigen Abschnitt genannte Herausforderung: Sie liefern die nötige Rechenleistung, um SLMs lokal und mit akzeptabler Geschwindigkeit auszuführen, ohne auf grosse, energiehungrige Server angewiesen zu sein. Die Tatsache, dass diese Jetson-Module in robusten Gehäusen verbaut sind, gewährleistet zudem die erforderliche Widerstandsfähigkeit für den Einsatz im Feld unter rauen Bedingungen. Diese Hardware-Kombination bildet somit die ideale Grundlage, um die Vorteile eines autarken SLM-Systems – Datensicherheit, Offline-Fähigkeit und Spezialisierung – in einer praxistauglichen und performanten Lösung zu realisieren.
Die Wahl des richtigen Modells hängt letztlich immer vom spezifischen Anwendungsfall ab. Es gibt keine universell beste Lösung, sondern nur die passende Technologie für eine definierte Aufgabe. Für Projekte, bei denen Datensouveränität, Offline-Fähigkeit und Effizienz im Vordergrund stehen – wie es im hier beschriebenen Szenario der Fall ist –, können sich SLMs oft als eine überlegene Alternative zu den grossen, ressourcenintensiven Cloud-Modellen erweisen. Sie ermöglichen massgeschneiderte KI-Lösungen dort, wo sie gebraucht werden: direkt am Ort des Geschehens.
Buchen Sie jetzt einen unverbindlichen 15-minütigen Austausch mit einem unserer AI-Experten, Christian Hecht oder Markus Schenkel, um herauszufinden, wie wir Sie bei der KI-Integration unterstützen können.
Danke für Ihr Interesse an Cudos. Ihre Angaben werden vertraulich behandelt – den Newsletter können Sie jederzeit abbestellen.