S2 · Spezialisierte Modelle

Modelle, die Ihren Kontext können.

Fine-Tuning, Evaluation und Deployment spezialisierter Sprach- und Vision-Modelle. Kleiner, schneller, günstiger - und oft präziser als Frontier-Modelle auf Ihrem Fachgebiet.

3-6 Monate typisch

ab € 120.000

22 fine-tunes

Wann S2 sinnvoll ist

Drei Muster, in denen sich fine-tunen rechnet.

Muster 01

Domänensprache

Rechtstexte, Versicherungs-Vertragsklauseln, medizinische Kürzel. Wo Frontier-Modelle allgemein sein müssen, kann Ihr Modell spezifisch sein.

Muster 02

Strukturierte Ausgaben

Extraktion, Klassifikation, Normalisierung. 200 Mio. Tokens pro Monat über ein Frontier-Modell sind teuer; ein fine-tuned 7B-Modell oft 40× günstiger bei besserer Genauigkeit.

Muster 03

On-Premise-Zwang

Regulatorik oder Souveränität verlangt lokalen Betrieb. Open-Weight-Modelle (Mistral, Qwen, Llama), fine-tuned auf Ihren Daten, bleiben in Ihrem Rechenzentrum.

Vorgehen

Vom Trainings-Datensatz bis zum Go-Live.

Datensatz-Aufbereitung

Typisch 60 % der Projektzeit. Labeling, Deduplizierung, Balancing, Sperrlisten-Check. Wir arbeiten mit Ihren Fachexperten, nicht gegen sie.

ErgebnisVersionierter Trainingsdatensatz mit Herkunfts-Dokumentation (AI-Act §10).

Modellwahl & Training

Modellvergleich auf Ihren Daten. LoRA, vollständiges Fine-Tuning oder Preference-Tuning - je nach Fall. Wir dokumentieren, warum wir was wählen.

ErgebnisModell-Artefakt, Trainings-Config, reproduzierbarer Run.

Evaluation-Harness

Golden-Dataset, Metrik-Suite (Genauigkeit, Kalibrierung, Bias, Latenz, Kosten). Ausführbar in Ihrer CI/CD.

ErgebnisWiederholbare Bewertung gegen künftige Modellversionen.

Deployment

Quantisierung, Serving-Stack (vLLM / TensorRT-LLM / lokal), Rate-Limits, Monitoring. Ihr Ops-Team bekommt Runbooks, keine Black Box.

ErgebnisProduktiver Endpoint mit SLA-fähigem Monitoring.

Typische Ergebnisse

Aus 22 Fine-Tunes.

Kostenreduktion vs. Frontier

36×

Median über fine-tuned 7B-Modelle gegenüber GPT-4-Klasse.

Genauigkeit auf Domäne

+14pp

Gegenüber dem besten Frontier-Modell ohne Fine-Tuning.

P95-Latenz

<180ms

Bei lokalem Betrieb auf L4-GPU-Klasse.

Fine-Tune prüfen?

45 Minuten. Wir schauen auf Ihren Datenbestand und sagen, ob sich ein spezialisiertes Modell rechnet.

Gespräch vereinbaren →