Souveräne on-premises KI Plattform im Immobilienbereich
Herausforderung
Der Einsatz von KI ist für die Immobilien Treuhand Software (ITS) zur Produktivitäts- und
Effizienzsteigerung sowie für den geforderten Grad der Automatisierung unerlässlich.
Gleichzeitig sind Datensouveränität und DSGVO-Konformität für sensible Kunden-, Immobilien-
und Buchhaltungsdaten eine absolute Notwendigkeit für einen verantwortungsvollen Umgang mit
Kundendaten. Um Data-Residency- und DSGVO-Standards einzuhalten, musste von Beginn an
gewährleistet sein, dass die Daten im eigenen Rechenzentrum verbleiben.
Die Kosten der Plattform sollten kalkulierbar sein, und bestehende Systeme wie das User
Management über Azure AD sowie die On-Premises-Hyper-V-Landschaft sollten integriert werden.
Eine erste Iteration mit zwei Ollama-Instanzen auf Kubernetes, jeweils mit einer kompletten
GPU, zeigte schnell die Grenzen des initialen Setups. Es gab Probleme mit der Auslastung:
Nur rund 20 User konnten die Plattform gleichzeitig nutzen, die Wartezeiten waren zu lang,
es konnte jeweils nur ein Modell gleichzeitig betrieben werden, und eine Funktionalität wie
Autoscaling war nicht vorhanden.
Zu diesem Zweck sollte eine produktionsreife, skalierbare und mandantenfähige KI-Plattform
für das Unternehmen aufgebaut werden.
Lösung
WhizUs hat gemeinsam mit ITS eine Self-hosted KI-Plattform auf Kubernetes entworfen und
implementiert. Dazu wurden NVIDIA H100 GPU Bare-Metal Nodes mit virtualisierten Control-
und Worker Nodes des Hyper-V Clusters kombiniert und mit Rancher und ArgoCD verwaltet:
- Rancher-RKE2-Cluster als Basis für die KI Plattform: bestehend aus 3 Control-Plane- und
3 Worker-VMs auf Hyper-V sowie 2 Bare-Metal-GPU-Worker (HP ProLiant DL380 Gen11) mit NVIDIA H100 96GB und
100GbE-Netzwerk - kein Virtualisierungs-Overhead für GPU-Workloads.
- NVIDIA GPU Operator und MIG-Partitionierung, um mehrere isolierte Modelle mit Hardware-Isolation zu
betreiben: Integrierter automatisierter Treiber-Lifecycle, RKE2-containerd-Integration und
RuntimeClass: nvidia. Gemischte Profile (1g.12gb / 2g.24gb / 3g.47gb) auf einer einzelnen H100.
- KubeAI + vLLM als Inference-Engine: OpenAI-kompatible API für mehrere Modelle
(Llama 3.1, Qwen 2.5, Mistral, Gemma, …), Prefix-aware Load Balancing, Request-Queueing, Scale-to-Zero by
default und "Very Important Models" auf mindestens einer Replik gepinnt für niedrige Latenz.
- Self-hosted GitLab (Enterprise Edition) als Source Code und Know-How Management Infrastruktur:
bestehend aus Crunchy-PGO-PostgreSQL, Redis HA, Praefect/Gitaly-Cluster, Container Registry mit HPA, GitLab
Runner mit Kubernetes-Executor, GitLab Pages - Object Storage, Artefakte und Backups vollständig auf
Rook/Ceph.
- Rook/Ceph als zentrale Storage-Schicht: Implementierung von Block Storage (RWO) für
Datenbanken, CephFS (RWX) für gemeinsame Modell-Caches und S3-kompatibler Object Storage für GitLab-Artefakte,
LFS, Packages, Registry und Backups.
- Rancher Manager als Multi-Cluster-Control-Plane: eine zentrale Oberfläche für
Cluster-Lifecycle, RBAC, Projekt-Isolation und Day-2-Operations über den On-Prem- und den Burst-Cluster
hinweg.
- Prometheus, Grafana und Alertmanager (kube-prometheus-stack) für clusterweite Metriken,
Dashboards und Alerting: inklusive dedizierter NVIDIA-DCGM-Dashboards für GPU-Temperatur,
Leistungsaufnahme und Auslastung aller H100-Worker in Echtzeit, ergänzt um zentrales Logging mit
Fluentd/Fluentbit.
- Keycloak als Identity Broker, föderiert mit Azure AD als Upstream-Identity-Provider via
SAML/OIDC: basierend auf dem EDP Keycloak Operator; stellt Single Sign-on für Rancher, GitLab, Grafana zur Verfügung.
- External Secrets Operator mit Azure Key Vault als zentraler Secrets Store: Sicherer Umgang
mit Kubernetes-Secrets, TLS-Zertifikaten, GitLab- und Keycloak-Credentials, HuggingFace-Tokens und anderen
sensiblen Daten.
- Migration von NGINX Ingress zu Envoy Gateway auf die Kubernetes Gateway API:
Implementierung auf zwei Gateways (intern und extern), zentrale TLS-Terminierung am Gateway,
HTTPRoute-basiertes Routing für 14+ Services, native CRDs (SecurityPolicy, ClientTrafficPolicy,
BackendTrafficPolicy) statt fehleranfälliger NGINX-Annotationen.
- Durchgängiges GitOps mit ArgoCD als Best Practices für eine wartbare Infrastruktur:
ApplicationSets und Sync-Waves (CRDs → Operatoren → Gateway → Modelle). Jede Cluster-Änderung - Infrastruktur,
Apps und KI-Modelle - ist ein Git-Commit, vollständig auditierbar und reproduzierbar.
Impact
Sensible Immobilien- und Kundendaten verlassen niemals die ITS-Infrastruktur - die komplette Plattform ist
DSGVO und Data Residency konform by Design.
Das ursprüngliche Single-Model-Ollama-Setup mit Warteschlange wurde durch paralleles Multi-Model-Inferencing,
Autoscaling und MIG-basiertes GPU-Sharing ersetzt, wodurch die User Engpässe vollständig beseitigt wurden.
Eine wartbare, nachhaltige KI-Plattform wird nun mittels GitOps gewartet, sodass jede Änderung nachvollziehbar
und auditierbar nachverfolgt werden kann.
Und zu guter Letzt ist die neue Plattform nachhaltig skalierbar, um mit zukünftigem Wachstum,
anspruchsvolleren Modellen und weiteren Use Cases mitzuwachsen.