WhizUs - ITS - Souveräne on-premises KI Plattform im Immobilienbereich

Herausforderung

Der Einsatz von KI ist für die Immobilien Treuhand Software (ITS) zur Produktivitäts- und Effizienzsteigerung sowie für den geforderten Grad der Automatisierung unerlässlich. Gleichzeitig sind Datensouveränität und DSGVO-Konformität für sensible Kunden-, Immobilien- und Buchhaltungsdaten eine absolute Notwendigkeit für einen verantwortungsvollen Umgang mit Kundendaten. Um Data-Residency- und DSGVO-Standards einzuhalten, musste von Beginn an gewährleistet sein, dass die Daten im eigenen Rechenzentrum verbleiben.

Die Kosten der Plattform sollten kalkulierbar sein, und bestehende Systeme wie das User Management über Azure AD sowie die On-Premises-Hyper-V-Landschaft sollten integriert werden. Eine erste Iteration mit zwei Ollama-Instanzen auf Kubernetes, jeweils mit einer kompletten GPU, zeigte schnell die Grenzen des initialen Setups. Es gab Probleme mit der Auslastung: Nur rund 20 User konnten die Plattform gleichzeitig nutzen, die Wartezeiten waren zu lang, es konnte jeweils nur ein Modell gleichzeitig betrieben werden, und eine Funktionalität wie Autoscaling war nicht vorhanden.

Zu diesem Zweck sollte eine produktionsreife, skalierbare und mandantenfähige KI-Plattform für das Unternehmen aufgebaut werden.

Lösung

WhizUs hat gemeinsam mit ITS eine Self-hosted KI-Plattform auf Kubernetes entworfen und implementiert. Dazu wurden NVIDIA H100 GPU Bare-Metal Nodes mit virtualisierten Control- und Worker Nodes des Hyper-V Clusters kombiniert und mit Rancher und ArgoCD verwaltet:

Rancher-RKE2-Cluster als Basis für die KI Plattform: bestehend aus 3 Control-Plane- und 3 Worker-VMs auf Hyper-V sowie 2 Bare-Metal-GPU-Worker (HP ProLiant DL380 Gen11) mit NVIDIA H100 96GB und 100GbE-Netzwerk - kein Virtualisierungs-Overhead für GPU-Workloads.
NVIDIA GPU Operator und MIG-Partitionierung, um mehrere isolierte Modelle mit Hardware-Isolation zu betreiben: Integrierter automatisierter Treiber-Lifecycle, RKE2-containerd-Integration und RuntimeClass: nvidia. Gemischte Profile (1g.12gb / 2g.24gb / 3g.47gb) auf einer einzelnen H100.
KubeAI + vLLM als Inference-Engine: OpenAI-kompatible API für mehrere Modelle (Llama 3.1, Qwen 2.5, Mistral, Gemma, …), Prefix-aware Load Balancing, Request-Queueing, Scale-to-Zero by default und "Very Important Models" auf mindestens einer Replik gepinnt für niedrige Latenz.
Self-hosted GitLab (Enterprise Edition) als Source Code und Know-How Management Infrastruktur: bestehend aus Crunchy-PGO-PostgreSQL, Redis HA, Praefect/Gitaly-Cluster, Container Registry mit HPA, GitLab Runner mit Kubernetes-Executor, GitLab Pages - Object Storage, Artefakte und Backups vollständig auf Rook/Ceph.
Rook/Ceph als zentrale Storage-Schicht: Implementierung von Block Storage (RWO) für Datenbanken, CephFS (RWX) für gemeinsame Modell-Caches und S3-kompatibler Object Storage für GitLab-Artefakte, LFS, Packages, Registry und Backups.
Rancher Manager als Multi-Cluster-Control-Plane: eine zentrale Oberfläche für Cluster-Lifecycle, RBAC, Projekt-Isolation und Day-2-Operations über den On-Prem- und den Burst-Cluster hinweg.
Prometheus, Grafana und Alertmanager (kube-prometheus-stack) für clusterweite Metriken, Dashboards und Alerting: inklusive dedizierter NVIDIA-DCGM-Dashboards für GPU-Temperatur, Leistungsaufnahme und Auslastung aller H100-Worker in Echtzeit, ergänzt um zentrales Logging mit Fluentd/Fluentbit.
Keycloak als Identity Broker, föderiert mit Azure AD als Upstream-Identity-Provider via SAML/OIDC: basierend auf dem EDP Keycloak Operator; stellt Single Sign-on für Rancher, GitLab, Grafana zur Verfügung.
External Secrets Operator mit Azure Key Vault als zentraler Secrets Store: Sicherer Umgang mit Kubernetes-Secrets, TLS-Zertifikaten, GitLab- und Keycloak-Credentials, HuggingFace-Tokens und anderen sensiblen Daten.
Migration von NGINX Ingress zu Envoy Gateway auf die Kubernetes Gateway API: Implementierung auf zwei Gateways (intern und extern), zentrale TLS-Terminierung am Gateway, HTTPRoute-basiertes Routing für 14+ Services, native CRDs (SecurityPolicy, ClientTrafficPolicy, BackendTrafficPolicy) statt fehleranfälliger NGINX-Annotationen.
Durchgängiges GitOps mit ArgoCD als Best Practices für eine wartbare Infrastruktur: ApplicationSets und Sync-Waves (CRDs → Operatoren → Gateway → Modelle). Jede Cluster-Änderung - Infrastruktur, Apps und KI-Modelle - ist ein Git-Commit, vollständig auditierbar und reproduzierbar.

Impact

Sensible Immobilien- und Kundendaten verlassen niemals die ITS-Infrastruktur - die komplette Plattform ist DSGVO und Data Residency konform by Design.

Das ursprüngliche Single-Model-Ollama-Setup mit Warteschlange wurde durch paralleles Multi-Model-Inferencing, Autoscaling und MIG-basiertes GPU-Sharing ersetzt, wodurch die User Engpässe vollständig beseitigt wurden.

Eine wartbare, nachhaltige KI-Plattform wird nun mittels GitOps gewartet, sodass jede Änderung nachvollziehbar und auditierbar nachverfolgt werden kann.

Und zu guter Letzt ist die neue Plattform nachhaltig skalierbar, um mit zukünftigem Wachstum, anspruchsvolleren Modellen und weiteren Use Cases mitzuwachsen.

Souveräne on-premises KI Plattform im Immobilienbereich

Projektdetails

Souveräne on-premises KI Plattform im Immobilienbereich

Herausforderung

Lösung

Impact

Referenzen

Verified Vectors: eBPF Security & IP Integrity

06 Mar 2026 @ eBPF Vienna