Sechs Kubernetes-Kostenlecks, die wir auf fast jedem Cluster finden
8. Mai 2026 · 1 Min. Lesezeit · von Sudhanshu K.
Jeder Cluster, den wir übernehmen, hat dieselben sechs Kostenlecks. Die Zahlen variieren; die Lecks sind dieselben.
1. Überdimensionierte requests
Entwickler setzen requests: 1Gi, weil „wir könnten es brauchen", und senken es nie wieder. Der Scheduler reserviert dann diesen Speicher für den Pod, auch wenn er 80 MB nutzt. Cluster Autoscaler skaliert weiter hoch, um Reservierungen zu erfüllen, die niemand nutzt.
Hilfreiche Tools: Vertical Pod Autoscaler (VPA) im recommender-Modus, KRR (Krr.io), Goldilocks. Wählen Sie eines, lassen Sie es eine Woche laufen, senken Sie Requests gegen die tatsächliche p99-Nutzung + 20 %.
2. Leere Namespaces ohne Besitzer
Das dev-tomas-spike-1, das staging-old, das argocd-test. Sie kosten 24/7 Geld. Wir kehren monatlich mit einem einfachen Report — Namespaces ohne Pod-Aktivität in den letzten 14 Tagen — und holen entweder die Ressourcen zurück oder belasten sie dem besitzenden Team.
3. EBS-Snapshot-Wucherung
Jeder Cluster, den wir auditieren, hat Hunderte verwaister EBS-Snapshots — alte PVC-Snapshots, ETCD-Backups eines Clusters, der nicht mehr existiert, Debug-Dumps. aws ec2 describe-snapshots plus ein Alters-Filter fördert üblicherweise 200-2000 $/Monat reine Verschwendung zutage.
4. NAT-Gateway-Egress
Pods, die über öffentliches DNS mit S3 sprechen, gehen über das NAT Gateway und zahlen Egress pro GB. Die Lösung sind VPC-Endpoints für S3 + DynamoDB. Fünf-Minuten-Änderung, oft 500-3000 $/Monat gespart.
5. Falscher Node-Pool-Mix
Alles auf m5.large laufen lassen, wenn die Hälfte der Workloads auf t3.medium Spot passen würde. Karpenter mit mehreren Pools (On-Demand für Stateful, Spot für Stateless) reduziert Compute oft um 30-40 %.
6. Standardmäßig ein Load Balancer pro Service
Jeder type: LoadBalancer provisioniert einen echten Cloud-Load-Balancer für 20+ $/Monat. Wechseln Sie zu einem geteilten Ingress Controller (NGINX Ingress, Traefik, AWS ALB Ingress Controller). Ein Cluster mit 30 Services verliert oft 25 LBs.
Der Medium-Beitrag enthält das Audit-Skript, das wir verwenden, was wir dem Kunden monatlich melden, und was wir ihnen überlassen vs. was wir im laufenden Betrieb fixen.
Vollständiger Artikel verfügbar
Vollständigen Artikel lesen