Ce qu'on a livré,en conditions réelles.
Déploiement, migration, audit, architecture stockage : des missions concrètes, anonymisées, avec des résultats mesurables.
4+
clients accompagnés
< 1 sem
déploiement le plus rapide
0
perte de données
100%
livrés documentés
Missions réalisées
4 clients, 4 contextes différents
Chaque mission est unique. Voici un aperçu de ce qu'on a livré, adapté à chaque situation.
Déploiement sur mesure en moins d'une semaine
Secteur data marketing & fidélisation · Infrastructure VMware
Un client souhaitait déployer un cluster Kubernetes production-ready sur son infrastructure VMware existante. Grâce à sa réactivité sur la mise à disposition des VMs et des disques, le déploiement complet a été réalisé en moins d'une semaine, avec une architecture sur mesure respectant ses exigences spécifiques.
Constats
- Aucune infrastructure Kubernetes existante — tout à construire from scratch
- Besoin d'une stack complète dès le jour 1 : compute, monitoring, stockage, IaC
- Exigences fortes sur la résilience et l'observabilité en production
- Infrastructure VMware existante, VMs et disques à provisionner par le client
Actions
- Déploiement d'un cluster Kubernetes haute disponibilité sur VMware, adapté aux contraintes du client
- Stack monitoring complète : Prometheus, Alertmanager, Grafana, Loki
- Stockage distribué Rook/Ceph (block, filesystem, object storage)
- Infrastructure as Code complète, reproductible et versionnée
- Recommandations d'architecture et documentation sur mesure
Résultats
- →Cluster opérationnel en production en moins d'une semaine
- →Architecture adaptée aux exigences spécifiques du client
- →Exploitation confiée à KubOps : le client se concentre sur son métier
- →Le client nous a ensuite sollicités pour 2 audits sur des clusters de filiales du même groupe
Migration AKS → On-premise
Secteur fidélisation & marketing
Plateforme critique hébergée sur Azure (AKS). Le client voulait reprendre le contrôle total de son infrastructure et supprimer sa dépendance au cloud provider. Le défi : déployer 2 clusters from scratch puis migrer l'ensemble des workloads et données sans interruption de service.
Constats
- Plateforme critique 100% dépendante d'Azure (AKS) et de ses services managés
- Aucun contrôle sur l'infrastructure sous-jacente ni sur les mises à jour
- Coûts cloud en croissance continue, sans levier d'optimisation
- Besoin de migrer sans interruption de service sur une plateforme en production
Actions
- Déploiement from scratch de 2 clusters Kubernetes (prod + hors-prod) sans services cloud managés
- Reconstruction complète de toutes les briques : compute, networking, sécurité, observabilité, stockage
- Migration applicative et données réalisée en ~1 mois, sans impact utilisateur
- Infrastructure 100% as Code : ~24 000 lignes par environnement, reproductible et versionnée
Résultats
- →Plateforme entièrement maîtrisée, documentée et maintenable
- →Indépendance totale vis-à-vis du cloud provider
- →Zéro perte de données pendant toute la migration
- →Exploitation post-migration assurée par KubOps
Audit d'un cluster complètement défaillant
Secteur fidélisation & retail
Le client disposait d'un cluster Kubernetes déployé par un prestataire tiers, présenté comme « opérationnel ». En réalité, le cluster était dans un état critique : stockage Ceph en HEALTH_ERR, nœuds instables alternant Ready/NotReady, pods applicatifs exécutés sur les masters, et aucune résilience sur les données.
Constats
- Cluster Ceph non fonctionnel : 3 OSD vides, 1 seul OSD de 20 Go utilisé à 94%, 7 pools full
- 84 PGs inactives, 136 PGs stale, 26% des objets dégradés — aucune redondance, risque de perte totale
- Pods applicatifs exécutés sur les nœuds masters sans taints ni séparation des rôles
- Briques critiques instables : Vault, Prometheus, Loki, Ingress en erreur
- Nœuds alternant Ready/NotReady, perturbant l'ensemble du cluster
- Historique d'incidents : OOM, perte d'images Docker suite à une restauration de snapshot
Actions
- Diagnostic complet du stockage : Ceph en HEALTH_ERR, 3 OSD sur 4 sans disque (0 B), un seul OSD à 94% de capacité, aucune réplication
- Identification des problèmes réseau et compute : nœuds instables, PVC impossibles à monter, erreurs MountVolume / context deadline exceeded
- Analyse des workloads critiques : Vault, Loki, Ingress en CrashLoop, pods applicatifs programmés sur les masters sans taints
- Livraison d'un rapport détaillé avec logs, captures et plan d'action priorisé
Résultats
- →Vision complète de l'état réel : cluster non opérationnel malgré les affirmations du prestataire
- →Plan d'action structuré : rétablir Ceph, corriger les taints, stabiliser les briques critiques
- →Preuves factuelles (logs, commandes Ceph, captures) documentées dans le rapport
- →Le client nous a confié la remise en état complète du cluster suite à l'audit
Évolution d'infrastructure & autoscaling
Secteur e-commerce
Un client sous contrat d'infogérance avec des clusters en production. Au fil du temps, les besoins ont évolué : mises à jour Kubernetes régulières, ajout de nœuds pour absorber la croissance, et surtout un besoin de scaling applicatif avec un système de messaging. Le client n'avait que du filesystem storage et avait besoin d'étendre ses capacités.
Constats
- Uniquement du filesystem storage disponible, pas de block ni d'object storage
- Scaling manuel des applications qui ne suivait plus la charge
- Pas de système de messaging pour gérer les files de traitement
- Clusters en retard de version, mises à jour jamais planifiées
Actions
- Mises à jour régulières des clusters Kubernetes (versions mineures et majeures)
- Ajout de nœuds workers pour accompagner la croissance de la charge
- Déploiement Rook/Ceph avec les 3 types de stockage : block, filesystem et object storage
- Mise en place d'un cluster RabbitMQ dans Kubernetes avec autoscaling KEDA basé sur la profondeur des files
Résultats
- →Couverture complète des besoins stockage là où il n'y avait que du filesystem
- →Scaling applicatif dynamique adapté à la charge réelle
- →Clusters toujours à jour et maintenus dans la durée
- →Architecture capable d'absorber les pics sans surprovisionnement
Stack technique
Technologies maîtrisées
Les mêmes outils reviennent d'un client à l'autre. On les connaît en profondeur, de l'installation à l'exploitation en production.
Un contexte similaire au vôtre ?
On peut partager des détails supplémentaires (toujours anonymisés) pendant un échange. Chaque situation est différente, on adapte.
Secteurs
Des contextes variés
On intervient dans des environnements différents, avec des contraintes spécifiques : régulation, volumes, criticité, legacy...
Retours
Ce qu'ils disent
En moins d'une semaine on avait un cluster complet en production. On les a rappelés pour auditer nos filiales.
Directeur Technique
Data marketing & fidélisation
La migration depuis AKS s'est faite en un mois, sans coupure. On a repris le contrôle total de notre infra.
CTO
Fidélisation & Marketing
L'audit a révélé un cluster dans un état critique que notre prestataire présentait comme opérationnel. Le rapport était factuel et actionnable.
Responsable Infra
Fidélisation & retail
Un projet similaire ?
On commence par un échange de 20–30 min pour comprendre votre contexte. On peut partager des références supplémentaires adaptées à votre situation.