Cas clients

Ce qu'on a livré,en conditions réelles.

Déploiement, migration, audit, architecture stockage : des missions concrètes, anonymisées, avec des résultats mesurables.

clients accompagnés

< 1 sem

déploiement le plus rapide

perte de données

100%

livrés documentés

Missions réalisées

4 clients, 4 contextes différents

Chaque mission est unique. Voici un aperçu de ce qu'on a livré, adapté à chaque situation.

Déploiement< 1 semaine

Déploiement sur mesure en moins d'une semaine

Secteur data marketing & fidélisation · Infrastructure VMware

Un client souhaitait déployer un cluster Kubernetes production-ready sur son infrastructure VMware existante. Grâce à sa réactivité sur la mise à disposition des VMs et des disques, le déploiement complet a été réalisé en moins d'une semaine, avec une architecture sur mesure respectant ses exigences spécifiques.

Constats

Aucune infrastructure Kubernetes existante — tout à construire from scratch
Besoin d'une stack complète dès le jour 1 : compute, monitoring, stockage, IaC
Exigences fortes sur la résilience et l'observabilité en production
Infrastructure VMware existante, VMs et disques à provisionner par le client

Actions

Déploiement d'un cluster Kubernetes haute disponibilité sur VMware, adapté aux contraintes du client
Stack monitoring complète : Prometheus, Alertmanager, Grafana, Loki
Stockage distribué Rook/Ceph (block, filesystem, object storage)
Infrastructure as Code complète, reproductible et versionnée
Recommandations d'architecture et documentation sur mesure

Résultats

→Cluster opérationnel en production en moins d'une semaine
→Architecture adaptée aux exigences spécifiques du client
→Exploitation confiée à KubOps : le client se concentre sur son métier
→Le client nous a ensuite sollicités pour 2 audits sur des clusters de filiales du même groupe

KubernetesVMwarePrometheusGrafanaRook/CephIaC

Migration~1 mois de migration

Migration AKS → On-premise

Secteur fidélisation & marketing

Plateforme critique hébergée sur Azure (AKS). Le client voulait reprendre le contrôle total de son infrastructure et supprimer sa dépendance au cloud provider. Le défi : déployer 2 clusters from scratch puis migrer l'ensemble des workloads et données sans interruption de service.

Constats

Plateforme critique 100% dépendante d'Azure (AKS) et de ses services managés
Aucun contrôle sur l'infrastructure sous-jacente ni sur les mises à jour
Coûts cloud en croissance continue, sans levier d'optimisation
Besoin de migrer sans interruption de service sur une plateforme en production

Actions

Déploiement from scratch de 2 clusters Kubernetes (prod + hors-prod) sans services cloud managés
Reconstruction complète de toutes les briques : compute, networking, sécurité, observabilité, stockage
Migration applicative et données réalisée en ~1 mois, sans impact utilisateur
Infrastructure 100% as Code : ~24 000 lignes par environnement, reproductible et versionnée

Résultats

→Plateforme entièrement maîtrisée, documentée et maintenable
→Indépendance totale vis-à-vis du cloud provider
→Zéro perte de données pendant toute la migration
→Exploitation post-migration assurée par KubOps

KubernetesOn-premiseAKSRook/CephIaC

AuditAudit + rapport

Audit d'un cluster complètement défaillant

Secteur fidélisation & retail

Le client disposait d'un cluster Kubernetes déployé par un prestataire tiers, présenté comme « opérationnel ». En réalité, le cluster était dans un état critique : stockage Ceph en HEALTH_ERR, nœuds instables alternant Ready/NotReady, pods applicatifs exécutés sur les masters, et aucune résilience sur les données.

Constats

Cluster Ceph non fonctionnel : 3 OSD vides, 1 seul OSD de 20 Go utilisé à 94%, 7 pools full
84 PGs inactives, 136 PGs stale, 26% des objets dégradés — aucune redondance, risque de perte totale
Pods applicatifs exécutés sur les nœuds masters sans taints ni séparation des rôles
Briques critiques instables : Vault, Prometheus, Loki, Ingress en erreur
Nœuds alternant Ready/NotReady, perturbant l'ensemble du cluster
Historique d'incidents : OOM, perte d'images Docker suite à une restauration de snapshot

Actions

Diagnostic complet du stockage : Ceph en HEALTH_ERR, 3 OSD sur 4 sans disque (0 B), un seul OSD à 94% de capacité, aucune réplication
Identification des problèmes réseau et compute : nœuds instables, PVC impossibles à monter, erreurs MountVolume / context deadline exceeded
Analyse des workloads critiques : Vault, Loki, Ingress en CrashLoop, pods applicatifs programmés sur les masters sans taints
Livraison d'un rapport détaillé avec logs, captures et plan d'action priorisé

Résultats

→Vision complète de l'état réel : cluster non opérationnel malgré les affirmations du prestataire
→Plan d'action structuré : rétablir Ceph, corriger les taints, stabiliser les briques critiques
→Preuves factuelles (logs, commandes Ceph, captures) documentées dans le rapport
→Le client nous a confié la remise en état complète du cluster suite à l'audit

AuditRook/CephStockageSécuritéArchitecture

InfogéranceContrat continu

Évolution d'infrastructure & autoscaling

Secteur e-commerce

Un client sous contrat d'infogérance avec des clusters en production. Au fil du temps, les besoins ont évolué : mises à jour Kubernetes régulières, ajout de nœuds pour absorber la croissance, et surtout un besoin de scaling applicatif avec un système de messaging. Le client n'avait que du filesystem storage et avait besoin d'étendre ses capacités.

Constats

Uniquement du filesystem storage disponible, pas de block ni d'object storage
Scaling manuel des applications qui ne suivait plus la charge
Pas de système de messaging pour gérer les files de traitement
Clusters en retard de version, mises à jour jamais planifiées

Actions

Mises à jour régulières des clusters Kubernetes (versions mineures et majeures)
Ajout de nœuds workers pour accompagner la croissance de la charge
Déploiement Rook/Ceph avec les 3 types de stockage : block, filesystem et object storage
Mise en place d'un cluster RabbitMQ dans Kubernetes avec autoscaling KEDA basé sur la profondeur des files

Résultats

→Couverture complète des besoins stockage là où il n'y avait que du filesystem
→Scaling applicatif dynamique adapté à la charge réelle
→Clusters toujours à jour et maintenus dans la durée
→Architecture capable d'absorber les pics sans surprovisionnement

Rook/CephRabbitMQKEDABlock StorageObject Storage

Stack technique

Technologies maîtrisées

Les mêmes outils reviennent d'un client à l'autre. On les connaît en profondeur, de l'installation à l'exploitation en production.

KubernetesRook/CephPrometheusGrafanaLokiAlertmanagerRabbitMQKEDAInfrastructure as Code

Un contexte similaire au vôtre ?

On peut partager des détails supplémentaires (toujours anonymisés) pendant un échange. Chaque situation est différente, on adapte.

Discuter de votre contexte Voir les offres

Secteurs

Des contextes variés

On intervient dans des environnements différents, avec des contraintes spécifiques : régulation, volumes, criticité, legacy...

Data marketing & fidélisationFidélisation & retailE-commerceSantéIndustrie

Retours

Ce qu'ils disent

En moins d'une semaine on avait un cluster complet en production. On les a rappelés pour auditer nos filiales.

Directeur Technique

Data marketing & fidélisation

La migration depuis AKS s'est faite en un mois, sans coupure. On a repris le contrôle total de notre infra.

CTO

Fidélisation & Marketing

L'audit a révélé un cluster dans un état critique que notre prestataire présentait comme opérationnel. Le rapport était factuel et actionnable.

Responsable Infra

Fidélisation & retail

Un projet similaire ?

On commence par un échange de 20–30 min pour comprendre votre contexte. On peut partager des références supplémentaires adaptées à votre situation.

Parler de votre projet Voir les offres

100 % productionCas anonymisésNDA respectéÉchange confidentiel