Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

L’échec d’intégration le plus coûteux est celui que personne ne remarque. Un point de terminaison webhook arrête silencieusement de recevoir des événements un vendredi après-midi. Lundi matin, 200 commandes n'avaient pas été importées, les stocks étaient périmés depuis 48 heures sur tous les canaux et les clients recevaient des promesses « en stock » pour les produits épuisés samedi.

Ce scénario se produit plus souvent qu’on ne l’admet. La surveillance de l'intégration fait la différence entre une alerte de 30 secondes et une crise du lundi matin. Chaque intégration multicanal nécessite des contrôles de santé, une classification des erreurs, une logique de nouvelle tentative et des alertes conçues pour les modes de défaillance spécifiques de la synchronisation des données de commerce électronique.

Points clés à retenir

Surveillez la fraîcheur des données, pas seulement la disponibilité : un système en cours d'exécution qui a cessé de recevoir des événements semble sain d'après les contrôles de santé de base.

Catégoriser les erreurs par gravité et capacité de récupération pour les acheminer vers la bonne réponse (nouvelle tentative automatique ou correction manuelle)

Les files d'attente de lettres mortes empêchent les messages incohérents de bloquer l'intégralité de votre pipeline

Alerte sur les métriques d'impact business (commandes non importées, dérive des stocks) et pas seulement sur les métriques techniques (CPU, mémoire)

Que surveiller

La surveillance de l'intégration couvre trois niveaux : la santé de l'infrastructure, la santé des flux de données et la santé des résultats commerciaux.

Santé des infrastructures

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Disponibilité des points de terminaison de l'API	Toutes les 30 secondes	3 échecs consécutifs	Impossible d'envoyer ou de recevoir des données
Profondeur de la file d'attente des messages	Chaque minute	Profondeur de file d'attente supérieure à 1 000 pendant 5 minutes	L'arriéré de traitement augmente
Statut du processus de travail	Toutes les 30 secondes	Travailleur en panne pendant 1 minute	Evénements non traités
Pool de connexions à la base de données	Chaque minute	Connexions disponibles en dessous de 10%	Requêtes en échec ou en file d'attente
Connexion Redis	Toutes les 30 secondes	Connexion perdue	Échec du cache, des files d'attente et des verrous
Espace disque	Toutes les 5 minutes	En dessous de 10% gratuit	Échec de la rotation des journaux, blocage de la base de données

Santé du flux de données

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Commandes importées (par canal)	Toutes les 15 minutes	Zéro commande pendant 2 heures pendant les heures ouvrables	Revenus manquants et retards d'exécution
Âge de synchronisation des stocks	Toutes les 5 minutes	Dernière synchronisation réussie il y a plus de 10 minutes	Inventaire périmé provoquant des ventes excessives
État du flux de produits	Toutes les heures	Flux rejeté ou éléments refusés à plus de 5 %	Annonces désactivées sur la Marketplace
Taux de livraison des webhooks	Toutes les 15 minutes	Réussite de livraison inférieure à 95 %	Événements supprimés
Taux d'erreur de transformation	Toutes les 5 minutes	Taux d'erreur supérieur à 1 %	Mauvaises données entrant dans l'ERP
Dérive de réconciliation	Toutes les 6 heures	Dérive au-dessus de 5 unités sur n’importe quel SKU	Inexactitude des stocks

Santé des résultats commerciaux

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Nombre de surventes	En temps réel	Tout événement de survente	Déception des clients, pénalité du marché
Vieillissement des commandes non exécutées	Toutes les heures	Commandes antérieures à SLA (24/48 heures)	Expéditions en retard et augmentation du taux de défauts
Délai de traitement du remboursement	Toutes les heures	Moyenne supérieure à 48 heures	Plaintes des clients, intervention sur le marché
Nombre de listes de chaînes	Quotidien	Baisse de plus de 5% par rapport à hier	Produits radiés, perte de revenus
Revenus par canal par rapport aux prévisions	Quotidien	En dessous de 80 % des prévisions quotidiennes	Panne d'intégration potentielle ou problème de référencement

Catégorisation des erreurs

Toutes les erreurs ne sont pas égales. Un délai d'attente réseau transitoire se résout lors d'une nouvelle tentative. Une erreur de validation des données nécessite une enquête humaine. Une erreur de limite de débit nécessite une pause. La catégorisation des erreurs détermine correctement la réponse.

Type d'erreur vers la stratégie de résolution

Type d'erreur	Exemples	Réessai automatique	Escalade	Résolution
Réseau transitoire	Délai de connexion, échec DNS, 502/503/504	Oui, recul exponentiel	Après 5 tentatives	Résout généralement en quelques minutes
Limite de taux	429 Trop de demandes	Oui, respectez l’en-tête Retry-After	Après 30 minutes de limites soutenues	Réduire le taux de demandes, augmenter le quota
Authentification	401 Non autorisé, jeton expiré	Oui (actualiser d'abord le jeton)	Après l'échec de l'actualisation du jeton	Ré-authentifier, vérifier la rotation des informations d'identification
Validation	Champ obligatoire manquant, format invalide	Non	Immédiatement	Corriger le mappage ou la source de données
Logique métier	Commande en double, SKU introuvable	Non	Immédiatement	Enquêter sur la cause profonde
Changement d'API	Format de réponse inattendu, nouveau champ obligatoire	Non	Immédiatement (P1)	Mettre à jour le mappeur, déployer le correctif
Quota dépassé	Limite mensuelle d'appels API atteinte	Non	Immédiatement (P1)	Plan de mise à niveau ou optimisation de l'utilisation de l'API
Corruption des données	Codage tronqué, charge utile tronquée	Non	Immédiatement	Rechercher la source, corriger la transformation

Enrichissement des erreurs

Les erreurs brutes sont difficiles à diagnostiquer. Enrichissez chaque erreur avec du contexte :

Horodatage : date à laquelle l'erreur s'est produite (UTC)
Canal : quel marché ou système
Opération : ce qui était en cours (commande d'importation, mise à jour de l'inventaire, liste des produits)
Entité : ID de commande spécifique, SKU ou client concerné
Demande/réponse : La requête API qui a échoué et la réponse reçue
Nombre de nouvelles tentatives : combien de fois cela a été réessayé
ID de corrélation : un identifiant unique reliant les opérations associées entre les services

Stratégies de nouvelle tentative

Les tentatives gèrent automatiquement les échecs transitoires, mais une logique de nouvelle tentative mal conçue aggrave les choses : marteler une API en difficulté avec de nouvelles tentatives peut transformer un problème récupérable en panne.

Retard exponentiel avec gigue

L'approche standard : attendre progressivement plus longtemps entre les tentatives, avec une gigue aléatoire pour éviter les tempêtes de nouvelles tentatives synchronisées.

Réessayer	Retard de base	Avec Jitter (exemple)
1	1 seconde	0,7 seconde
2	2 secondes	1,8 secondes
3	4 secondes	3,2 secondes
4	8 secondes	7,5 secondes
5	16 secondes	14,1 secondes
Maximale	60 secondes	45-60 secondes

Réessayer le budget

Définissez un nombre maximum de tentatives par type d'erreur et une fenêtre de nouvelle tentative maximale. Une importation de commande qui échoue 5 fois en 30 minutes doit cesser de réessayer et passer à la file d'attente des lettres mortes pour enquête. Les tentatives illimitées gaspillent des ressources et masquent les problèmes persistants.

Modèle de disjoncteur

Lorsqu'une API de canal renvoie des erreurs de manière cohérente, un disjoncteur arrête temporairement d'envoyer des requêtes. Cela empêche votre système de gaspiller des ressources sur un service en panne et donne au service le temps de récupérer.

Fermé (normal) : les demandes affluent. Suivre le taux d’erreur.
Ouvrir (déclenché) : toutes les requêtes échouent immédiatement sans appeler l'API. Vérifié périodiquement.
Semi-ouverture (test) : autorisez le traitement d'une requête pour tester si le service a récupéré. Si cela réussit, fermez le circuit. En cas d'échec, rouvrez.

Déclenchez le disjoncteur lorsque le taux d’erreur dépasse 50 % sur une fenêtre de 60 secondes. Testez la récupération toutes les 30 secondes.

Files d'attente de lettres mortes

Les événements qui échouent à toutes les tentatives sont déplacés vers une file d'attente de lettres mortes (DLQ). Le DLQ a deux objectifs : il empêche les messages incohérents de bloquer le pipeline principal et il conserve les événements ayant échoué à des fins d'investigation et de retraitement manuel.

Gestion DLQ

Révision quotidienne : désignez quelqu'un pour réviser les entrées DLQ chaque jour ouvrable. La plupart des entrées sont des problèmes de données qui peuvent être corrigés et retraités.
Catégoriser les modèles : si le même type d'erreur apparaît à plusieurs reprises, corrigez la cause première plutôt que de retraiter les événements individuels.
Politique de conservation : conservez les entrées DLQ pendant 30 jours. Après 30 jours, archivez dans un stockage froid pour des raisons de conformité, mais supprimez-le de la file d'attente active.
Outils de retraitement : créez un outil qui permet aux opérateurs de retraiter une seule entrée DLQ ou un lot d'entrées après avoir résolu le problème sous-jacent.

Métriques DLQ

Suivez ces métriques pour la santé DLQ :

Taux d'entrée : combien d'événements entrent dans le DLQ par heure. Les pics indiquent un problème systématique.
Vieillissement : combien de temps les événements restent dans le DLQ avant leur résolution. Les événements liés au vieillissement représentent des problèmes non résolus.
Taux de résolution : quel pourcentage d'événements DLQ sont retraités avec succès, résolus manuellement ou abandonnés.

Conception d'alerte

Les alertes doivent être exploitables, contextuelles et acheminées vers la bonne personne. Une alerte qui se déclenche 50 fois par jour est ignorée. Une alerte qui réveille quelqu'un pour un problème non critique érode la confiance dans le système.

Niveaux de gravité des alertes

Niveau	Critères	Temps de réponse	Notifications	Exemples
P1 Critique	Perte de données active ayant un impact sur les revenus	15 minutes	Page d'astreinte, téléphone, SMS	La synchronisation des commandes s'est arrêtée, toutes les chaînes sont obsolètes
P2 Élevé	Performances dégradées, canal unique en panne	1 heure	Canal Slack, e-mail	Un canal ne se synchronise pas, pic du taux d'erreur
P3 Moyen	Anomalie détectée, pas encore d'impact	4 heures	Chaîne Slack	DLQ en croissance, la réconciliation dépasse le seuil
P4 Faible	Informatif, problème futur potentiel	Jour ouvrable suivant	Tableau de bord	Avertissement de dépréciation de l'API, approche du quota

Alerte Prévention de la fatigue

Consolider les alertes associées : 50 alertes individuelles « échec de l'importation de la commande » doivent être consolidées en une seule alerte « pic d'échec de l'importation de la commande : 50 échecs en 15 minutes ».
Résolution automatique des problèmes transitoires : si une alerte P2 se résout dans les 5 minutes (le disjoncteur se déclenche, le canal récupère), rétrogradez vers P4 et enregistrez-vous plutôt que de passer à une escalade.
Fenêtres de maintenance : Supprimez les alertes lors des maintenances planifiées sur les canaux ou sur votre propre infrastructure.
Runbooks : chaque alerte doit être liée à un runbook qui explique la signification de l'alerte, les causes probables et les instructions de résolution étape par étape.

Tableaux de bord et visibilité

Un tableau de bord de surveillance offre une visibilité d'un coup d'œil sur l'état de l'intégration pour les équipes opérationnelles, la direction et l'ingénierie.

Panneaux de tableau de bord recommandés

Panneau de présentation : Indicateur d'état vert/jaune/rouge par canal. Vert = synchronisation au sein du SLA. Jaune = dégradé (erreurs en retard ou élevées). Rouge = bas (pas de synchronisation dans la fenêtre de seuil).

Panneau de flux de commandes : nombre en temps réel de commandes importées par canal et par heure, par rapport à la même heure la semaine dernière. Une chute soudaine signale un problème.

Panneau de fraîcheur de l'inventaire : temps écoulé depuis la dernière synchronisation réussie de l'inventaire par canal. Tout ce qui dépasse 10 minutes pendant les heures de bureau est jaune ; plus de 30 minutes est rouge.

Panneau de tendance des erreurs : nombre d'erreurs par type au cours des dernières 24 heures. Met en évidence les nouveaux types d’erreurs et les problèmes tendances.

Panneau DLQ : profondeur actuelle du DLQ et distribution vieillissante. Combien d'entrées datent de moins d'une heure, de 1 à 24 heures et de plus de 24 heures.

Panneau de réconciliation : derniers résultats de réconciliation montrant la dérive par SKU. Triés par la plus grande dérive en premier.

Pour une architecture d'intégration plus large, consultez l'article pilier : Le guide ultime d'intégration du commerce électronique.

Surveillance des SLA

Définissez et suivez les SLA pour les flux de données clés de votre intégration.

Flux de données	Objectif SLA	Mesure	Conséquence de Miss
Importation de commandes	Dans les 5 minutes suivant le placement	Délai entre la création de la commande sur le marché et l'importation dans l'ERP	Délai d'exécution
Propagation de l'inventaire	Dans les 60 secondes suivant le changement	Temps écoulé entre le changement de stock de l'ERP et tous les canaux mis à jour	Risque de survente
Mise à jour des prix	Dans les 15 minutes suivant le changement	Délai entre le changement de prix de l'ERP et la mise à jour du canal	Inadéquation des prix
Liste des produits	Dans les 24 heures suivant la création	Temps écoulé entre la publication PIM et la diffusion en direct sur la chaîne	Opportunité de vente perdue
Traitement des retours	Dans les 4 heures suivant la réception	Délai entre l'analyse de l'entrepôt et le lancement du remboursement	Réclamation client

Suivez la conformité aux SLA en pourcentage (cible : 99,5 % ou plus) et examinez-la mensuellement. Des manquements persistants aux SLA indiquent des problèmes de capacité ou d’architecture qui nécessitent un investissement.

Pour plus de détails sur l'architecture de synchronisation des stocks dont dépendent ces SLA, voir Architecture de synchronisation des stocks en temps réel.

Questions fréquemment posées

Quels outils de surveillance fonctionnent le mieux pour les intégrations de commerce électronique ?

Pour la surveillance de l'infrastructure, Datadog, New Relic ou Grafana + Prometheus sont des choix standards. Pour la surveillance au niveau des applications (suivi des erreurs, suivi des demandes), Sentry est excellent pour les piles Node.js/Python. Pour la surveillance des files d'attente, BullMQ dispose d'un tableau de bord intégré (Bull Board) et RabbitMQ dispose de son interface utilisateur de gestion. La clé n’est pas l’outil que vous utilisez : c’est que vous surveilliez les trois couches (infrastructure, flux de données, résultats commerciaux) de manière cohérente.

Comment puis-je surveiller la fiabilité du webhook si je ne contrôle pas l'expéditeur ?

Vous ne pouvez pas contrôler directement si une place de marché envoie des webhooks. Surveillez plutôt l’absence d’événements attendus. Si votre boutique Shopify reçoit généralement 10 webhooks de commande par heure et que vous n'en recevez aucun pendant 2 heures, alertez. Il s'agit d'une « surveillance négative » qui détecte l'absence d'activité attendue plutôt que la présence d'erreurs.

Quel est le taux d'erreur acceptable pour le traitement de l'intégration ?

En dessous de 0,5%, c'est excellent. Entre 0,5 % et 2 % est acceptable mais mérite une enquête. Au-dessus de 2 % indique un problème systématique : il s'agit probablement d'un problème de cartographie, d'un changement d'API ou d'un problème de qualité des données à la source. Suivez les taux d’erreur par canal et par type d’opération pour identifier rapidement les problèmes.

Dois-je créer une surveillance personnalisée ou utiliser un service géré ?

Commencez par des services gérés (Datadog, Sentry) pour accélérer la mise en œuvre. Créez des tableaux de bord personnalisés pour les mesures spécifiques à l'entreprise (flux de commandes, fraîcheur des stocks, conformité SLA) que les outils génériques ne couvrent pas par défaut. La surveillance de la couche métier est celle où vous obtenez le plus de valeur et celle où les outils génériques sont insuffisants.

Comment puis-je gérer la surveillance pendant les pannes du Marketplace ?

Les pannes de Marketplace (dégradation de l'API Amazon, problèmes de plateforme Shopify) sont hors de votre contrôle. Votre surveillance doit faire la distinction entre « notre système est en panne » et « le marché est en panne ». Vérifiez les pages d'état du marché par programmation (par exemple, SHD d'Amazon, page d'état de Shopify) et annotez vos tableaux de bord lors de pannes externes. Supprimez les alertes pour les chaînes rencontrant des problèmes externes connus.

Quelle est la prochaine étape

La surveillance n’est pas une fonctionnalité que vous expédiez et oubliez. C'est une pratique qui évolue avec votre intégration. À mesure que vous ajoutez des chaînes, augmentez le volume et rencontrez de nouveaux modes de défaillance, votre surveillance doit s'étendre pour les couvrir. L'investissement est rentabilisé la première fois qu'une alerte de 30 secondes évite une panne d'un week-end.

Explorez les services d'intégration d'ECOSIRE pour un suivi de l'intégration prêt pour la production avec Odoo, ou contactez notre équipe pour évaluer vos lacunes actuelles en matière d'observabilité de l'intégration.

Publié par ECOSIRE — aider les entreprises à évoluer grâce à des solutions basées sur l'IA dans Odoo ERP, Shopify eCommerce et OpenClaw AI.

Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

Points clés à retenir

Surveillez la fraîcheur des données, pas seulement la disponibilité : un système en cours d'exécution qui a cessé de recevoir des événements semble sain d'après les contrôles de santé de base.

Catégoriser les erreurs par gravité et capacité de récupération pour les acheminer vers la bonne réponse (nouvelle tentative automatique ou correction manuelle)

Les files d'attente de lettres mortes empêchent les messages incohérents de bloquer l'intégralité de votre pipeline

Alerte sur les métriques d'impact business (commandes non importées, dérive des stocks) et pas seulement sur les métriques techniques (CPU, mémoire)

Que surveiller

La surveillance de l'intégration couvre trois niveaux : la santé de l'infrastructure, la santé des flux de données et la santé des résultats commerciaux.

Santé des infrastructures

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Disponibilité des points de terminaison de l'API	Toutes les 30 secondes	3 échecs consécutifs	Impossible d'envoyer ou de recevoir des données
Profondeur de la file d'attente des messages	Chaque minute	Profondeur de file d'attente supérieure à 1 000 pendant 5 minutes	L'arriéré de traitement augmente
Statut du processus de travail	Toutes les 30 secondes	Travailleur en panne pendant 1 minute	Evénements non traités
Pool de connexions à la base de données	Chaque minute	Connexions disponibles en dessous de 10%	Requêtes en échec ou en file d'attente
Connexion Redis	Toutes les 30 secondes	Connexion perdue	Échec du cache, des files d'attente et des verrous
Espace disque	Toutes les 5 minutes	En dessous de 10% gratuit	Échec de la rotation des journaux, blocage de la base de données

Santé du flux de données

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Commandes importées (par canal)	Toutes les 15 minutes	Zéro commande pendant 2 heures pendant les heures ouvrables	Revenus manquants et retards d'exécution
Âge de synchronisation des stocks	Toutes les 5 minutes	Dernière synchronisation réussie il y a plus de 10 minutes	Inventaire périmé provoquant des ventes excessives
État du flux de produits	Toutes les heures	Flux rejeté ou éléments refusés à plus de 5 %	Annonces désactivées sur la Marketplace
Taux de livraison des webhooks	Toutes les 15 minutes	Réussite de livraison inférieure à 95 %	Événements supprimés
Taux d'erreur de transformation	Toutes les 5 minutes	Taux d'erreur supérieur à 1 %	Mauvaises données entrant dans l'ERP
Dérive de réconciliation	Toutes les 6 heures	Dérive au-dessus de 5 unités sur n’importe quel SKU	Inexactitude des stocks

Santé des résultats commerciaux

Métrique	Vérifier la fréquence	Seuil d'alerte	Impact de l'échec
Nombre de surventes	En temps réel	Tout événement de survente	Déception des clients, pénalité du marché
Vieillissement des commandes non exécutées	Toutes les heures	Commandes antérieures à SLA (24/48 heures)	Expéditions en retard et augmentation du taux de défauts
Délai de traitement du remboursement	Toutes les heures	Moyenne supérieure à 48 heures	Plaintes des clients, intervention sur le marché
Nombre de listes de chaînes	Quotidien	Baisse de plus de 5% par rapport à hier	Produits radiés, perte de revenus
Revenus par canal par rapport aux prévisions	Quotidien	En dessous de 80 % des prévisions quotidiennes	Panne d'intégration potentielle ou problème de référencement

Catégorisation des erreurs

Type d'erreur vers la stratégie de résolution

Type d'erreur	Exemples	Réessai automatique	Escalade	Résolution
Réseau transitoire	Délai de connexion, échec DNS, 502/503/504	Oui, recul exponentiel	Après 5 tentatives	Résout généralement en quelques minutes
Limite de taux	429 Trop de demandes	Oui, respectez l’en-tête Retry-After	Après 30 minutes de limites soutenues	Réduire le taux de demandes, augmenter le quota
Authentification	401 Non autorisé, jeton expiré	Oui (actualiser d'abord le jeton)	Après l'échec de l'actualisation du jeton	Ré-authentifier, vérifier la rotation des informations d'identification
Validation	Champ obligatoire manquant, format invalide	Non	Immédiatement	Corriger le mappage ou la source de données
Logique métier	Commande en double, SKU introuvable	Non	Immédiatement	Enquêter sur la cause profonde
Changement d'API	Format de réponse inattendu, nouveau champ obligatoire	Non	Immédiatement (P1)	Mettre à jour le mappeur, déployer le correctif
Quota dépassé	Limite mensuelle d'appels API atteinte	Non	Immédiatement (P1)	Plan de mise à niveau ou optimisation de l'utilisation de l'API
Corruption des données	Codage tronqué, charge utile tronquée	Non	Immédiatement	Rechercher la source, corriger la transformation

Enrichissement des erreurs

Les erreurs brutes sont difficiles à diagnostiquer. Enrichissez chaque erreur avec du contexte :

Horodatage : date à laquelle l'erreur s'est produite (UTC)
Canal : quel marché ou système
Opération : ce qui était en cours (commande d'importation, mise à jour de l'inventaire, liste des produits)
Entité : ID de commande spécifique, SKU ou client concerné
Demande/réponse : La requête API qui a échoué et la réponse reçue
Nombre de nouvelles tentatives : combien de fois cela a été réessayé
ID de corrélation : un identifiant unique reliant les opérations associées entre les services

Stratégies de nouvelle tentative

Retard exponentiel avec gigue

L'approche standard : attendre progressivement plus longtemps entre les tentatives, avec une gigue aléatoire pour éviter les tempêtes de nouvelles tentatives synchronisées.

Réessayer	Retard de base	Avec Jitter (exemple)
1	1 seconde	0,7 seconde
2	2 secondes	1,8 secondes
3	4 secondes	3,2 secondes
4	8 secondes	7,5 secondes
5	16 secondes	14,1 secondes
Maximale	60 secondes	45-60 secondes

Réessayer le budget

Modèle de disjoncteur

Fermé (normal) : les demandes affluent. Suivre le taux d’erreur.
Ouvrir (déclenché) : toutes les requêtes échouent immédiatement sans appeler l'API. Vérifié périodiquement.
Semi-ouverture (test) : autorisez le traitement d'une requête pour tester si le service a récupéré. Si cela réussit, fermez le circuit. En cas d'échec, rouvrez.

Déclenchez le disjoncteur lorsque le taux d’erreur dépasse 50 % sur une fenêtre de 60 secondes. Testez la récupération toutes les 30 secondes.

Files d'attente de lettres mortes

Gestion DLQ

Révision quotidienne : désignez quelqu'un pour réviser les entrées DLQ chaque jour ouvrable. La plupart des entrées sont des problèmes de données qui peuvent être corrigés et retraités.
Catégoriser les modèles : si le même type d'erreur apparaît à plusieurs reprises, corrigez la cause première plutôt que de retraiter les événements individuels.
Politique de conservation : conservez les entrées DLQ pendant 30 jours. Après 30 jours, archivez dans un stockage froid pour des raisons de conformité, mais supprimez-le de la file d'attente active.
Outils de retraitement : créez un outil qui permet aux opérateurs de retraiter une seule entrée DLQ ou un lot d'entrées après avoir résolu le problème sous-jacent.

Métriques DLQ

Suivez ces métriques pour la santé DLQ :

Taux d'entrée : combien d'événements entrent dans le DLQ par heure. Les pics indiquent un problème systématique.
Vieillissement : combien de temps les événements restent dans le DLQ avant leur résolution. Les événements liés au vieillissement représentent des problèmes non résolus.
Taux de résolution : quel pourcentage d'événements DLQ sont retraités avec succès, résolus manuellement ou abandonnés.

Conception d'alerte

Niveaux de gravité des alertes

Niveau	Critères	Temps de réponse	Notifications	Exemples
P1 Critique	Perte de données active ayant un impact sur les revenus	15 minutes	Page d'astreinte, téléphone, SMS	La synchronisation des commandes s'est arrêtée, toutes les chaînes sont obsolètes
P2 Élevé	Performances dégradées, canal unique en panne	1 heure	Canal Slack, e-mail	Un canal ne se synchronise pas, pic du taux d'erreur
P3 Moyen	Anomalie détectée, pas encore d'impact	4 heures	Chaîne Slack	DLQ en croissance, la réconciliation dépasse le seuil
P4 Faible	Informatif, problème futur potentiel	Jour ouvrable suivant	Tableau de bord	Avertissement de dépréciation de l'API, approche du quota

Alerte Prévention de la fatigue

Consolider les alertes associées : 50 alertes individuelles « échec de l'importation de la commande » doivent être consolidées en une seule alerte « pic d'échec de l'importation de la commande : 50 échecs en 15 minutes ».
Résolution automatique des problèmes transitoires : si une alerte P2 se résout dans les 5 minutes (le disjoncteur se déclenche, le canal récupère), rétrogradez vers P4 et enregistrez-vous plutôt que de passer à une escalade.
Fenêtres de maintenance : Supprimez les alertes lors des maintenances planifiées sur les canaux ou sur votre propre infrastructure.
Runbooks : chaque alerte doit être liée à un runbook qui explique la signification de l'alerte, les causes probables et les instructions de résolution étape par étape.

Tableaux de bord et visibilité

Un tableau de bord de surveillance offre une visibilité d'un coup d'œil sur l'état de l'intégration pour les équipes opérationnelles, la direction et l'ingénierie.

Panneaux de tableau de bord recommandés

Panneau de flux de commandes : nombre en temps réel de commandes importées par canal et par heure, par rapport à la même heure la semaine dernière. Une chute soudaine signale un problème.

Panneau de tendance des erreurs : nombre d'erreurs par type au cours des dernières 24 heures. Met en évidence les nouveaux types d’erreurs et les problèmes tendances.

Panneau DLQ : profondeur actuelle du DLQ et distribution vieillissante. Combien d'entrées datent de moins d'une heure, de 1 à 24 heures et de plus de 24 heures.

Panneau de réconciliation : derniers résultats de réconciliation montrant la dérive par SKU. Triés par la plus grande dérive en premier.

Pour une architecture d'intégration plus large, consultez l'article pilier : Le guide ultime d'intégration du commerce électronique.

Surveillance des SLA

Définissez et suivez les SLA pour les flux de données clés de votre intégration.

Flux de données	Objectif SLA	Mesure	Conséquence de Miss
Importation de commandes	Dans les 5 minutes suivant le placement	Délai entre la création de la commande sur le marché et l'importation dans l'ERP	Délai d'exécution
Propagation de l'inventaire	Dans les 60 secondes suivant le changement	Temps écoulé entre le changement de stock de l'ERP et tous les canaux mis à jour	Risque de survente
Mise à jour des prix	Dans les 15 minutes suivant le changement	Délai entre le changement de prix de l'ERP et la mise à jour du canal	Inadéquation des prix
Liste des produits	Dans les 24 heures suivant la création	Temps écoulé entre la publication PIM et la diffusion en direct sur la chaîne	Opportunité de vente perdue
Traitement des retours	Dans les 4 heures suivant la réception	Délai entre l'analyse de l'entrepôt et le lancement du remboursement	Réclamation client

Pour plus de détails sur l'architecture de synchronisation des stocks dont dépendent ces SLA, voir Architecture de synchronisation des stocks en temps réel.

Questions fréquemment posées

Quels outils de surveillance fonctionnent le mieux pour les intégrations de commerce électronique ?

Comment puis-je surveiller la fiabilité du webhook si je ne contrôle pas l'expéditeur ?

Quel est le taux d'erreur acceptable pour le traitement de l'intégration ?

Dois-je créer une surveillance personnalisée ou utiliser un service géré ?

Comment puis-je gérer la surveillance pendant les pannes du Marketplace ?

Quelle est la prochaine étape

Publié par ECOSIRE — aider les entreprises à évoluer grâce à des solutions basées sur l'IA dans Odoo ERP, Shopify eCommerce et OpenClaw AI.

Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

Que surveiller

Santé des infrastructures

Santé du flux de données

Santé des résultats commerciaux

Catégorisation des erreurs

Type d'erreur vers la stratégie de résolution

Enrichissement des erreurs

Stratégies de nouvelle tentative

Retard exponentiel avec gigue

Réessayer le budget

Modèle de disjoncteur

Files d'attente de lettres mortes

Gestion DLQ

Métriques DLQ

Conception d'alerte

Niveaux de gravité des alertes

Alerte Prévention de la fatigue

Tableaux de bord et visibilité

Panneaux de tableau de bord recommandés

Surveillance des SLA

Questions fréquemment posées

Quels outils de surveillance fonctionnent le mieux pour les intégrations de commerce électronique ?

Comment puis-je surveiller la fiabilité du webhook si je ne contrôle pas l'expéditeur ?

Quel est le taux d'erreur acceptable pour le traitement de l'intégration ?

Dois-je créer une surveillance personnalisée ou utiliser un service géré ?

Comment puis-je gérer la surveillance pendant les pannes du Marketplace ?

Quelle est la prochaine étape

Faites évoluer votre boutique Shopify

Articles connexes

Génération de contenu IA pour le commerce électronique : descriptions de produits, référencement et plus

Tarification dynamique basée sur l'IA : optimisez vos revenus en temps réel

Détection de fraude par IA pour le commerce électronique : protégez vos revenus sans bloquer les ventes

Plus de Performance & Scalability

Débogage et surveillance des webhooks : le guide de dépannage complet

Tests de charge k6 : testez sous contrainte vos API avant le lancement

Configuration de production Nginx : SSL, mise en cache et sécurité

Odoo Performance Tuning : PostgreSQL et optimisation du serveur

Odoo vs Acumatica : ERP cloud pour les entreprises en croissance

Test et surveillance des agents IA en production

Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

Surveillance de l'intégration : détecter les échecs de synchronisation avant qu'ils ne coûtent des revenus

Que surveiller

Santé des infrastructures

Santé du flux de données

Santé des résultats commerciaux

Catégorisation des erreurs

Type d'erreur vers la stratégie de résolution

Enrichissement des erreurs

Stratégies de nouvelle tentative

Retard exponentiel avec gigue

Réessayer le budget

Modèle de disjoncteur

Files d'attente de lettres mortes

Gestion DLQ

Métriques DLQ

Conception d'alerte

Niveaux de gravité des alertes

Alerte Prévention de la fatigue

Tableaux de bord et visibilité

Panneaux de tableau de bord recommandés

Surveillance des SLA

Questions fréquemment posées

Quels outils de surveillance fonctionnent le mieux pour les intégrations de commerce électronique ?

Comment puis-je surveiller la fiabilité du webhook si je ne contrôle pas l'expéditeur ?

Quel est le taux d'erreur acceptable pour le traitement de l'intégration ?

Dois-je créer une surveillance personnalisée ou utiliser un service géré ?

Comment puis-je gérer la surveillance pendant les pannes du Marketplace ?

Quelle est la prochaine étape

Faites évoluer votre boutique Shopify

Articles connexes

Génération de contenu IA pour le commerce électronique : descriptions de produits, référencement et plus

Tarification dynamique basée sur l'IA : optimisez vos revenus en temps réel

Détection de fraude par IA pour le commerce électronique : protégez vos revenus sans bloquer les ventes

Plus de Performance & Scalability

Débogage et surveillance des webhooks : le guide de dépannage complet

Tests de charge k6 : testez sous contrainte vos API avant le lancement

Configuration de production Nginx : SSL, mise en cache et sécurité

Odoo Performance Tuning : PostgreSQL et optimisation du serveur