====== Présentation de la gestion des incidents ====== ===== Qu’est-ce qu’un incident ? ===== Dès que qu’un service est **arrêté** ou que la **qualité du service diminue**, il y a un incident. Quelques exemples d’incidents : * ma souris ne fonctionne plus ; * une application métier se bloque ; * je n’arrive plus à accéder à mes documents sur le serveur distant ; * une transaction sur un serveur distant qui dure en moyenne 2 à 3 secondes ne donne pas de réponse au bout de 10 secondes ; * mon imprimante n’a plus de toner. Un incident est détecté soit par un utilisateur qui va contacter le **Centre de services** en appelant un numéro spécifique, soit par des outils de supervision. ===== Le contrat de service et gestion des incidents ===== Les bonnes pratiques **ITIL** permettent de contractualiser la gestion des incidents en définissant et en gérant des niveaux de service. **Cycle de vie du service** : expression du besoin, solution mise en œuvre, exploitation et support. Le **client** (donneur d’ordre) doit trouver un **accord** auprès du **prestataire informatique** sur la solution mise en œuvre et son coût. Cet engagement réciproque est formalisé dans un **contrat de service**. ===== Le contrat de service ===== Le contrat de services ou **SLA** (Service Level Agreement), lie le client et le fournisseur des services informatiques (interne ou externe à l’organisation). Le SLA est : * un accord sur le **service proposé**, * un accord sur les **niveaux** de services associés * un accord sur le **coût** de la solution. * un **engagement de résultat** sur des objectifs à atteindre pour un ou plusieurs services. Le SLA précise les **droits** et les **devoirs** de chaque partie, les responsabilités de chacun pour une **période donnée**. A **l’échéance** du contrat, celui-ci est **renégocié**. ===== Que contient le contrat de service ? ===== Voici des exemples d’informations que doit contenir le SLA : * Une **description** du service en termes de fonctionnalités. * Le **taux de disponibilité** sur une période donnée avec la durée maximale d’indisponibilité. * Les modalités de **support** et en particulier les heures d’ouverture du centre de services. * Les **coûts** associés à la production du service. * Les **indicateurs** permettant de vérifier que les engagements sont tenus. * Les modalités de **production** des **tableaux de bord** (fréquence, communication) * Les **pénalités** pour non-respect des engagements de la part du fournisseur du service. Si le prestataire est un service informatique interne, il n’y a pas nécessairement de pénalités. * La **durée** du contrat. ===== Les états d’un service ===== Ces précisions sur la notion d’incident permettent de définir la notion d’état d’un service : * un service est **nominal** s’il fonctionne comme il a été conçu et architecturé. **Exemple** : une plateforme de virtualisation est architecturée avec quatre serveurs en cluster et ces quatre serveurs sont opérationnels. * Un service est **normal** (ou standard) quand il fonctionne en **conformité** avec l’accord de niveaux de services (SLA). En reprenant l’exemple précédent, si un des serveurs de la plate-forme de virtualisation est arrêté à cause d’une panne ou pour des opérations de maintenance mais que les performances ne sont pas dégradées et que les utilisateurs ne s’en rendent pas compte, alors le service est normal. * Un service est **dégradé** s’il fonctionne avec un **niveau de qualité en dessous** de ce qui est mentionné dans l’accord de niveaux de services (SLA). Par exemple si cette fois-ci deux des quatre serveurs sont arrêtés, les applications sont moins réactives et les utilisateurs s’aperçoivent de cette dégradation. * Un service est **arrêté** et ne fonctionne donc plus. **Incident** : un incident survient lorsqu’un service passe de l’état nominal ou normal à l’état dégradé ou arrêté. ===== Impact, urgence, priorité ===== Chaque incident doit être codifié pour déterminer la priorité que l’on va lui attribuer. Une notation est utilisée en général sur une échelle de 1 à 3 ou de 1 à 5 (1 : Élevé, 3 ou 5 : Faible). Il faut distinguer **l’impact** de **l’urgence** d’un incident : * **L’impact** est l’effet de l’incident sur **l’utilisation** du service comme par exemple la perte d’exploitation (serveurs indisponible), ou le nombre d’utilisateurs qui ne peuvent pas travailler, etc. * **L’urgence** est le temps nécessaire pour **rétablir** le service avant que les effets de l’incident ne se fassent sentir. Par exemple, la non disponibilité de l’application de gestion de la paie n’a pas la même importance si cela arrive en début de mois ou en fin de mois quand il faut établir les bulletins de paie. La **priorité de l’incident** résulte de son impact et son urgence sur l’activité métier. Cette priorité permet d’identifier l’importance relative des incidents les uns par rapport aux autres. Voici un tableau montrant un exemple de calcul de la priorité en fonction de l’impact et de l’urgence. ^Impact / Urgence^1^2^3^ |1|P1|P2|P2| |2|P2|P2|P3| |3|P3|P3|P3| À chaque **niveau** de priorité (P1, P2, P3), on affecte un **délai de rétablissement**. Par exemple : P1 = 2h, P2 = 8h, P3 = 24h. Ces **codifications** d’un incident (impact, urgence, matrice d’attribution des niveaux de priorité et délais de rétablissement) doivent être explicitées dans le SLA avant la mise en exploitation du service. ===== Incident majeur ===== Les incidents qui ont un **impact très important** sur l’activité métier sont des incidents majeurs et sont de ce fait** hors grille de codification**. Ils sont traités différemment des autres incidents et nécessite une procédure de "**crise**". ===== Les objectifs de la gestion des incidents ===== En cas d’incident, il faut **rétablir** au plus vite le service dans un état **normal**, conformément à l’accord de niveaux de services associé (SLA) et **minimiser l’impact** de l’incident sur les utilisateurs. ==== Rétablir le service ==== Rétablir le service ne signifie pas nécessairement trouver une solution, mais **remettre en marche** le service afin et qu’il fonctionne à nouveau dans un état normal ou standard. C’est le processus de** gestion des problèmes** qui permettra d’apporter une réponse durable. **Exemple** : Une application ne fonctionne plus correctement sur un serveur d’exploitation. Il peut être possible de rétablir le service en relançant le serveur et si nécessaire en restaurant une sauvegarde. En procédant ainsi, on rétablit le service sans pour autant avoir compris la cause de cet arrêt de service. Comme le service fonctionne à nouveau dans l’état normal, vous avez résolu l’incident ce qui est attendu par le client et les utilisateurs du service. Ce n’est probablement pas satisfaisant pour le service informatique car la panne pourra à nouveau se reproduire. C’est le processus de gestion des problèmes qui permet de résoudre cette situation. ==== Minimiser l’impact ==== Gérer un incident c’est également **minimiser** son impact sur l’activité métier des utilisateurs. En faisant le nécessaire pour remettre le service ou une partie du service en état de fonctionnement, le résultat pourra être un fonctionnement avec une dégradation de la qualité du service (moindre performances, fonctionnalités limitées, etc.). ===== Les activités du processus de gestion des incidents ===== Voici un schéma de l’enchaînement des principales activités du processus de gestion des incidents. {{ :reseau:gestionincident:gestionincident01.png |}} * **Détection** : une situation est identifiée comme un incident quand l’utilisateur contacte le centre de services ou par le personnel chargé de l’exploitation. * **Enregistrement** : à chaque incident, il y a ouverture d’un **ticket d’incident** avec les informations administratives (date et heure, nom de la personne qui a détecté l’incident, lieu et site, numéro de contrat si nécessaire...). * **Classification** : à partir de **modèles d’incidents**, le centre de service catégorise l’incident selon leur type prédéfini. Pour cela une série d’étapes, de **questions hiérarchisées** permettront de déterminer le type de l’incident ce qui déterminera les ressources à mobiliser pour le résoudre. * **Codification** : une **priorité** est attribuée avec les délais de rétablissement prévue par contrat. Ce n’est pas l’utilisateur mais le centre de services qui assume cette responsabilité. La codification peut déclencher la procédure de crise dans le cas d’un incident majeur. * **Diagnostic initial** : une recherche est effectuée pour déterminer si la situation décrite est déjà connue dans les bases de connaissance. * **Tentative de résolution** : une procédure de rétablissement permet de **restaurer** le service. Cette résolution est facilitée si la situation décrire est déjà mémorisée dans la base de connaissance. Le centre de service est le **niveau 1 de support**. S'il ne peut résoudre l’incident, il y a **escalade** (transfert) vers les niveaux supérieurs, niveau 2, puis niveau 3. * **Clôture** : il s’agit de **fermer le ticket** d’incident en y ajoutant toutes les informations utiles (temps d’indisponibilité, actions effectuées pour rétablir le service, nom du ou des intervenants, etc.). La clôture doit se faire avec **l’accord** de l’utilisateur concerné, en essayant de **mesurer sa satisfaction**. Ce qui est **important** dans la gestion des incidents : * **Tous** les incidents doivent être **tracés**. * La **détection** d’un incident doit être effectuée le plus **tôt possible**. L’utilisateur doit être sensibilisé pour qu’il informe le plus rapidement possible le centre de service dès qu’il constate une situation anormale. Des outils de surveillance permettent également de faire remonter des alertes (outils de supervision réseaux). ===== La procédure d'escalade ===== Quand un utilisateur **constate** un problème et contacte le centre de service, le processus de gestion des incidents peut activer une **démarche d'escalade en fonction de la complexité** de l'événement. Le **premier niveau** est placé sur le **centre de services** qui s’efforce de diagnostiquer l’événement et d’apporter une solution. Si le centre de service **ne peut résoudre** l'incident, alors, par escalade, l’événement est transmis à un niveau 2 pour être pris en charge par des expertises plus pointues. Ce 2ème niveau peut ne pas être situé dans le centre de services mais dans un autre service informatique ou chez un prestataire informatique spécialiste du domaine informatique concerné (système, réseau, application, développement). Si nécessaire, d’autres niveaux d’escale seront sollicités jusqu’à la résolution de l’incident. Le plus haut niveau d'escalade correspond aux laboratoires du constructeur ou de l'éditeur. {{ :reseau:gestionincident:gestionincident02.png |}}