La técnica n.º 1 para mejorar sistemas de alarmas de forma eficaz

Domar el Sistema de Alarmas Salvaje

Existe un único método que tiene mayor impacto, a menor coste y con menos esfuerzo, que cualquier otra técnica para mejorar un sistema de alarmas existente con bajo rendimiento. Pero ¿a qué nos referimos con “bajo rendimiento”? A continuación, se presentan ejemplos reales de algunos de los sistemas de alarmas con peores resultados que hemos encontrado (¡y todos fueron solucionables!):

Varios sistemas de control con alarmas individuales que se activaban más de 100.000 veces al mes.
En un sistema de alarmas, más del 70-% de las activaciones se debían a instrumentos averiados. Solo necesitaban mantenimiento.
Un sistema tan saturado por unas pocas alarmas molestas que el 98-% de todas las activaciones provenían de solo siete alarmas —con un promedio superior a 600 al día.
Un sistema sin una adecuada gestión del cambio, en el que la supresión manual de alarmas no controlada ni registrada eliminó el 98-% de todas las activaciones (unas 18.000 al día) de la vista del operador. Esto incluía la supresión de alarmas críticas.
Varios sistemas con más de 25.000 alarmas diarias en promedio, algunos superando las 100.000 —es decir, desde una alarma cada 3 segundos hasta más de una por segundo.
Un sistema en estado continuo de sobrecarga de alarmas (alarm flood), con un promedio de casi 40 alarmas por minuto durante más de cuatro días.
Una única alarma que se activó más de 200.000 veces en UN SOLO DÍA.
Una gran instalación distribuida en múltiples sitios que generaba más de MIL MILLONES de alarmas al año —2,7 millones al día.

A primera vista, problemas como estos pueden parecer abrumadores. ¿Cómo se puede gestionar un sistema con 50.000 alarmas diarias? Fácil: ¡ese es de los sencillos! Podemos asegurarle que, con una aplicación inteligente de recursos, situaciones como estas pueden mejorarse considerablemente en solo unos días o semanas.

Siete Pasos

Existe un proceso de siete pasos para mejorar los sistemas de alarmas existentes. Es sencillo y ha demostrado ser eficaz en más de mil proyectos de optimización de alarmas.

Elaborar un documento de filosofía de alarmas. ¡Este documento define cómo se deben gestionar correctamente las alarmas!
Analizar los datos del sistema de alarmas actual para establecer una línea base e identificar las áreas problemáticas.
Resolver las alarmas más problemáticas (bad actors).
Documentar y racionalizar las alarmas (D&R) y crear una base de datos maestra de alarmas.
Implementar tecnología de auditoría y control de alarmas para la gestión de cambios.
Aplicar técnicas de gestión de alarmas en tiempo real, como las alarmas basadas en estados (state-based alarming).
Controlar y mantener el sistema mejorado, con análisis continuos y procesos de trabajo definidos.

Los tres primeros pasos suelen iniciarse de forma simultánea. Son fáciles, rápidos, económicos y no requieren muchos recursos internos. Además, son muy eficaces, por eso se colocan al inicio del proceso.

Aunque la filosofía de alarmas es fundamental, no es un requisito previo para identificar y corregir las alarmas más frecuentes. El análisis de alarmas también incluye la configuración de sistemas de monitorización para evaluar el rendimiento del sistema a lo largo del tiempo. Ambos aspectos son requisitos obligatorios según la norma ISA 18.2 sobre gestión de alarmas. Sin embargo, incluso solo la línea base inicial puede guiarte hacia el crucial Paso 3: identificar y resolver las alarmas más frecuentes y molestas, los llamados bad actors. Trataremos todos los pasos restantes en futuras publicaciones.

La resolución de bad actors puede reducir la tasa de alarmas en un 60-% a 80-% (o incluso más). Es una medida que permite abordar muchos de los problemas ya mencionados. Puede lograrse en pocos días o semanas de trabajo parcial. No requiere necesariamente la intervención de consultores. Si bien no soluciona todos los problemas (por ejemplo, una mala asignación de prioridades), es un excelente punto de partida que aporta credibilidad al proyecto global de mejora y ayuda a generar apoyo y avanzar con impulso.

Existen diversas categorías de alarmas problemáticas (nuisance alarms) y varios métodos para gestionarlas. Un número elevado de bad actors puede hacer que un sistema de alarmas resulte ineficaz. Esto puede derivar en condiciones peligrosas en planta, ya que las alarmas críticas pueden pasar desapercibidas en el “mar” de alarmas molestas.

La experiencia demuestra que un número relativamente reducido de alarmas configuradas genera la mayoría de las activaciones. Por “reducido” se entiende entre 20 y 50 alarmas individuales. Nadie diseña intencionadamente una alarma para que se active más de 20.000 veces al mes, pero existen… ¡y pueden corregirse!

Las 20 alarmas más frecuentes suelen representar entre el 25-% y el 95-% de toda la carga del sistema. Si se gestionan correctamente, se obtiene una mejora significativa del rendimiento del sistema. Es sorprendente que existan cifras tan elevadas de alarmas molestas, ya que es poco probable que incluso el mejor ingeniero de control de una empresa diseñe voluntariamente un comportamiento así. Y, sin embargo, las encontramos: de todos los tipos, en casi todos los sistemas que analizamos.

Figura 1: "Top 10" de las alarmas más frecuentes en un solo sistema – Datos de 8 semanas

En la Figura 1, solo 10 alarmas representan el 96-% de la carga total del sistema de alarmas. El gráfico se basa en únicamente ocho semanas de datos y varias de estas alarmas se activaron más de 100.000 veces. Este comportamiento nunca fue intencional y corregir solo estas 10 alarmas reduciría la carga del sistema en un 96-%. Curiosamente, cinco de las diez (las alarmas “BADPV”) indican instrumentos específicos que están fallando. Corregir cinco instrumentos no debería ser difícil.

A continuación, se presentan algunos ejemplos del Paso 3 (antes y después) de quince sistemas de control distintos:

Figura 2: Magnitud de las mejoras tras resolver los “bad actors” de alarmas

En los sistemas mencionados, se analizaron menos de 50 alarmas en cada caso utilizando las técnicas que veremos a continuación. La reducción porcentual media obtenida fue superior al 65 %. ¡Un avance considerable con muy poco esfuerzo! ¿No estarías contenta si al analizar unas 30 alarmas lograses reducir tu tasa de alarmas a menos de la mitad? Aquí te explicamos cómo hacerlo.

Estos son los principales tipos de alarmas molestas:

Alarmas intermitentes (se restablecen rápidamente y vuelven a activarse de inmediato)
Alarmas fugaces (duran solo unos segundos antes de desaparecer, y pueden repetirse después)
Alarmas obsoletas (permanecen activas de forma continua durante días, semanas o incluso meses)
Alarmas suprimidas (el operador no las ve cuando ocurren, y su supresión no está controlada ni registrada)
Alarmas duplicadas (dinámicas, cuando una sola condición genera múltiples alarmas en distintos puntos)
Alarmas duplicadas (configuradas, cuando varios puntos vinculados se activan si uno de ellos lanza una alarma)
Alarmas diagnósticas molestas de instrumentación (como las de tipo “medición incorrecta”)

¡Las dos primeras —alarmas intermitentes y fugaces— son las peores! Son las que más contribuyen a las tasas elevadas de alarmas. Pero resolverlas suele requerir un método de cálculo que llevaría más espacio del que nos queda en este blog. Por eso, las trataremos en detalle en la próxima entrega de esta serie. (Si no puedes esperar, consulta las referencias al final.)

Alarmas obsoletas (Stale o de larga duración)

Las alarmas obsoletas se activan y permanecen en estado de alarma durante largos periodos. Un buen punto de partida es identificar aquellas que llevan activas más de 24 horas. Hemos encontrado alarmas que han estado activas durante meses e incluso años. (Es sorprendente lo que la gente llega a tolerar). Estas alarmas saturan las pantallas y restan valor a la importancia percibida del resto de las alarmas.

¿De verdad existen tantas condiciones anómalas que requieren la intervención del operador para evitar consecuencias y que duren más de un día? ¿O incluso meses? Con frecuencia, estas alarmas reflejan condiciones estables de la unidad, como equipos que están detenidos intencionalmente. Generalmente indican que las alarmas no se configuraron siguiendo los principios del Alarm Management Handbook.

Las alarmas obsoletas se resuelven comprendiendo los estados del proceso y el hardware implicado. Por lo general, se eliminan reconfigurándolas para que cumplan con la definición misma de lo que es una alarma. Las alarmas que se vuelven obsoletas a menudo no son alarmas en absoluto: simplemente son indicadores de estado. Suelen señalar que un equipo está “encendido” o “apagado”. Casi NUNCA debería configurarse una alarma únicamente porque algo esté encendido o apagado. Siempre puede haber circunstancias válidas en las que ese equipo deba estar apagado. En su lugar, la alarma debería indicar que “este equipo DEBERÍA estar encendido, pero está apagado” (o al revés). Esa es una situación anómala que sí requiere intervención del operador.

Diseñar una alarma de este tipo puede requerir cierta creatividad, la implementación de lógica o simplemente un método de alarma basado en estados. Hablaremos más sobre las alarmas basadas en estados en una próxima entrada del blog.

Alarmas suprimidas

Un análisis inicial de un sistema, destinado a identificar los bad actors, también debe incluir la detección de alarmas configuradas que estén suprimidas. Esto significa que la alarma sigue activa en el sistema, pero se ha aplicado algún tipo de anulación para que no se notifique al operador. Casi todos los sistemas de control cuentan con esta funcionalidad, pero con frecuencia se abusa de ella. La supresión de alarmas suele estar fuera de control. Hemos encontrado alarmas críticas que estuvieron suprimidas durante meses sin que nadie lo supiera.

Al finalizar el proceso de resolución de bad actors, no debería quedar ninguna alarma suprimida. Muchas veces se recurre a la supresión por comportamientos molestos, como las alarmas intermitentes, que en realidad pueden corregirse. La supresión debe estar estrictamente controlada, ser visible y estar registrada. Esta práctica se conoce como alarm shelving.

Alarmas duplicadas

Existen dos tipos de alarmas duplicadas.

1. Alarmas duplicadas dinámicas

Son alarmas que aparecen de forma recurrente en un corto intervalo de tiempo respecto a otras alarmas concretas. Si utilizas tu software de análisis de alarmas para listar aquellas que siempre ocurren, por ejemplo, en el plazo de un segundo entre sí, probablemente obtendrás una buena lista sobre la que trabajar. Estas alarmas suelen ser múltiples notificaciones, expresadas de forma diferente, de un mismo evento del proceso.

Por ejemplo, si una bomba se detiene, es posible que inmediatamente se activen alarmas de baja presión de descarga, bajo caudal y baja intensidad. Estas otras alarmas serían válidas mientras la bomba esté en funcionamiento, pero no cuando se ha detenido intencionadamente y esos valores son esperados.

Cada situación concreta determinará qué alarmas deben mantenerse, cuáles eliminar y qué ajustes de lógica son necesarios.

2. Alarmas duplicadas configuradas

Las interconexiones entre puntos dentro de un sistema de control distribuido (DCS) pueden dar lugar a alarmas duplicadas por configuración. Por ejemplo, un punto de medición de proceso puede estar conectado a un punto de selector, a un totalizador, a un punto lógico, a un controlador, etc. A menudo, se configura (por defecto) una alarma del tipo “medición incorrecta” en cada uno de esos puntos, lo que significa que si el sensor entra en esa condición, se activan varias alarmas simultáneamente.

Esto distrae al operador, ya que varias alarmas distintas son causadas por un único evento (el fallo de un sensor). Debería configurarse una sola alarma, en el punto donde el operador tenga más probabilidad de intervenir.

Si ese sensor alimenta un punto de controlador, lo más adecuado sería configurar la alarma en el controlador. Esto se debe a que la acción del operador ante una lectura incorrecta probablemente será poner el controlador en modo manual y ajustar la salida manualmente. El propio punto de controlador indicará que la señal de entrada se ha deteriorado.

Alarmas diagnósticas molestas de instrumentación

Es bastante común, aunque sigue siendo sorprendente, encontrar grandes cantidades de alarmas que indican una medición incorrecta u otro problema similar del instrumento. ¡A menudo se cuentan por cientos o incluso miles!

Figura 3: Sistema de alarmas dominado por alarmas diagnósticas de instrumentación

Cuando se diseñó un lazo de control, ¿alguien le dijo al ingeniero de control lo siguiente?
«Ah, y por cierto, quiero que este sensor entre frecuentemente en “medición incorrecta” (Bad Measurement), y que genere al menos 650 alarmas por semana como mínimo».
Y si se lo hubieran dicho al mejor ingeniero de control de la empresa, ¿lo habría logrado? Probablemente no. Sin embargo, encontramos este tipo de situaciones en casi todos los sistemas que analizamos.

Ningún instrumento está diseñado para funcionar en ese estado, por lo tanto cada una de estas situaciones se puede corregir y no deberían tolerarse. Suelen deberse a configuraciones incorrectas del rango, del clamping de la medición, o a problemas de instalación (por ejemplo, líneas de impulsos que se llenan de líquido). La razón original por la que se instaló un caudalímetro probablemente no incluía la idea de que “está bien si no funciona la mitad del tiempo”. Pero la gente lo tolera. No aceptaríamos un velocímetro roto en nuestro coche.

Estas situaciones deben abordarse. Cuando un instrumento falla, el operador pierde un indicador clave del proceso. El tiempo que dedica a verificar que el problema es del instrumento reduce su atención al resto de sus tareas. Si un instrumento que no funciona no es necesario, debe retirarse, siguiendo el procedimiento de gestión del cambio (MOC). Un instrumento dañado de forma indefinida podría incluso considerarse una violación de dicho procedimiento.

Décadas atrás, los sensores analógicos disponibles presentaban una limitación clara entre precisión (dígitos significativos) y rango: solo se lograba una alta precisión sobre un rango pequeño, muchas veces más limitado que la variación esperada del proceso. Los ingenieros de control conocían bien esta limitación y diseñaban en función de ella. Pero al implementar esos sensores con rangos limitados en un sistema de control distribuido (DCS), las alarmas de medición incorrecta comenzaron a aparecer con frecuencia, sin que eso representara una condición anómala.

La revolución digital que nos trajo el DCS también nos proporcionó sensores de medición mucho más avanzados. Los sensores modernos pueden ofrecer la precisión necesaria en todo el rango operativo del proceso. Sin embargo, algunas instalaciones siguen aplicando prácticas de configuración obsoletas, sin considerar las consecuencias de generar una gran cantidad de alarmas de medición incorrecta durante condiciones como arranque o parada.

Los puntos de control suelen contar con “modos de protección” (shed modes), que son acciones predeterminadas que se ejecutan cuando la señal de entrada falla: por ejemplo, salida al 100%, salida al 0%, o mantener la última salida. Estos modos deben seleccionarse con cuidado, pero el objetivo principal debe ser evitar que se produzca una condición de bad measurement desde el inicio.

Hoy, la configuración por defecto debería considerar todo el rango posible del proceso (incluyendo condiciones de parada o ambiente), y luego verificar si la precisión es suficiente. Si no lo es (algo poco común con los transmisores modernos), ¡compra un transmisor mejor! Pero no configures el rango de forma que esperes una medición incorrecta en condiciones normales.

Los caudalímetros por presión diferencial suelen ser los peores en este sentido. Si, con caudal cero, hay un leve desequilibrio en las líneas de impulsos, el medidor intenta reportar un flujo negativo o en retroceso. Si el rango no contempla esos valores negativos, se genera una condición de medición incorrecta y se dispara la alarma. Estos puntos deben configurarse adecuadamente para gestionar el caso de flujo cero. Se puede aplicar un umbral mínimo (cutoff) y forzarlo a cero, evitando que se registre un valor negativo pequeño, lo que además podría afectar a cálculos posteriores.

La mayoría de los DCS permiten limitar (clamp) un valor analógico en los extremos del rango en lugar de generar una alarma de medición incorrecta. Esta capacidad debe conocerse bien y usarse adecuadamente. (¡Sí, eso implica leer la documentación!)

Proceso de trabajo continuo

Es imprescindible establecer un proceso de trabajo que permita identificar y resolver las nuevas alarmas molestas. Los procesos cambiarán o se modificarán, los sensores envejecerán o empezarán a fallar, y aparecerán nuevas alarmas de este tipo. Los análisis de alarmas continuos pueden detectar y reportar estas situaciones, pero debe haber una persona responsable de actuar y corregirlas.

Hemos comprobado que, una vez que se resuelven las alarmas molestas iniciales, los operadores lo notan, ven que es posible solucionarlas y dejan de ser tolerantes con la aparición de nuevas alarmas innecesarias. ¡Y eso es algo positivo!

No dudes en contactarnos si quieres más información o tienes alguna pregunta.
Y si deseas profundizar, te recomendamos este white paper gratuito:
“Making a Big Dent In Nuisance Alarms”
Y, por supuesto, The Alarm Management Handbook, Second Edition.