Domando o sistema de alarmes selvagens, Parte 2

Bill Hollifield

A técnica de melhoria de alarmes mais importante que existe

21 de junho de 2022
Bill Hollifield

Existe um método único que tem mais efeito, com menor custo e menor esforço do que qualquer outra técnica para melhorar um sistema de alarme existente e de baixo desempenho. Porém, o que queremos dizer com “baixo desempenho”? Aqui estão exemplos de alguns dos sistemas de alarme de pior desempenho que encontramos (e todos eles tinham solução!)

Muitos sistemas de controle diferentes com alarmes individuais que ocorrem mais de 100.000 vezes por mês
Um sistema de alarme com mais de 70% de todas as ocorrências de alarme (cerca de mil por dia) causadas por instrumentos que não estavam funcionando e necessitando de manutenção.
Um sistema tão dominado por alguns alarmes incômodos que 98% de todas as ocorrências de alarme vinham de apenas sete alarmes – uma média de mais de 600 por dia
Um sistema sem um bom gerenciamento de mudanças, onde a supressão manual de alarmes não controlada e não rastreada eliminou 98% de todas as ocorrências de alarme (cerca de 18.000 por dia) da visão do operador. Isso incluiu a supressão de alguns alarmes muito importantes
Muitos sistemas com mais de 25.000 alarmes por dia em média, alguns excedendo 100.000 – ou seja, 1 alarme a cada 3 segundos, até mais de 1 alarme por segundo
Um sistema que estava em constante fluxo de alarmes, com média de quase 40 alarmes por minuto durante mais de quatro dias
Um único alarme que ocorreu mais de 200.000 vezes em UM ÚNICO DIA
Uma grande instalação multilocal em rede que gerou mais de BILHÕES de alarmes por ano – 2,7 milhões por dia

À primeira vista, problemas como esses parecem avassaladores. Como lidar com 50.000 alarmes por dia? Ah – essa é fácil! Garantimos que, com um certo esforço aplicado de forma inteligente, casos como esses podem ser bastante melhorados em apenas alguns dias ou semanas.

Sete etapas

Existe um processo de sete etapas para melhorar os sistemas de alarme existentes. É simples e comprovadamente eficaz em mais de mil projetos de melhoria de alarmes.

Desenvolver um documento de Filosofia de Alarme. É assim que se faz alarmes corretamente!
Analisar os dados de alarme existentes para estabelecer uma linha de base e identificar as áreas problemáticas.
Executar a resolução de alarme de “agente mal-intencionado”.
Executar a documentação e racionalização (D&R) de alarmes e criar um banco de dados principal de alarmes.
Implementar tecnologia de auditoria e fiscalização de alarmes para gerenciamento de mudanças.
Implementar técnicas de gerenciamento de alarmes em tempo real, como alarmes baseados em estado.
Controlar e manter seu sistema aprimorado, com análises e processos de trabalho contínuos.

As três primeiras etapas são frequentemente iniciadas simultaneamente. Essas três etapas são fáceis, rápidas, baratas e não exigem muitos recursos internos. Elas também são poderosas, por isso são colocadas no início.

A filosofia de alarme é importante, mas não é um “pré-requisito” para localizar e corrigir os alarmes mais frequentes. A etapa de análise de alarmes também envolve a criação de um sistema para monitorar o desempenho do sistema de alarmes no futuro. Ambos são requisitos obrigatórios do padrão de gerenciamento de alarmes ISA 18.2. Mas mesmo a linha de base inicial por si só pode apontar para a Etapa 3 crucial – encontrar e corrigir seus alarmes mais frequentes e incômodos – os “agentes mal-intencionados!” Abordaremos todas as outras etapas em blogs futuros.

Essa etapa de resolução de agentes mal-intencionados pode reduzir suas taxas de alarme em 60% a 80% ou mais. Pode ajudar muito na resolução de problemas como os já mencionados. Isso pode ser realizado em apenas alguns dias ou semanas de esforço em meio período. Não precisa envolver consultores. Embora existam muitos problemas que ela não resolve (como a má seleção de prioridades de alarme), é uma ótima maneira de começar de maneira impressionante, o que dará credibilidade a todo o esforço de melhoria de alarmes. Isso o ajudará a obter adesão e desenvolver a dinâmica.

Existem várias categorias de alarmes de agentes mal-intencionados (incômodos) e vários métodos para lidar com eles. Com um número suficiente de agentes mal-intencionados, um sistema de alarme torna-se inútil. Isso pode levar a condições perigosas na fábrica, uma vez que alarmes importantes ou críticos são perdidos na infinidade de alarmes de agentes mal-intencionados.

A experiência mostra que comparativamente poucos alarmes configurados causam a maioria das ocorrências de alarme, o que alimenta todos os problemas de alta taxa de alarmes. “Poucos” significa 20 a 50 alarmes configurados individualmente. Ninguém jamais projetou intencionalmente um alarme para ocorrer mais de 20.000 vezes por mês, mas eles existem e podem ser consertados!

Os 20 alarmes mais frequentes geralmente compreendem entre 25% e 95% de toda a carga do sistema. Se esses alarmes forem resolvidos com sucesso, ocorrerão grandes melhorias no sistema. É surpreendente que exista um número tão elevado de alarmes incômodos, porque é duvidoso que o melhor engenheiro de controle de uma empresa possa projetar intencionalmente alarmes para se comportarem da maneira que discutiremos. No entanto, eles existem; todas as variedades estão em quase todos os sistemas que analisamos.

Figura 1: “Os 10 principais” alarmes mais frequentes em um único sistema – 8 semanas de dados

Na Figura 1, apenas 10 alarmes representam 96% da carga total de alarmes. O gráfico baseia-se em apenas oito semanas de dados e vários alarmes dispararam mais de 100.000 vezes. Esse desempenho nunca foi intencional e corrigir apenas esses 10 alarmes reduziria a carga do sistema em 96%! Curiosamente, cinco dos 10 (os alarmes “BADPV”) indicam instrumentos específicos que estão com defeito. Consertar 5 instrumentos não deve ser difícil.

Aqui estão alguns exemplos de antes e depois da Etapa 3 de quinze sistemas de controle diferentes:

Resultados do processo de trabalho de alarme de agentes mal-intencionados

Alarmes de base

Redução de recomendações de agentes mal-intencionados

% de Redução

Sistema 1

339.524

325.423

95,8%

Sistema 2

644.487

593.904

92,2%

Sistema 3

79.434

72.935

91,8%

Sistema 4

58.049

51.782

89,2%

Sistema 5

482.375

413.094

85,6%

Sistema 6

414.887

333.395

80,4%

Sistema 7

93.848

71.372

76,1%

Sistema 8

64.695

46.749

72,3%

Sistema 3

33.115

22.646

68,4%

Sistema 10

225.668

133.307

59,1%

Sistema 11

44.527

24.882

55,9%

Sistema 12

183.312

77.417

42,2%

Sistema 13

106.212

38.566

36,3%

Sistema 14

91.686

29.188

31,8%

Sistema 15

39.305

8.625

21,9%

Figura 2: Valores de melhoria da resolução do alarme de agentes mal-intencionados

Nos sistemas acima, menos de 50 alarmes cada foram analisados pelas técnicas que abordaremos. A redução percentual média alcançada foi superior a 65%. Esse é um ganho substancial com um pouco de trabalho! Você não ficaria satisfeito se analisasse cerca de 30 alarmes e reduzisse sua taxa de alarmes em mais da metade? Veja como.

Aqui estão os principais tipos de alarmes incômodos:

Alarmes intermitentes (desaparecem rapidamente, e se repetem imediatamente)
Alarmes instantâneos (duram apenas alguns segundos antes de desaparecerem e podem ser repetidos mais tarde)
Alarmes obsoletos (permanecem funcionando continuamente por dias, semanas ou meses) Alarmes suprimidos (o operador não vê quando eles ocorrem, mas cuja supressão não é controlada e rastreada)
Alarmes duplicados (dinâmicos, em que uma condição provoca o alarme de vários pontos diferentes)
Alarmes duplicados (configurados, em que vários pontos conectados emitem todos os alarmes se algum deles tiver um alarme)
Alarmes de diagnóstico de instrumentos incômodos (como os tipos de “medição incorreta”)

Os dois primeiros – alarmes intermitentes e instantâneos são os piores! Eles são os maiores contribuintes para altas taxas de alarme. Mas corrigi-los geralmente requer uma técnica de cálculo que leva mais tempo para ser descrita do que o restante do espaço deste blog permite. Portanto, eles serão abordados na íntegra no próximo blog desta série. (Se não puder esperar, consulte as referências no final.)

Alarmes obsoletos (de longa duração)

Alarmes obsoletos são recebidos e permanecem em alarme durante longos períodos. Procurar alarmes contínuos em funcionamento por mais de 24 horas é um bom ponto de partida. Encontramos alarmes que estão em funcionamento há meses e até anos. (É espantoso o que as pessoas toleram) Elas sobrecarregam as telas de alarme e desvalorizam a importância percebida de todos os alarmes.

Existem realmente muitas condições anormais que requerem a ação do operador para evitar uma consequência que dure mais de um dia? Ou meses? Esses alarmes muitas vezes refletem condições estáveis da unidade, como equipamentos que são desligados intencionalmente. Geralmente indicam alarmes que não foram configurados de acordo com os princípios contidos no Manual de Gerenciamento de Alarmes.

Os alarmes obsoletos são tratados por meio da compreensão dos estados do processo e do hardware envolvido. Geralmente são eliminados configurando-os novamente, portanto atendem à própria definição de alarme. Os alarmes que ficam obsoletos geralmente não são alarmes – são apenas indicações de status. Frequentemente, eles simplesmente indicam se algum tipo de item está “ligado” ou “desligado”. Quase NUNCA se deve criar um alarme com base em algum item apenas “ligado” ou “desligado”. Sempre há circunstâncias válidas em que um item deve estar desligado.

Em vez disso, o alarme deve indicar que “este item DEVERIA estar ligado, mas está desligado” (ou vice-versa). Tal situação é anormal e requer ação do operador. O projeto de tal alarme pode exigir uma determinada imaginação, ou a implementação de alguma lógica ou um método de alarme simples com base no estado. Haverá mais informações sobre alarmes com base no estado em um blog futuro.

Alarmes suprimidos

Uma análise inicial de um sistema usado para determinar a lista de resolução de agentes mal-intencionados também deve identificar quaisquer alarmes configurados que sejam suprimidos. Isso significa que o alarme ainda está configurado, mas algum tipo de anulação foi selecionado para eliminar seu anúncio ao operador. Quase todos os sistemas de controle têm essa capacidade, que é frequentemente utilizada de forma abusiva. A supressão de alarmes é muitas vezes descontrolada. Encontramos alarmes muito importantes que foram suprimidos durante meses sem que ninguém notasse. No final da etapa de resolução do agente mal-intencionado, não deverá haver mais alarmes suprimidos. Os alarmes são frequentemente suprimidos devido a comportamentos incômodos, como vibração, que podem ser corrigidos. A supressão deve ser rigorosamente controlada, visível e rastreada. Essa é uma técnica chamada “arquivamento de alarmes”.

Alarmes duplicados: Naturalmente, existem dois tipos de alarmes duplicados.

1. Alarmes duplicados dinâmicos

São alarmes que ocorrem consistentemente em um curto período de tempo em relação a outros alarmes específicos. Se você usar seu software de análise de alarmes para listar os alarmes que sempre ocorrem, por exemplo, com um intervalo de um segundo entre eles, provavelmente encontrará uma boa lista para trabalhar. É muito provável que tais alarmes sejam anúncios múltiplos, de maneiras diferentes, do mesmo evento de processo. Por exemplo, se uma bomba parar, podem surgir imediatamente alarmes de baixa pressão de descarga, baixo fluxo e baixa amperagem. Esses outros podem ser alarmes válidos quando a bomba está funcionando, mas não quando ela se encontra parada intencionalmente e esses valores são esperados.

A situação individual determinará quais alarmes serão mantidos e quais não serão, ou quais ajustes lógicos deverão ser realizados.

2. Alarmes duplicados configurados

Interconexões entre pontos em um DCS podem criar casos de configuração de alarmes duplicados. Por exemplo, um ponto do sensor de medição do processo pode ser ligado a um ponto do seletor, a um ponto do totalizador, a um ponto lógico, a um ponto do controlador etc. Muitas vezes, um tipo de alarme de “medição incorreta” é configurado em cada ponto (geralmente por padrão) e, portanto, se o ponto do sensor entrar nessa condição, vários alarmes simultâneos ocorrerão. Eles distraem o operador ao anunciar vários alarmes causados por um único evento (o único sensor com defeito). Deve haver apenas um desses alarmes, configurado no ponto onde o operador tem maior probabilidade de realizar a ação. Se o ponto do sensor alimentar um ponto de controlador separado, o controlador seria o ponto adequado para alarmar sobre a medição incorreta. Isso ocorre porque a ação do operador a ser tomada a partir de uma leitura incorreta provavelmente colocará o controlador no modo manual e ajustará a saída manualmente. O próprio ponto do controlador mostrará que a medição de entrada está incorreta.

Alarmes de diagnóstico de instrumentos incômodos

É bastante comum, mas ainda assim surpreendente, ver grandes quantidades de ocorrências de alarme indicando uma medição incorreta ou problema semelhante no instrumento. Muitas vezes chegam a centenas ou milhares!

Figura 3: Sistema de alarme dominado por alarmes de diagnóstico de instrumentos

Quando um loop foi projetado, alguém disse ao engenheiro de controle o seguinte? “Ah, e a propósito, quero que este sensor entre em “Medição incorreta” com frequência e quero pelo menos 650 alarmes de “Medição incorreta” por semana, no mínimo.” E se isso tivesse sido dito ao melhor engenheiro de controle da empresa, será que o teria feito? Provavelmente não! No entanto, encontramos isso em quase todos os sistemas que examinamos.

Como nenhum instrumento foi projetado para estar nesse estado, cada uma dessas situações pode ser corrigida e não deve ser tolerada. Eles estão mal configurados na faixa, em “fixação de medição” ou há algum problema de instalação (por exemplo, derivações de impulso enchendo). A justificativa original para instalar um medidor de vazão provavelmente não incluía uma especificação de que seria aceitável se não funcionasse na metade do tempo! Mas as pessoas aguentam. Não toleraríamos um velocímetro quebrado em nosso carro.

Essas situações devem ser abordadas. Um mau funcionamento do instrumento remove um indicador de processo da visão do operador. O tempo que os operadores gastam na confirmação do problema do instrumento reduz a sua atenção a outras tarefas do operador. Se um instrumento que não funciona não for necessário, ele deverá ser removido, seguindo um procedimento de gerenciamento de mudanças (MOC). Um instrumento quebrado indefinidamente pode ser considerado uma violação do MOC.

Décadas atrás, os sensores de instrumentos analógicos disponíveis tinham uma compensação significativa entre precisão (dígitos significativos) e alcance; era possível obter alta precisão apenas em um intervalo pequeno, provavelmente menor do que a variação possível do processo. Os engenheiros de controle estavam bem cientes dessa compensação e acostumados a projetar dentro dessas restrições. Mas quando tais sensores com faixas restritas foram implementados em um DCS, os alarmes de “medição incorreta” ocorrem com frequência e não representam anormalidade.

A revolução eletrônica digital que nos deu o DCS também nos proporcionou sensores de medição muito melhorados. Os sensores modernos geralmente podem fornecer toda a precisão necessária em toda a faixa em que o processo pode variar. Mas algumas instalações continuam seguindo as práticas de configuração mais antigas e não consideram as consequências da geração de muitos alarmes de medição incorreta durante condições como inicialização e paralisação.

Os pontos do controlador geralmente terão “modos de eliminação”. Essas são ações predeterminadas tomadas quando uma medição de entrada dá errado, tais como ir para saída total, saída zero, manter a última saída. Elas devem ser escolhidas com cuidado, mas minimizam a possibilidade de a medição dar errado!

O padrão agora deve ser configurar a faixa do instrumento para toda a faixa de valores possíveis que o processo pode ter (incluindo paralisação ou condições ambientais) e então verificar se a precisão obtida é suficiente. Caso contrário (raramente, com transmissores modernos), adquira um transmissor melhor! Mas não configure a faixa onde você sabe que obterá um estado de medição incorreta nas condições esperadas.

Os fluxos de pressão diferencial são frequentemente os piores infratores. Se, no fluxo zero, houver um ligeiro desequilíbrio nas derivações, o medidor tentará reportar um ligeiro retrocesso ou fluxo negativo. A faixa de vazão pode não estar configurada para um leve negativo, então ocorre uma condição de medição incorreta e um alarme. Tais pontos devem ser configurados para lidar com o caso zero. Um corte pode ser configurado e fixado em um valor zero, de modo que um pequeno número de fluxo negativo não seja realmente produzido, o que também pode afetar alguns cálculos posteriores.

A maioria dos DCSs tem a capacidade de fixar um valor analógico nos extremos da faixa, em vez de entrar em um estado de medição incorreta. Essa habilidade deve ser totalmente compreendida e usada adequadamente. (Isso significa mais leitura da documentação!)

Processo de trabalho contínuo

Um processo de trabalho deve estar em vigor para identificar e resolver novos alarmes incômodos. O processo mudará ou será modificado, os sensores ficarão ultrapassados ou desenvolverão problemas e novos alarmes incômodos aparecerão. Análises contínuas de alarmes podem detectar e reportar essas situações, mas deve ser tarefa de alguém agir e corrigir a situação. Verificamos que, uma vez resolvidos inicialmente os alarmes incômodos, os operadores perceberão isso, perceberão que isso pode ser feito e não serão muito tolerantes com novos alarmes incômodos! Isso é bom.

Entre em contato conosco para obter mais informações ou se tiver dúvidas. Para obter mais detalhes, recomendamos este relatório técnico gratuito: Obtendo um grande progresso com alarmes incômodos

E, claro, o Manual de Gerenciamento de Alarmes, Segunda Edição