Skip to main content

Conteúdos Hexagon para Você

Domando o sistema de alarmes selvagens, Parte 4

Até que ponto o seu sistema de alarme é ruim?


13 de setembro de 2022    
Bill Hollifield

 

E como você pode saber isso? A análise de alarmes tornou-se uma atividade comum. Você tem que analisar algo para melhorá-lo. Há muitas análises que fornecem excelentes informações para melhorar seu sistema de alarme. No entanto, qual é a mais importante? Tudo é uma questão da TAXA de alarmes. Quantos alarmes estão sendo gerados, em quanto tempo, e o operador que os recebe consegue gerenciar esse número?

Observar a taxa de alarmes é algo independente do tipo de processo que está sendo controlado. Não importa se você está produzindo gasolina, aspirina ou megawatts. Todos os processos envolvem um operador monitorando e controlando fatores como vazão, temperatura, pressão, composição etc. Todas as análises de taxa de alarmes são normalizadas observando os alarmes apresentados a um único ser humano – o operador responsável por lidar com eles.

Este operador é “um único ser humano de cada vez”. Por exemplo, observar os alarmes por dia para um processo de dotação contínua de pessoal envolverá dois ou três seres humanos em sequência, dependendo se há dois turnos ou três no período de 24 horas. Chamamos essa combinação de dotação de pessoal de “posição operacional”. É comum que um processo possa ter mais de uma posição operacional, com diferentes operadores controlando partes distintas do processo e realizando a coordenação quando necessário. No entanto, uma melhor prática é que cada operador receba apenas os alarmes relevantes para o seu escopo de responsabilidade de controle.

Todos os alarmes são uma fonte de interação homem-máquina. O ser humano deve detectar o alarme, entendê-lo, examinar o processo para compreender por que ele está ocorrendo, determinar a resposta correta, tomar essa ação e continuar monitorando o processo para ver se a ação escolhida foi bem-sucedida. Essa sequência leva tempo e reflexão.

Obviamente, um operador pode realizar essas etapas se a taxa de alarmes for de um alarme por hora. Igualmente óbvio, um operador não consegue lidar com um alarme por segundo (mas normalmente vemos taxas de alarmes muito superiores a um por segundo!). Lembre-se, um alarme envolve uma condição anormal que requer a ação do operador para evitar uma consequência. Se um operador perder ou não conseguir “abordar” um alarme a tempo, a consequência relacionada ocorrerá.

A melhor medida geral, que conta a história do desempenho atual do seu alarme para operadores, engenheiros e gerentes, é o número de alarmes por dia para uma única posição operacional. Aqui está um gráfico típico dessa situação. Pelo menos um mês de dados cria um bom gráfico. Todos os dados exibidos são provenientes da análise de sistemas de alarme de clientes:

Este gráfico é muito típico para um sistema não aprimorado. Na verdade, ele é cerca de cinco vezes MENOS do que a maioria desses sistemas. Infelizmente, taxas de 10.000 a 20.000 alarmes por dia são comuns.

As linhas alvo na parte inferior para 150 e 300 alarmes por dia são baseadas em diretrizes estabelecidas há muito tempo para taxas diárias de alarmes “aceitáveis” e “máximas gerenciáveis” para um único operador gerenciando um processo típico. Em uma base horária, isso seria entre seis e 12 horas. Algumas pessoas consideram que esta é uma taxa muito baixa para se almejar, mas pense nisso. Você ficaria feliz se o seu sistema de controle estivesse funcionando tão mal que a cada cinco minutos o operador tivesse que ser interrompido, analisar uma situação e tomar uma ação que evitasse algum tipo de consequência significativa? Você ficaria feliz se eles fizessem isso continuamente, em vez de realizar tarefas muito mais úteis, como monitorar e ajustar o processo para eliminar os últimos pontos de eficiência e lucratividade?

Sistemas de alarmes não melhorados estão repletos de alarmes incômodos e outros lixos, que causam essas taxas elevadas. Os alarmes incômodos podem ser resolvidos (consulte os blogs anteriores com links no final deste) e a racionalização dos alarmes elimina o lixo (assunto de um blog posterior). Um bom método para justificar um projeto de melhoria de alarmes é pegar o gráfico acima e discuti-lo desta forma: quantos alarmes provavelmente foram perdidos pela operadora na semana passada devido a essas altas taxas? Quais são as probabilidades de o operador ter visto e respondido a todos os “alarmes realmente importantes” e apenas ter ignorado os menos importantes? Esperar e desejar isso não é uma boa estratégia para o sucesso ou a segurança.

Aqui está um exemplo de como algumas análises podem revelar vários aspectos ruins ao mesmo tempo. Alguns antecedentes: uma marca popular de Sistema de Controle Distribuído (DCS) permite ao operador suprimir um alarme configurado. Isso pode ser realizado de forma que quaisquer ocorrências de alarmes ainda sejam salvas no log (que é a fonte dos dados de análise), mas essas ocorrências NÃO gerem um alarme anunciado ao operador. O método para usar essa supressão geralmente é descontrolado e não há um bom rastreamento ou visibilidade sobre quais alarmes são suprimidos ou por quanto tempo. Então, observe este gráfico:

 

Os alarmes anunciados vistos pelos operadores (linha azul) estão majoritariamente abaixo dos intervalos desejados inferiores a 300. Se você somente traçasse ou observasse essa taxa de alarmes, pensaria que não havia problema algum. Porém, a taxa real era muito maior. Uma análise separada mostrou que 147 tags (pontos) com quase 500 alarmes configurados foram suprimidos, mas ainda geravam ocorrências invisíveis em grande número. Os operadores, ao longo do tempo, eliminaram muitos alarmes incômodos, mas de uma maneira descontrolada que também incluiu a supressão de alguns alarmes importantes. Esta NÃO é a maneira de resolver um problema de alarmes! A situação também revelou uma disciplina operacional ruim e um mau gerenciamento de mudanças do sistema de controle. A resposta é que a racionalização deve ser aplicada a este sistema. Todos os alarmes necessários devem ser desativados e os controles de engenharia devem ser aplicados à prática da supressão de alarmes.

As médias das taxas de alarmes podem ser enganosas e não contam toda a história. As inundações de alarmes são períodos de altas taxas de alarmes – mais de 10 alarmes em 10 minutos. Durante uma inundação grave, o sistema de alarme torna-se inútil; uma distração incômoda que pode impedir a capacidade do operador de enfrentar um problema. As inundações de alarmes precederam muitos acidentes graves. Aqui está uma análise simples de alarmes por 10 minutos.


 
A faixa verde na parte inferior é “10”. Na verdade, você deve ter apenas alguns picos acima disso. Porém, esses dados são de um sistema que esteve em alerta durante 96% do tempo (o que é mais comum do que você pensa). Imagine que você é o operador tentando resolver um problema importante no processo. No entanto, o sistema de alarme dispara a cada poucos segundos, algumas vezes em rajadas de dezenas de alarmes. Você gostaria de desligar tudo. Esta não é uma ferramenta eficaz para ajudá-lo a colocar o processo de volta nos trilhos.

O Manual de Gerenciamento de Alarmes cobre essas análises e muito mais, como:

  • Alarmes mais frequentes
  • Alarmes obsoletos (que estão em vigor continuamente há dias ou semanas) Distribuição de prioridades de alarmes (em comparação com as melhores práticas)
  • Análise de inundação de alarmes (duração e quantidade)
  • Detalhamento por tipo de alarme (alarmes de valor de processos, alarmes de mau funcionamento do instrumento etc.)
  • Alarmes correlacionados (que sempre ocorrem próximos uns dos outros)
  • Mudanças na configuração de alarmes (que deveriam ter sido feitas e documentadas nos procedimentos de Gerenciamento de Mudanças (MOC). Muitas surpresas encontradas aqui!)

Os padrões de gerenciamento de alarmes ISA 18.2 e IEC26282 contêm a seguinte tabela de métricas recomendadas. É obrigatório monitorar o desempenho do seu sistema de alarme, mas você pode determinar seus próprios indicadores-chave de desempenho. A tabela é precedida por esta advertência: as métricas alvo descritas abaixo são aproximadas e dependem de muitos fatores (por exemplo, tipo de processo, habilidade do operador, interface homem-máquina (HMI), nível de automação, ambiente operacional, tipos e importância dos alarmes gerados). Os números máximos aceitáveis podem ser significativamente inferiores ou talvez ligeiramente superiores, dependendo destes fatores. A taxa de alarme por si só não é um indicador de aceitabilidade.

Vamos considerar algumas análises menos conhecidas, mas úteis. Os sistemas de controle registram muito mais do que apenas alarmes. Eles registram diversas ações do operador. Se você tem o software de gerenciamento de alarmes da Hexagon, há muitas outras coisas úteis que você pode analisar e reportar automaticamente. Eles podem fornecer informações sobre os desafios enfrentados pelos seus operadores.

Análise do modo de controlador: os controladores de processos têm vários modos, sendo o mais comum “em AUTOMÁTICO” ou “em MANUAL”. Você gastou dinheiro para instalar um controlador porque queria que ele funcionasse no modo AUTOMÁTICO. Uma análise de modo pode mostrar qual porcentagem de tempo cada controlador está nos seus diferentes modos. Você provavelmente encontrará dezenas que são executados no modo MANUAL na maioria das vezes! Por quê? Porque eles funcionam melhor em MANUAL do que em AUTOMÁTICO (muitas vezes é verdade), ou os operadores ACHAM que sim! De qualquer maneira, você acabou de encontrar uma fonte rica de melhorias baratas. Faça esses controladores funcionarem!

Esta tabela representa mudanças no modo do controlador para uma única posição de operação durante uma semana.