Skip to main content

Operations & Maintenance

Domando o sistema de alarmes selvagens, Parte 4

Até que ponto o seu sistema de alarme é ruim?


13 de setembro de 2022    
Bill Hollifield

 

E como você pode saber isso? A análise de alarmes tornou-se uma atividade comum. Você tem que analisar algo para melhorá-lo. Há muitas análises que fornecem excelentes informações para melhorar seu sistema de alarme. No entanto, qual é a mais importante? Tudo é uma questão da TAXA de alarmes. Quantos alarmes estão sendo gerados, em quanto tempo, e o operador que os recebe consegue gerenciar esse número?

Observar a taxa de alarmes é algo independente do tipo de processo que está sendo controlado. Não importa se você está produzindo gasolina, aspirina ou megawatts. Todos os processos envolvem um operador monitorando e controlando fatores como vazão, temperatura, pressão, composição etc. Todas as análises de taxa de alarmes são normalizadas observando os alarmes apresentados a um único ser humano – o operador responsável por lidar com eles.

Este operador é “um único ser humano de cada vez”. Por exemplo, observar os alarmes por dia para um processo de dotação contínua de pessoal envolverá dois ou três seres humanos em sequência, dependendo se há dois turnos ou três no período de 24 horas. Chamamos essa combinação de dotação de pessoal de “posição operacional”. É comum que um processo possa ter mais de uma posição operacional, com diferentes operadores controlando partes distintas do processo e realizando a coordenação quando necessário. No entanto, uma melhor prática é que cada operador receba apenas os alarmes relevantes para o seu escopo de responsabilidade de controle.

Todos os alarmes são uma fonte de interação homem-máquina. O ser humano deve detectar o alarme, entendê-lo, examinar o processo para compreender por que ele está ocorrendo, determinar a resposta correta, tomar essa ação e continuar monitorando o processo para ver se a ação escolhida foi bem-sucedida. Essa sequência leva tempo e reflexão.

Obviamente, um operador pode realizar essas etapas se a taxa de alarmes for de um alarme por hora. Igualmente óbvio, um operador não consegue lidar com um alarme por segundo (mas normalmente vemos taxas de alarmes muito superiores a um por segundo!). Lembre-se, um alarme envolve uma condição anormal que requer a ação do operador para evitar uma consequência. Se um operador perder ou não conseguir “abordar” um alarme a tempo, a consequência relacionada ocorrerá.

A melhor medida geral, que conta a história do desempenho atual do seu alarme para operadores, engenheiros e gerentes, é o número de alarmes por dia para uma única posição operacional. Aqui está um gráfico típico dessa situação. Pelo menos um mês de dados cria um bom gráfico. Todos os dados exibidos são provenientes da análise de sistemas de alarme de clientes:

Este gráfico é muito típico para um sistema não aprimorado. Na verdade, ele é cerca de cinco vezes MENOS do que a maioria desses sistemas. Infelizmente, taxas de 10.000 a 20.000 alarmes por dia são comuns.

As linhas alvo na parte inferior para 150 e 300 alarmes por dia são baseadas em diretrizes estabelecidas há muito tempo para taxas diárias de alarmes “aceitáveis” e “máximas gerenciáveis” para um único operador gerenciando um processo típico. Em uma base horária, isso seria entre seis e 12 horas. Algumas pessoas consideram que esta é uma taxa muito baixa para se almejar, mas pense nisso. Você ficaria feliz se o seu sistema de controle estivesse funcionando tão mal que a cada cinco minutos o operador tivesse que ser interrompido, analisar uma situação e tomar uma ação que evitasse algum tipo de consequência significativa? Você ficaria feliz se eles fizessem isso continuamente, em vez de realizar tarefas muito mais úteis, como monitorar e ajustar o processo para eliminar os últimos pontos de eficiência e lucratividade?

Sistemas de alarmes não melhorados estão repletos de alarmes incômodos e outros lixos, que causam essas taxas elevadas. Os alarmes incômodos podem ser resolvidos (consulte os blogs anteriores com links no final deste) e a racionalização dos alarmes elimina o lixo (assunto de um blog posterior). Um bom método para justificar um projeto de melhoria de alarmes é pegar o gráfico acima e discuti-lo desta forma: quantos alarmes provavelmente foram perdidos pela operadora na semana passada devido a essas altas taxas? Quais são as probabilidades de o operador ter visto e respondido a todos os “alarmes realmente importantes” e apenas ter ignorado os menos importantes? Esperar e desejar isso não é uma boa estratégia para o sucesso ou a segurança.

Aqui está um exemplo de como algumas análises podem revelar vários aspectos ruins ao mesmo tempo. Alguns antecedentes: uma marca popular de Sistema de Controle Distribuído (DCS) permite ao operador suprimir um alarme configurado. Isso pode ser realizado de forma que quaisquer ocorrências de alarmes ainda sejam salvas no log (que é a fonte dos dados de análise), mas essas ocorrências NÃO gerem um alarme anunciado ao operador. O método para usar essa supressão geralmente é descontrolado e não há um bom rastreamento ou visibilidade sobre quais alarmes são suprimidos ou por quanto tempo. Então, observe este gráfico:

 

Os alarmes anunciados vistos pelos operadores (linha azul) estão majoritariamente abaixo dos intervalos desejados inferiores a 300. Se você somente traçasse ou observasse essa taxa de alarmes, pensaria que não havia problema algum. Porém, a taxa real era muito maior. Uma análise separada mostrou que 147 tags (pontos) com quase 500 alarmes configurados foram suprimidos, mas ainda geravam ocorrências invisíveis em grande número. Os operadores, ao longo do tempo, eliminaram muitos alarmes incômodos, mas de uma maneira descontrolada que também incluiu a supressão de alguns alarmes importantes. Esta NÃO é a maneira de resolver um problema de alarmes! A situação também revelou uma disciplina operacional ruim e um mau gerenciamento de mudanças do sistema de controle. A resposta é que a racionalização deve ser aplicada a este sistema. Todos os alarmes necessários devem ser desativados e os controles de engenharia devem ser aplicados à prática da supressão de alarmes.

As médias das taxas de alarmes podem ser enganosas e não contam toda a história. As inundações de alarmes são períodos de altas taxas de alarmes – mais de 10 alarmes em 10 minutos. Durante uma inundação grave, o sistema de alarme torna-se inútil; uma distração incômoda que pode impedir a capacidade do operador de enfrentar um problema. As inundações de alarmes precederam muitos acidentes graves. Aqui está uma análise simples de alarmes por 10 minutos.


 
A faixa verde na parte inferior é “10”. Na verdade, você deve ter apenas alguns picos acima disso. Porém, esses dados são de um sistema que esteve em alerta durante 96% do tempo (o que é mais comum do que você pensa). Imagine que você é o operador tentando resolver um problema importante no processo. No entanto, o sistema de alarme dispara a cada poucos segundos, algumas vezes em rajadas de dezenas de alarmes. Você gostaria de desligar tudo. Esta não é uma ferramenta eficaz para ajudá-lo a colocar o processo de volta nos trilhos.

O Manual de Gerenciamento de Alarmes cobre essas análises e muito mais, como:

  • Alarmes mais frequentes
  • Alarmes obsoletos (que estão em vigor continuamente há dias ou semanas) Distribuição de prioridades de alarmes (em comparação com as melhores práticas)
  • Análise de inundação de alarmes (duração e quantidade)
  • Detalhamento por tipo de alarme (alarmes de valor de processos, alarmes de mau funcionamento do instrumento etc.)
  • Alarmes correlacionados (que sempre ocorrem próximos uns dos outros)
  • Mudanças na configuração de alarmes (que deveriam ter sido feitas e documentadas nos procedimentos de Gerenciamento de Mudanças (MOC). Muitas surpresas encontradas aqui!)

Os padrões de gerenciamento de alarmes ISA 18.2 e IEC26282 contêm a seguinte tabela de métricas recomendadas. É obrigatório monitorar o desempenho do seu sistema de alarme, mas você pode determinar seus próprios indicadores-chave de desempenho. A tabela é precedida por esta advertência: as métricas alvo descritas abaixo são aproximadas e dependem de muitos fatores (por exemplo, tipo de processo, habilidade do operador, interface homem-máquina (HMI), nível de automação, ambiente operacional, tipos e importância dos alarmes gerados). Os números máximos aceitáveis podem ser significativamente inferiores ou talvez ligeiramente superiores, dependendo destes fatores. A taxa de alarme por si só não é um indicador de aceitabilidade.

Vamos considerar algumas análises menos conhecidas, mas úteis. Os sistemas de controle registram muito mais do que apenas alarmes. Eles registram diversas ações do operador. Se você tem o software de gerenciamento de alarmes da Hexagon, há muitas outras coisas úteis que você pode analisar e reportar automaticamente. Eles podem fornecer informações sobre os desafios enfrentados pelos seus operadores.

Análise do modo de controlador: os controladores de processos têm vários modos, sendo o mais comum “em AUTOMÁTICO” ou “em MANUAL”. Você gastou dinheiro para instalar um controlador porque queria que ele funcionasse no modo AUTOMÁTICO. Uma análise de modo pode mostrar qual porcentagem de tempo cada controlador está nos seus diferentes modos. Você provavelmente encontrará dezenas que são executados no modo MANUAL na maioria das vezes! Por quê? Porque eles funcionam melhor em MANUAL do que em AUTOMÁTICO (muitas vezes é verdade), ou os operadores ACHAM que sim! De qualquer maneira, você acabou de encontrar uma fonte rica de melhorias baratas. Faça esses controladores funcionarem!

Esta tabela representa mudanças no modo do controlador para uma única posição de operação durante uma semana.

  


Se “Normal” for apresentado em letras maiúsculas/minúsculas, então MANUAL também deverá ser, ou seja, Manual.

Vários aspectos interessantes são mostrados aqui. Primeiramente, há três controladores que sofreram mais de 100 alterações de modo nos dados da semana. É possível que eles tenham sido projetados para serem operados dessa maneira? Improvável. Na verdade, imagine pedir ao seu melhor engenheiro de controle para projetar um controlador onde a coisa correta a ser feita pelo operador seja alterar seu modo cerca de 100 vezes por semana. Você receberia um olhar estranho em troca. Porém, a análise geralmente encontrará muitos controladores como este.

Os operadores não alteram o modo do controlador sem motivo. Eles não fazem isso apenas por diversão ou para ocupar seu tempo; eles percebem (com ou sem razão) a necessidade de fazer isso. Portanto, esses controladores não estão funcionando conforme projetado.

Eles precisam ser investigados e corrigidos. Caso contrário, você acabou de desperdiçar o investimento para instalá-los.

Análise da ação do operador: Os DCSs capturam todas as interações do operador com o sistema de controle. Alguns deles afetam diretamente o processo e outros não. Os que sempre fazem isso são:

  • Ajustar um ponto de ajuste do controlador
  • Alterar um modo do controlador
  • Controlar diretamente a SAÍDA de um controlador quando colocado em MANUAL
  • Iniciar manualmente um processo de LIGA-DESLIGA ou ação discreta similar (usando um ponto de saída digital)

Estes representam a manipulação direta do processo pelo operador. Agora, todos nós sabemos que você ganha mais dinheiro quando o processo corre bem. Processos estáveis e com desempenho ideal terão baixas taxas de troca de operador. Quantas dessas mudanças seus operadores estão fazendo a cada hora? Você viu? Quando as taxas de mudança de operador tornam-se altas, pode ser que atenção suficiente não esteja sendo dada a cada mudança. Aqui está um exemplo desse gráfico, mostrando 114 dias. Esta posição operacional está provavelmente um pouco sobrecarregada.

 

Depois de eliminar os comportamentos incômodos do alarme (como mudanças rápidas de status) e após a racionalização tiver eliminado o lixo sem sentido, o sistema de alarme consistirá apenas em indicações de situações anormais que exigem uma resposta do operador. Nesse ponto, altas taxas de alarmes válidos mostram que o sistema de controle não consegue manter o processo dentro de limites que não exijam intervenção do operador para evitar consequências. Nesse ponto, a solução para altas taxas de alarme é melhorar o controle do processo, e não mexer no sistema de alarme.

A análise de alarmes é importante. Ela pode direcioná-lo rapidamente para as melhorias que você mais precisa. E com softwares modernos, todos os relatórios resultantes podem ser automatizados facilmente.

Entre em contato conosco para obter mais informações ou se você tiver dúvidas

About the Author

Bill Hollifield is the Hexagon Principal Alarm Management and High Performance HMI consultant, with more than 25 years of experience in the process industry in engineering, operations, and control systems, and an additional 20 years in alarm management consulting and services for the petrochemical, power generation, pipeline, mining, and other industries. He is a member of the ISA-18.2 Alarm Management committee, the ISA SP101 HMI committee, the American Petroleum Institute’s API RP-1167 Alarm Management Recommended Practice committee, and the Engineering Equipment and Materials Users Association (EEMUA) Industry Review Group. In 2014, Bill was named an ISA Fellow for industry contributions in these areas. Bill is also the co-author of The Alarm Management Handbook, First and Second Editions, © PAS 2010 The High Performance HMI Handbook, © PAS 2008, The ISA book: Alarm Management: A Comprehensive Guide, Second Edition, © ISA 2011 and The Electric Power Research Institute (EPRI) guideline on Alarm Management for Power Generation (2008) and Power Transmission (2016). He has authored several papers, articles and ISA technical reports on Alarm Management and High Performance HMI and is a regular presenter on such topics at API, ISA, and Electric Power symposiums. He has a BSME from Louisiana Tech University, an MBA from the University of Houston, and has built his own plane (an RV-12) with a High Performance HMI.

Profile Photo of Bill Hollifield