Análisis del árbol de fallos - Fault tree analysis

Un diagrama de árbol de fallas

El análisis de árbol de fallas ( FTA ) es un análisis de fallas deductivo de arriba hacia abajo en el que se analiza un estado no deseado de un sistema utilizando lógica booleana para combinar una serie de eventos de nivel inferior. Este método de análisis se utiliza principalmente en ingeniería de seguridad e ingeniería de confiabilidad para comprender cómo pueden fallar los sistemas, identificar las mejores formas de reducir el riesgo y determinar (o tener una idea de) las tasas de eventos de un accidente de seguridad o un nivel de sistema particular (funcional ) falla. El FTA se utiliza en las industrias aeroespacial , nuclear , química y de procesos , farmacéutica , petroquímica y otras industrias de alto riesgo; pero también se utiliza en campos tan diversos como la identificación de factores de riesgo relacionados con la falla del sistema de servicios sociales . FTA también se utiliza en ingeniería de software con fines de depuración y está estrechamente relacionado con la técnica de eliminación de causas utilizada para detectar errores.

En la industria aeroespacial, el término más general "condición de falla del sistema" se usa para el "estado no deseado" / evento superior del árbol de fallas. Estas condiciones se clasifican según la gravedad de sus efectos. Las condiciones más severas requieren el análisis de árbol de fallas más extenso. Estas condiciones de falla del sistema y su clasificación a menudo se determinan previamente en el análisis de peligros funcionales .

Uso

El análisis del árbol de fallas se puede utilizar para:

  • comprender la lógica que conduce al evento superior / estado no deseado.
  • demostrar el cumplimiento de los requisitos de seguridad / fiabilidad del sistema (de entrada).
  • priorizar los contribuyentes que conducen al evento principal: crear las listas de equipos / piezas / eventos críticos para diferentes medidas de importancia
  • monitorear y controlar el desempeño de seguridad del sistema complejo (por ejemplo, ¿es seguro volar una aeronave en particular cuando la válvula de combustible x falla? ¿Por cuánto tiempo se permite volar con la válvula defectuosa?).
  • minimizar y optimizar los recursos.
  • ayudar en el diseño de un sistema. El FTA se puede utilizar como una herramienta de diseño que ayuda a crear requisitos (de salida / nivel inferior).
  • funciona como una herramienta de diagnóstico para identificar y corregir las causas del evento principal. Puede ayudar con la creación de manuales / procesos de diagnóstico.

Historia

El análisis de árbol de fallas (FTA) fue desarrollado originalmente en 1962 en Bell Laboratories por HA Watson, bajo un contrato de la División de Sistemas de Balística de la Fuerza Aérea de EE. UU. Para evaluar el Sistema de Control de Lanzamiento de Misiles Balísticos Intercontinentales (ICBM) Minuteman I. Desde entonces, el uso de árboles de fallas ha ganado un amplio apoyo y, a menudo, los expertos en confiabilidad lo utilizan como una herramienta de análisis de fallas. Después del primer uso publicado de FTA en el Estudio de seguridad de control de lanzamiento Minuteman I de 1962, Boeing y AVCO expandieron el uso de FTA a todo el sistema Minuteman II en 1963-1964. FTA recibió una amplia cobertura en un Simposio de seguridad del sistema de 1965 en Seattle patrocinado por Boeing y la Universidad de Washington . Boeing comenzó a utilizar FTA para el diseño de aeronaves civiles alrededor de 1966.

Posteriormente, dentro del ejército de los EE. UU., Picatinny Arsenal exploró la aplicación del TLC para su uso con fusibles en las décadas de 1960 y 1970. En 1976, el Comando de Material del Ejército de EE. UU. Incorporó FTA en un Manual de diseño de ingeniería sobre diseño para la confiabilidad. El Centro de Análisis de Confiabilidad en el Laboratorio de Roma y sus organizaciones sucesoras ahora con el Centro de Información Técnica de Defensa ( Centro de Análisis de Información de Confiabilidad, y ahora Centro de Análisis de Información de Sistemas de Defensa) han publicado documentos sobre FTA y diagramas de bloques de confiabilidad desde la década de 1960. MIL-HDBK-338B proporciona una referencia más reciente.

En 1970, la Administración Federal de Aviación (FAA) publicó un cambio a 14 CFR 25.1309 aeronavegabilidad regulaciones para la categoría de transporte de aeronaves en el Registro Federal en 35 FR 5665 (04/08/1970). Este cambio adoptó criterios de probabilidad de falla para sistemas y equipos de aeronaves y llevó a un uso generalizado de FTA en la aviación civil. En 1998, la FAA publicó la Orden 8040.4, que establece una política de gestión de riesgos que incluye el análisis de peligros en una variedad de actividades críticas más allá de la certificación de aeronaves, incluido el control del tráfico aéreo y la modernización del Sistema Nacional de Espacio Aéreo de EE . UU . Esto llevó a la publicación del Manual de seguridad del sistema de la FAA, que describe el uso de FTA en varios tipos de análisis de peligros formales.

Al principio del programa Apolo, se hizo la pregunta sobre la probabilidad de enviar astronautas a la Luna y devolverlos sanos y salvos a la Tierra. Se realizó un cálculo de riesgo o confiabilidad de algún tipo y el resultado fue una probabilidad de éxito de la misión inaceptablemente baja. Este resultado desanimó a la NASA de realizar más análisis cuantitativos de riesgo o confiabilidad hasta después del accidente del Challenger en 1986. En cambio, la NASA decidió confiar en el uso del análisis de modos y efectos de falla (FMEA) y otros métodos cualitativos para las evaluaciones de seguridad del sistema. Después del accidente del Challenger , se dio cuenta de la importancia de la evaluación probabilística de riesgos (PRA) y FTA en el análisis de riesgo y confiabilidad de sistemas y su uso en la NASA ha comenzado a crecer y ahora FTA se considera como una de las técnicas de análisis de confiabilidad y seguridad de sistemas más importantes. .

Dentro de la industria de la energía nuclear, la Comisión Reguladora Nuclear de EE. UU. Comenzó a utilizar métodos de PRA, incluido el FTA, en 1975, y amplió significativamente la investigación de PRA después del incidente de 1979 en Three Mile Island . Esto eventualmente condujo a la publicación en 1981 del Manual NRC Fault Tree Handbook NUREG-0492, y al uso obligatorio de PRA bajo la autoridad reguladora de la NRC.

Después de desastres en la industria de procesos como el desastre de Bhopal en 1984 y la explosión de Piper Alpha en 1988 , en 1992 la Administración de Salud y Seguridad Ocupacional del Departamento de Trabajo de los Estados Unidos (OSHA) publicó en el Registro Federal en 57 FR 6356 (1992-02-24) su Proceso Estándar de gestión de seguridad (PSM) en 19 CFR 1910.119. OSHA PSM reconoce a FTA como un método aceptable para el análisis de riesgos de proceso (PHA).

En la actualidad, FTA se utiliza ampliamente en la ingeniería de confiabilidad y seguridad de sistemas , y en todos los campos principales de la ingeniería.

Metodología

La metodología FTA se describe en varias normas de la industria y el gobierno, incluida la NRC NUREG-0492 para la industria de la energía nuclear, una revisión de NUREG- 0492 orientada a la industria aeroespacial para su uso por la NASA , SAE ARP4761 para la industria aeroespacial civil, MIL-HDBK-338 para sistemas militares , IEC norma IEC 61025 es para uso entre la industria y ha sido adoptado como norma europea eN 61025.

Cualquier sistema suficientemente complejo está sujeto a fallas como resultado de la falla de uno o más subsistemas. Sin embargo, la probabilidad de falla a menudo se puede reducir mediante un diseño mejorado del sistema. El análisis del árbol de fallas mapea la relación entre fallas, subsistemas y elementos de diseño de seguridad redundantes mediante la creación de un diagrama lógico del sistema general.

El resultado no deseado se toma como la raíz ('evento superior') de un árbol de lógica. Por ejemplo, el resultado no deseado de una operación de prensa de estampado de metal es el estampado de un apéndice humano. Trabajando hacia atrás desde este evento superior, podríamos determinar que hay dos formas en que esto podría suceder: durante el funcionamiento normal o durante el funcionamiento de mantenimiento. Esta condición es un OR lógico. Teniendo en cuenta la rama de que ocurre durante la operación normal, quizás determinamos que hay dos formas en que esto podría suceder: la prensa cicla y daña al operador o la prensa cicla y daña a otra persona. Este es otro OR lógico. Podemos realizar una mejora en el diseño si se requiere que el operador presione dos botones para realizar un ciclo de la máquina; esta es una característica de seguridad en forma de un Y lógico. El botón puede tener una tasa de falla intrínseca; esto se convierte en un estímulo de falla que podemos analizar. Cuando los árboles de fallas se etiquetan con números reales de probabilidades de fallas, los programas de computadora pueden calcular las probabilidades de fallas a partir de árboles de fallas. Cuando se encuentra que un evento específico tiene más de un evento de efecto, es decir, tiene un impacto en varios subsistemas, se denomina causa común o modo común. Hablando gráficamente, significa que este evento aparecerá en varios lugares del árbol. Las causas comunes introducen relaciones de dependencia entre eventos. Los cálculos de probabilidad de un árbol que contiene algunas causas comunes son mucho más complicados que los árboles regulares donde todos los eventos se consideran independientes. No todas las herramientas de software disponibles en el mercado ofrecen tal capacidad.

El árbol generalmente se escribe usando símbolos de puerta lógica convencionales . Un conjunto de cortes es una combinación de eventos, generalmente fallas de componentes, que causan el evento superior. Si no se puede eliminar ningún evento de un conjunto de cortes sin que no se produzca el evento superior, se denomina conjunto de cortes mínimo.

Algunas industrias usan árboles de fallas y árboles de eventos (consulte Evaluación probabilística de riesgos ). Un árbol de eventos comienza con un iniciador no deseado (pérdida de suministro crítico, falla de componentes, etc.) y sigue posibles eventos adicionales del sistema hasta una serie de consecuencias finales. A medida que se considera cada nuevo evento, se agrega un nuevo nodo en el árbol con una división de probabilidades de tomar cualquiera de las ramas. Entonces se pueden ver las probabilidades de una variedad de 'eventos principales' que surgen del evento inicial.

Programas clásicos incluyen el Electric Power Research Institute '(EPRI) de software s CAFTA, que es utilizado por muchas de las centrales nucleares de Estados Unidos y por la mayoría de fabricantes aeroespaciales estadounidenses e internacionales, y el Laboratorio Nacional de Idaho ' s SAPHIRE , que se utiliza por el gobierno de los Estados Unidos para evaluar la seguridad y confiabilidad de los reactores nucleares , el Transbordador Espacial y la Estación Espacial Internacional . Fuera de los EE. UU., El software RiskSpectrum es una herramienta popular para el análisis de árbol de fallas y árbol de eventos, y tiene licencia para su uso en casi la mitad de las plantas de energía nuclear del mundo para la evaluación probabilística de seguridad. El software gratuito de nivel profesional también está ampliamente disponible; SCRAM es una herramienta de código abierto que implementa el estándar abierto Open-PSA Model Exchange Format para aplicaciones de evaluación de seguridad probabilística.

Símbolos gráficos

Los símbolos básicos utilizados en FTA se agrupan como eventos, puertas y símbolos de transferencia. Se pueden utilizar variaciones menores en el software FTA.

Símbolos de eventos

Los símbolos de eventos se utilizan para eventos primarios e intermedios . Los eventos primarios no se desarrollan más en el árbol de fallas. Los eventos intermedios se encuentran en la salida de una puerta. Los símbolos del evento se muestran a continuación:

Los símbolos de eventos primarios se utilizan normalmente de la siguiente manera:

  • Evento básico : falla o error en un componente o elemento del sistema (ejemplo: interruptor atascado en posición abierta)
  • Evento externo : normalmente se espera que ocurra (no es en sí mismo una falla)
  • Evento no desarrollado : un evento sobre el que no se dispone de suficiente información o que no tiene consecuencias.
  • Acondicionamiento de eventos : condiciones que restringen o afectan las puertas lógicas (ejemplo: modo de funcionamiento en vigor)

Se puede usar una puerta de evento intermedia inmediatamente encima de un evento principal para proporcionar más espacio para escribir la descripción del evento.

FTA es un enfoque de arriba hacia abajo.

Símbolos de puerta

Los símbolos de puerta describen la relación entre eventos de entrada y salida. Los símbolos se derivan de los símbolos lógicos booleanos:

Las puertas funcionan de la siguiente manera:

  • Puerta OR : la salida se produce si se produce alguna entrada.
  • Puerta Y : la salida se produce solo si se producen todas las entradas (las entradas son independientes).
  • Puerta OR exclusiva : la salida se produce si se produce exactamente una entrada.
  • Puerta Y de prioridad : la salida ocurre si las entradas ocurren en una secuencia específica especificada por un evento de acondicionamiento.
  • Puerta de inhibición : la salida se produce si la entrada se produce en una condición de habilitación especificada por un evento de acondicionamiento.

Transferencia de símbolos

Los símbolos de transferencia se utilizan para conectar las entradas y salidas de árboles de fallas relacionados, como el árbol de fallas de un subsistema a su sistema. La NASA preparó un documento completo sobre FTA a través de incidentes prácticos.

Fundamento matemático básico

Los eventos en un árbol de fallas están asociados con probabilidades estadísticas o tasas constantes distribuidas exponencialmente de Poisson. Por ejemplo, las fallas de los componentes pueden ocurrir típicamente con una tasa de fallas constante λ (una función de riesgo constante). En este caso más simple, la probabilidad de falla depende de la tasa λ y el tiempo de exposición t:

P = 1 - exp (-λt)

dónde:

P ≈ λt si λt <0,001

Un árbol de fallas a menudo se normaliza a un intervalo de tiempo dado, como una hora de vuelo o un tiempo promedio de misión. Las probabilidades del evento dependen de la relación de la función de riesgo del evento con este intervalo.

A diferencia de los diagramas de puertas lógicas convencionales en los que las entradas y salidas contienen los valores binarios de VERDADERO (1) o FALSO (0), las puertas de un árbol de fallas generan probabilidades relacionadas con las operaciones establecidas de la lógica booleana . La probabilidad del evento de salida de una puerta depende de las probabilidades del evento de entrada.

Una puerta AND representa una combinación de eventos independientes . Es decir, la probabilidad de cualquier evento de entrada a una puerta AND no se ve afectada por ningún otro evento de entrada a la misma puerta. En términos teóricos de conjuntos , esto es equivalente a la intersección de los conjuntos de eventos de entrada, y la probabilidad de la salida de la puerta AND viene dada por:

P (A y B) = P (A ∩ B) = P (A) P (B)

Una puerta OR, por otro lado, corresponde a la unión de conjuntos:

P (A o B) = P (A ∪ B) = P (A) + P (B) - P (A ∩ B)

Dado que las probabilidades de falla en los árboles de fallas tienden a ser pequeñas (menos de .01), P (A ∩ B) generalmente se convierte en un término de error muy pequeño, y la salida de una puerta OR puede aproximarse de manera conservadora al suponer que las entradas son eventos mutuamente excluyentes :

P (A o B) ≈ P (A) + P (B), P (A ∩ B) ≈ 0

Una puerta OR exclusiva con dos entradas representa la probabilidad de que ocurra una u otra entrada, pero no ambas:

P (A xor B) = P (A) + P (B) - 2P (A ∩ B)

Nuevamente, dado que P (A ∩ B) generalmente se convierte en un término de error muy pequeño, la puerta OR exclusiva tiene un valor limitado en un árbol de fallas.

Muy a menudo, las tasas distribuidas exponencialmente de Poisson se utilizan para cuantificar un árbol de fallas en lugar de probabilidades. Las tasas a menudo se modelan como constantes en el tiempo, mientras que la probabilidad es una función del tiempo. Los eventos exponenciales de Poisson se modelan como infinitamente cortos, por lo que no se pueden superponer dos eventos. Una puerta OR es la superposición (adición de tasas) de las dos frecuencias de falla de entrada o tasas de falla que se modelan como procesos de punto de Poisson . La salida de una puerta AND se calcula utilizando la indisponibilidad (Q 1 ) de un evento que adelgaza el proceso del punto de Poisson del otro evento (λ 2 ). La indisponibilidad (Q 2 ) del otro evento adelgaza el proceso de punto de Poisson del primer evento (λ 1 ). Los dos procesos de puntos de Poisson resultantes se superponen de acuerdo con las siguientes ecuaciones.

La salida de una puerta AND es la combinación de eventos de entrada independientes 1 y 2 a la puerta AND:

Frecuencia de falla = λ 1 Q 2 + λ 2 Q 1 donde Q = 1 - e λt ≈ λt si λt <0.001
Frecuencia de falla ≈ λ 1 λ 2 t 2 + λ 2 λ 1 t 1 si λ 1 t 1 <0.001 y λ 2 t 2 <0.001

En un árbol de fallas, la indisponibilidad (Q) puede definirse como la indisponibilidad de una operación segura y puede no referirse a la indisponibilidad de la operación del sistema, dependiendo de cómo se estructuró el árbol de fallas. Los términos de entrada al árbol de fallas deben definirse cuidadosamente.

Análisis

Se pueden utilizar muchos enfoques diferentes para modelar un TLC, pero la forma más común y popular se puede resumir en unos pocos pasos. Se utiliza un único árbol de fallas para analizar uno y solo un evento no deseado, que posteriormente se puede alimentar a otro árbol de fallas como un evento básico. Aunque la naturaleza del evento no deseado puede variar dramáticamente, un TLC sigue el mismo procedimiento para cualquier evento no deseado; ya sea una demora de 0,25 ms para la generación de energía eléctrica, un incendio en una bahía de carga no detectado o el lanzamiento aleatorio e involuntario de un misil balístico intercontinental .

El análisis de FTA implica cinco pasos:

  1. Defina el evento no deseado a estudiar.
    • La definición del evento no deseado puede ser muy difícil de descubrir, aunque algunos de los eventos son muy fáciles y obvios de observar. Un ingeniero con un amplio conocimiento del diseño del sistema es la mejor persona para ayudar a definir y numerar los eventos no deseados. Los eventos no deseados se utilizan entonces para hacer TLC. Cada FTA se limita a un evento no deseado.
  2. Obtenga una comprensión del sistema.
    • Una vez seleccionado el evento no deseado, se estudian y analizan todas las causas con probabilidades de afectar el evento no deseado de 0 o más. Por lo general, es imposible obtener números exactos para las probabilidades que conducen al evento debido a que puede resultar muy costoso y llevar mucho tiempo. Se utilizan programas informáticos para estudiar probabilidades; esto puede conducir a un análisis del sistema menos costoso.
      Los analistas de sistemas pueden ayudar a comprender el sistema en general. Los diseñadores del sistema tienen pleno conocimiento del sistema y este conocimiento es muy importante para no perder ninguna causa que afecte al evento no deseado. Para el evento seleccionado, todas las causas se numeran y secuencian en el orden de ocurrencia y luego se utilizan para el siguiente paso que es dibujar o construir el árbol de fallas.
  3. Construya el árbol de fallas.
    • Después de seleccionar el evento no deseado y de haber analizado el sistema para conocer todos los efectos causantes (y si es posible sus probabilidades), ahora podemos construir el árbol de fallas. El árbol de fallas se basa en puertas Y y O que definen las principales características del árbol de fallas.
  4. Evalúe el árbol de fallas.
    • Una vez que el árbol de fallas se ha ensamblado para un evento no deseado específico, se evalúa y analiza para detectar cualquier posible mejora o, en otras palabras, estudiar la gestión de riesgos y encontrar formas de mejorar el sistema. Se puede aplicar una amplia gama de métodos de análisis cualitativos y cuantitativos. Este paso es una introducción para el paso final que será controlar los peligros identificados. En definitiva, en este paso identificamos todos los posibles peligros que afectan al sistema de forma directa o indirecta.
  5. Controle los peligros identificados.
    • Este paso es muy específico y difiere en gran medida de un sistema a otro, pero el punto principal siempre será que después de identificar los peligros se persiguen todos los métodos posibles para disminuir la probabilidad de que ocurran.

Comparación con otros métodos analíticos

FTA es un método deductivo de arriba hacia abajo destinado a analizar los efectos de iniciar fallas y eventos en un sistema complejo. Esto contrasta con el análisis de modos y efectos de falla (FMEA), que es un método de análisis inductivo de abajo hacia arriba destinado a analizar los efectos de fallas de un solo componente o función en equipos o subsistemas. FTA es muy bueno para mostrar cuán resistente es un sistema a fallas iniciales únicas o múltiples. No es bueno para encontrar todas las posibles fallas iniciales. FMEA es bueno para catalogar exhaustivamente las fallas iniciadoras e identificar sus efectos locales. No es bueno para examinar múltiples fallas o sus efectos a nivel de sistema. FTA considera eventos externos, FMEA no. En la industria aeroespacial civil, la práctica habitual es realizar tanto FTA como FMEA, con un resumen de efectos de modo de falla (FMES) como interfaz entre FMEA y FTA.

Las alternativas al FTA incluyen el diagrama de dependencia (DD), también conocido como diagrama de bloques de confiabilidad (RBD) y el análisis de Markov . Un diagrama de dependencia es equivalente a un análisis de árbol de éxito (STA), el inverso lógico de un FTA, y describe el sistema utilizando rutas en lugar de puertas. DD y STA producen probabilidad de éxito (es decir, evitar un evento superior) en lugar de probabilidad de un evento superior.

Ver también

Referencias