Función de activación - Activation function
En las redes neuronales artificiales , la función de activación de un nodo define la salida de ese nodo dada una entrada o un conjunto de entradas. Un circuito integrado estándar puede verse como una red digital de funciones de activación que pueden ser "ON" (1) u "OFF" (0), dependiendo de la entrada. Esto es similar al perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que tales redes calculen problemas no triviales usando solo una pequeña cantidad de nodos, y tales funciones de activación se denominan no linealidades .
Clasificación de funciones de activación
Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta , funciones radiales y funciones de plegado .
Funciones de activación de la cresta
Las funciones de cresta son funciones multivariadas que actúan sobre una combinación lineal de las variables de entrada. Los ejemplos que se utilizan con frecuencia incluyen:
En las redes neuronales de inspiración biológica , la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. En su forma más simple, esta función es binaria , es decir, la neurona está disparando o no. La función se parece a , donde está la función de paso de Heaviside .
Se puede usar una línea de pendiente positiva para reflejar el aumento en la tasa de disparo que ocurre a medida que aumenta la corriente de entrada. Tal función sería de la forma .
Las neuronas tampoco pueden disparar más rápido que una cierta velocidad, lo que motiva las funciones de activación sigmoidea cuyo rango es un intervalo finito.
Funciones de activación radial
Una clase especial de funciones de activación conocidas como funciones de base radial (RBF) se utilizan en redes RBF , que son extremadamente eficientes como aproximadores de funciones universales. Estas funciones de activación pueden adoptar muchas formas, como:
- Gaussiano :
- Multicuadráticas:
donde es el vector que representa el centro de la función y y son parámetros que afectan la extensión del radio.
Funciones de activación plegables
Las funciones de activación plegable se utilizan ampliamente en las capas de agrupación en redes neuronales convolucionales y en las capas de salida de las redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como tomar la media , mínima o máxima . En la clasificación multiclase, a menudo se utiliza la activación softmax .
Comparación de funciones de activación
Existen numerosas funciones de activación. El artículo seminal de 2012 de Hinton et al. Sobre el reconocimiento automático de voz utiliza una función logística de activación sigmoidea. La arquitectura seminal de visión por computadora AlexNet de 2012 utiliza la función de activación ReLU, al igual que la arquitectura de visión por computadora de 2015, ResNet . El modelo de procesamiento de lenguaje seminal de 2018 BERT utiliza una versión fluida de ReLU, GELU.
Aparte de su desempeño empírico, las funciones de activación también tienen diferentes propiedades matemáticas:
- No lineal
- Cuando la función de activación no es lineal, se puede demostrar que una red neuronal de dos capas es un aproximador de función universal. Esto se conoce como el teorema de aproximación universal . La función de activación de identidad no satisface esta propiedad. Cuando varias capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
- Distancia
- Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones de patrones afectan significativamente solo pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones de patrones afectan significativamente a la mayoría de los pesos. En el último caso, normalmente se necesitan tasas de aprendizaje más pequeñas .
- Continuamente diferenciable
- Esta propiedad es deseable ( ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en gradientes, pero aún es posible) para habilitar métodos de optimización basados en gradientes. La función de activación de pasos binarios no es diferenciable en 0, y se diferencia en 0 para todos los demás valores, por lo que los métodos basados en gradientes no pueden progresar con ella.
Equivalencia de signos a la función de identidad
Se dice que dos funciones de valor real f y g son equivalentes en signo si para todos los valores de z en el dominio. Donde signo es la función signum . Las funciones de activación como tanh, Leaky ReLU, GELU, ELU, Swish y Mish son equivalentes en signo a la función de identidad y no pueden aprender la función XOR con una sola neurona. La salida de una sola neurona o su activación es , donde g es la función de activación. El límite de decisión para una sola neurona es el conjunto de puntos que provocan una salida de cero. Por lo tanto, el límite de decisión para una neurona que utiliza cualquiera de las funciones de activación equivalentes al signo de la función de identidad es un hiperplano único. Sin embargo, las funciones de activación oscilatoria pueden tener muchos ceros y, por lo tanto, una sola neurona puede tener múltiples hiperplanos como parte de su límite de decisión. Aunque se necesitan redes multicapa para lograr límites de decisión no lineales, el uso de funciones de activación oscilatoria permite que incluso neuronas individuales muestren límites de decisión no lineales.
Estas propiedades no influyen de manera decisiva en el rendimiento, ni son las únicas propiedades matemáticas que pueden ser útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir variaciones en codificadores automáticos variacionales .
Tabla de funciones de activación
La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue x de la capa o capas anteriores:
Nombre | Trama | Función, | Derivado de , | Distancia | Orden de continuidad |
---|---|---|---|---|---|
Identidad | |||||
Paso binario | |||||
Paso logístico , sigmoide o suave | |||||
Tangente hiperbólica ( tanh ) | |||||
Unidad lineal rectificada (ReLU) | |||||
Unidad lineal de error gaussiano (GELU) | |||||
Softplus | |||||
Unidad lineal exponencial (ELU) |
|
||||
Unidad lineal exponencial escalada (SELU) |
|
||||
Unidad lineal rectificada con fugas (Leaky ReLU) | |||||
Unidad lineal rectificada paramétrica (PReLU) |
|
||||
Unidad lineal sigmoidea (SiLU, contracción sigmoidea, SiL o Swish-1) | |||||
Mish | |||||
Gaussiano |
La siguiente tabla enumera las funciones de activación que no son funciones de un solo pliegue x de la capa o capas anteriores:
Nombre | Ecuación, | Derivados , | Distancia | Orden de continuidad |
---|---|---|---|---|
Softmax | para i = 1,…, J | |||
Máximo fuera |
- ^ Aquíestá eldelta de Kronecker.
- ^ Por ejemplo,podría estar iterando a través del número de núcleos de la capa de red neuronal anterior mientrasitera a través del número de núcleos de la capa actual.
Ver también
- Función logística
- Rectificador (redes neuronales)
- Estabilidad (teoría del aprendizaje)
- Función Softmax