Función de activación - Activation function

Función de activación logística

En las redes neuronales artificiales , la función de activación de un nodo define la salida de ese nodo dada una entrada o un conjunto de entradas. Un circuito integrado estándar puede verse como una red digital de funciones de activación que pueden ser "ON" (1) u "OFF" (0), dependiendo de la entrada. Esto es similar al perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que tales redes calculen problemas no triviales usando solo una pequeña cantidad de nodos, y tales funciones de activación se denominan no linealidades .

Clasificación de funciones de activación

Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta , funciones radiales y funciones de plegado .

Funciones de activación de la cresta

Las funciones de cresta son funciones multivariadas que actúan sobre una combinación lineal de las variables de entrada. Los ejemplos que se utilizan con frecuencia incluyen:

Linear activación: , ${\ Displaystyle \ phi (\ mathbf {v}) = a + \ mathbf {v} '\ mathbf {b}}$
Relu activación: , ${\ Displaystyle \ phi (\ mathbf {v}) = \ max (0, a + \ mathbf {v} '\ mathbf {b})}$
Heaviside activación: , ${\ Displaystyle \ phi (\ mathbf {v}) = 1_ {a + \ mathbf {v} '\ mathbf {b}> 0}}$
Logística de activación: . ${\ Displaystyle \ phi (\ mathbf {v}) = (1+ \ exp (-a- \ mathbf {v} '\ mathbf {b})) ^ {- 1}}$

En las redes neuronales de inspiración biológica , la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. En su forma más simple, esta función es binaria , es decir, la neurona está disparando o no. La función se parece a , donde está la función de paso de Heaviside . ${\ Displaystyle \ phi (\ mathbf {v}) = U (a + \ mathbf {v} '\ mathbf {b})}$ ${\ Displaystyle U}$

Se puede usar una línea de pendiente positiva para reflejar el aumento en la tasa de disparo que ocurre a medida que aumenta la corriente de entrada. Tal función sería de la forma . ${\ Displaystyle \ phi (\ mathbf {v}) = a + \ mathbf {v} '\ mathbf {b}}$

Funciones de activación de unidad lineal rectificada y unidad lineal de error gaussiano

Las neuronas tampoco pueden disparar más rápido que una cierta velocidad, lo que motiva las funciones de activación sigmoidea cuyo rango es un intervalo finito.

Funciones de activación radial

Una clase especial de funciones de activación conocidas como funciones de base radial (RBF) se utilizan en redes RBF , que son extremadamente eficientes como aproximadores de funciones universales. Estas funciones de activación pueden adoptar muchas formas, como:

Gaussiano : ${\ Displaystyle \, \ phi (\ mathbf {v}) = \ exp \ left (- {\ frac {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2}} {2 \ sigma ^ {2}}} \ right)}$
Multicuadráticas: ${\ Displaystyle \, \ phi (\ mathbf {v}) = {\ sqrt {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2} + a ^ {2}}}}$

donde es el vector que representa el centro de la función y y son parámetros que afectan la extensión del radio. ${\ Displaystyle \ mathbf {c}}$ ${\ Displaystyle a}$ ${\ Displaystyle \ sigma}$

Funciones de activación plegables

Las funciones de activación plegable se utilizan ampliamente en las capas de agrupación en redes neuronales convolucionales y en las capas de salida de las redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como tomar la media , mínima o máxima . En la clasificación multiclase, a menudo se utiliza la activación softmax .

Comparación de funciones de activación

Existen numerosas funciones de activación. El artículo seminal de 2012 de Hinton et al. Sobre el reconocimiento automático de voz utiliza una función logística de activación sigmoidea. La arquitectura seminal de visión por computadora AlexNet de 2012 utiliza la función de activación ReLU, al igual que la arquitectura de visión por computadora de 2015, ResNet . El modelo de procesamiento de lenguaje seminal de 2018 BERT utiliza una versión fluida de ReLU, GELU.

Aparte de su desempeño empírico, las funciones de activación también tienen diferentes propiedades matemáticas:

No lineal: Cuando la función de activación no es lineal, se puede demostrar que una red neuronal de dos capas es un aproximador de función universal. Esto se conoce como el teorema de aproximación universal . La función de activación de identidad no satisface esta propiedad. Cuando varias capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Distancia: Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones de patrones afectan significativamente solo pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones de patrones afectan significativamente a la mayoría de los pesos. En el último caso, normalmente se necesitan tasas de aprendizaje más pequeñas .
Continuamente diferenciable: Esta propiedad es deseable ( ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en gradientes, pero aún es posible) para habilitar métodos de optimización basados en gradientes. La función de activación de pasos binarios no es diferenciable en 0, y se diferencia en 0 para todos los demás valores, por lo que los métodos basados en gradientes no pueden progresar con ella.

Equivalencia de signos a la función de identidad

Se dice que dos funciones de valor real f y g son equivalentes en signo si para todos los valores de z en el dominio. Donde signo es la función signum . Las funciones de activación como tanh, Leaky ReLU, GELU, ELU, Swish y Mish son equivalentes en signo a la función de identidad y no pueden aprender la función XOR con una sola neurona. La salida de una sola neurona o su activación es , donde g es la función de activación. El límite de decisión para una sola neurona es el conjunto de puntos que provocan una salida de cero. Por lo tanto, el límite de decisión para una neurona que utiliza cualquiera de las funciones de activación equivalentes al signo de la función de identidad es un hiperplano único. Sin embargo, las funciones de activación oscilatoria pueden tener muchos ceros y, por lo tanto, una sola neurona puede tener múltiples hiperplanos como parte de su límite de decisión. Aunque se necesitan redes multicapa para lograr límites de decisión no lineales, el uso de funciones de activación oscilatoria permite que incluso neuronas individuales muestren límites de decisión no lineales. ${\ Displaystyle signo (f (z)) = signo (g (z))}$ ${\ Displaystyle a = g (z) = g ({\ boldsymbol {w}} ^ {T} {\ boldsymbol {x}} + b)}$

Estas propiedades no influyen de manera decisiva en el rendimiento, ni son las únicas propiedades matemáticas que pueden ser útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir variaciones en codificadores automáticos variacionales .

Tabla de funciones de activación

La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue $x$ de la capa o capas anteriores:

Nombre	Función, ${\ Displaystyle f (x)}$	Derivado de , ${\ Displaystyle f}$ ${\ Displaystyle f '(x)}$	Distancia	Orden de continuidad
Identidad	${\ Displaystyle x}$	${\ Displaystyle 1}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Paso binario	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x \ neq 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {cases}}}$	${\ Displaystyle \ {0,1 \}}$	${\ Displaystyle C ^ {- 1}}$
Paso logístico , sigmoide o suave	${\ Displaystyle \ sigma (x) = {\ frac {1} {1 + e ^ {- x}}}}$	${\ Displaystyle f (x) (1-f (x))}$	${\ Displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Tangente hiperbólica ( tanh )	${\ Displaystyle \ tanh (x) = {\ frac {e ^ {x} -e ^ {- x}} {e ^ {x} + e ^ {- x}}}}$	${\ Displaystyle 1-f (x) ^ {2}}$	${\ displaystyle (-1,1)}$	${\ Displaystyle C ^ {\ infty}}$
Unidad lineal rectificada (ReLU)	${\ displaystyle {\ begin {align} & {\ begin {cases} 0 & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ end {cases}} \\ { } = {} & \ max \ {0, x \} = x {\ textbf {1}} _ {x> 0} \ end {alineado}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {cases}}}$	${\ Displaystyle [0, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal de error gaussiano (GELU)	${\ Displaystyle {\ begin {alineado} y {\ frac {1} {2}} x \ left (1 + {\ text {erf}} \ left ({\ frac {x} {\ sqrt {2}}} \ right) \ right) \\ {} = {} & x \ Phi (x) \ end {alineado}}}$	${\ Displaystyle \ Phi (x) + x \ phi (x)}$	${\ Displaystyle (-0,17 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Softplus	${\ Displaystyle \ ln \ left (1 + e ^ {x} \ right)}$	${\ Displaystyle {\ frac {1} {1 + e ^ {- x}}}}$	${\ displaystyle (0, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Unidad lineal exponencial (ELU)	${\ Displaystyle {\ begin {cases} \ alpha \ left (e ^ {x} -1 \ right) & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ finalizar {casos}}}$ con parámetro ${\ Displaystyle \ alpha}$	${\ displaystyle {\ begin {cases} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ 1 & {\ text {if}} x = 0 {\ text {y}} \ alpha = 1 \ end {cases}}}$	${\ Displaystyle (- \ alpha, \ infty)}$	${\ displaystyle {\ begin {cases} C ^ {1} & {\ text {if}} \ alpha = 1 \\ C ^ {0} & {\ text {de otro modo}} \ end {cases}}}$
Unidad lineal exponencial escalada (SELU)	${\ displaystyle \ lambda {\ begin {cases} \ alpha (e ^ {x} -1) & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end { casos}}}$ con parámetros y ${\ Displaystyle \ lambda = 1.0507}$ ${\ Displaystyle \ alpha = 1,67326}$	${\ displaystyle \ lambda {\ begin {cases} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ lambda \ alpha, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal rectificada con fugas (Leaky ReLU)	${\ displaystyle {\ begin {cases} 0.01x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0.01 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal rectificada paramétrica (PReLU)	${\ displaystyle {\ begin {cases} \ alpha x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$ con parámetro ${\ Displaystyle \ alpha}$	${\ displaystyle {\ begin {cases} \ alpha & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal sigmoidea (SiLU, contracción sigmoidea, SiL o Swish-‍1)	${\ Displaystyle {\ frac {x} {1 + e ^ {- x}}}}$	${\ Displaystyle {\ frac {1 + e ^ {- x} + xe ^ {- x}} {\ left (1 + e ^ {- x} \ right) ^ {2}}}}$	${\ displaystyle [-0,278 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Mish	${\ Displaystyle x \ tanh (\ ln (1 + e ^ {x}))}$	${\ Displaystyle {\ frac {(e ^ {x} (4e ^ {2x} + e ^ {3x} +4 (1 + x) + e ^ {x} (6 + 4x)))} {(2+ 2e ^ {x} + e ^ {2x}) ^ {2}}}}$	${\ displaystyle [-0,308 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Gaussiano	${\ Displaystyle e ^ {- x ^ {2}}}$	${\ displaystyle -2xe ^ {- x ^ {2}}}$	${\ Displaystyle (0,1]}$	${\ Displaystyle C ^ {\ infty}}$

La siguiente tabla enumera las funciones de activación que no son funciones de un solo pliegue $x$ de la capa o capas anteriores:

Nombre	Ecuación, ${\ Displaystyle f_ {i} \ left ({\ vec {x}} \ right)}$	Derivados , ${\ Displaystyle {\ frac {\ parcial f_ {i} \ izquierda ({\ vec {x}} \ derecha)} {\ parcial x_ {j}}}}$	Distancia	Orden de continuidad
Softmax	${\ Displaystyle {\ frac {e ^ {x_ {i}}} {\ sum _ {j = 1} ^ {J} e ^ {x_ {j}}}}}$ para $i$ = 1,…, $J$	${\ Displaystyle f_ {i} \ left ({\ vec {x}} \ right) \ left (\ delta _ {ij} -f_ {j} \ left ({\ vec {x}} \ right) \ right) }$	${\ Displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Máximo fuera	${\ Displaystyle \ max _ {i} x_ {i}}$	${\ displaystyle {\ begin {cases} 1 & {\ text {if}} j = {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \\ 0 & {\ text {if}} j \ neq {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {0}}$

^ Aquíestá eldelta de Kronecker.

{\ Displaystyle \ delta _ {ij}}

^ Por ejemplo,podría estar iterando a través del número de núcleos de la capa de red neuronal anterior mientrasitera a través del número de núcleos de la capa actual.

{\ Displaystyle j}

{\ Displaystyle i}

Languages

In other projects