Matriz ortogonal - Orthogonal matrix

En álgebra lineal , una matriz ortogonal , o matriz ortonormal , es una matriz cuadrada real cuyas columnas y filas son vectores ortonormales .

Una forma de expresar esto es

donde Q T es la transpuesta de Q e I es la matriz identidad .

Esto conduce a la caracterización equivalente: una matriz Q es ortogonal si su transposición es igual a su inversa :

donde Q -1 es la inversa de Q .

Una matriz ortogonal Q es necesariamente invertible (con inversa Q −1 = Q T ), unitaria ( Q −1 = Q ), donde Q es el adjunto hermitiano ( transposición conjugada ) de Q , y por lo tanto normal ( Q Q = QQ ) sobre los números reales . El determinante de cualquier matriz ortogonal es +1 o -1. Como transformación lineal , una matriz ortogonal conserva el producto interno de los vectores y, por lo tanto, actúa como una isometría del espacio euclidiano , como una rotación , una reflexión o una rotorreflexión . En otras palabras, es una transformación unitaria .

El conjunto de matrices ortogonales n × n forma un grupo , O ( n ) , conocido como grupo ortogonal . El subgrupo SO ( n ) que consta de matrices ortogonales con determinante +1 se denomina grupo ortogonal especial , y cada uno de sus elementos es una matriz ortogonal especial . Como transformación lineal, cada matriz ortogonal especial actúa como una rotación.

Visión general

Una matriz ortogonal es la especialización real de una matriz unitaria y, por tanto, siempre una matriz normal . Aunque aquí solo consideramos matrices reales, la definición se puede utilizar para matrices con entradas de cualquier campo . Sin embargo, las matrices ortogonales surgen de forma natural a partir de productos escalares y para matrices de números complejos que, en cambio, conducen al requisito unitario. Las matrices ortogonales conservan el producto escalar, por lo tanto, para los vectores u y v en un espacio euclidiano real n- dimensional

donde Q es una matriz ortogonal. Para ver la conexión interna del producto, considere un vector v en un espacio euclidiano real n- dimensional . Escrito con respecto a una base ortonormal, la longitud al cuadrado de v es v T v . Si una transformación lineal, en forma de matriz Q v , conserva las longitudes de los vectores, entonces

Así, las isometrías lineales de dimensión finita ( rotaciones, reflexiones y sus combinaciones) producen matrices ortogonales. Lo contrario también es cierto: las matrices ortogonales implican transformaciones ortogonales. Sin embargo, el álgebra lineal incluye transformaciones ortogonales entre espacios que no pueden ser ni de dimensión finita ni de la misma dimensión, y no tienen una matriz ortogonal equivalente.

Las matrices ortogonales son importantes por varias razones, tanto teóricas como prácticas. Las matrices ortogonales n × n forman un grupo bajo la multiplicación de matrices, el grupo ortogonal denotado por O ( n ) , que —con sus subgrupos— se usa ampliamente en matemáticas y ciencias físicas. Por ejemplo, el grupo de puntos de una molécula es un subgrupo de O (3). Debido a que las versiones de punto flotante de matrices ortogonales tienen propiedades ventajosas, son clave para muchos algoritmos en álgebra lineal numérica, como la descomposición QR . Como otro ejemplo, con la normalización apropiada, la transformada de coseno discreta (utilizada en la compresión MP3 ) está representada por una matriz ortogonal.

Ejemplos de

A continuación se muestran algunos ejemplos de pequeñas matrices ortogonales y posibles interpretaciones.

  •    (transformación de identidad)
  •   
  • (rotación de 16,26 °)
  •    (reflexión a través del eje x )
  •    (permutación de ejes de coordenadas)

Construcciones elementales

Dimensiones inferiores

Las matrices ortogonales más simples son las matrices 1 × 1 [1] y [−1], que podemos interpretar como la identidad y un reflejo de la línea real a través del origen.

Las matrices 2 × 2 tienen la forma

que exige la ortogonalidad satisfacen las tres ecuaciones

Considerando la primera ecuación, sin pérdida de generalidad sea p = cos θ , q = sin θ ; entonces t = - q , u = p o t = q , u = - p . Podemos interpretar el primer caso como una rotación por θ (donde θ = 0 es la identidad), y el segundo como una reflexión a través de una línea en un ángulo de θ/2.

El caso especial de la matriz de reflexión con θ = 90 ° genera una reflexión sobre la línea a 45 ° dada por y = x y por lo tanto los intercambios x y y ; es una matriz de permutación , con un solo 1 en cada columna y fila (y de lo contrario 0):

La identidad también es una matriz de permutación.

Una reflexión es su propia inversa , lo que implica que una matriz de reflexión es simétrica (igual a su transpuesta) y ortogonal. El producto de dos matrices de rotación es una matriz de rotación y el producto de dos matrices de reflexión también es una matriz de rotación.

Mayores dimensiones

Independientemente de la dimensión, siempre es posible clasificar las matrices ortogonales como puramente rotacionales o no, pero para matrices de 3 × 3 y más grandes, las matrices no rotacionales pueden ser más complicadas que las reflexiones. Por ejemplo,

representan una inversión a través del origen y una rotoinversión , respectivamente, alrededor del eje z .

Las rotaciones se vuelven más complicadas en dimensiones superiores; ya no pueden caracterizarse completamente por un ángulo y pueden afectar a más de un subespacio plano. Es común describir una matriz de rotación de 3 × 3 en términos de eje y ángulo , pero esto solo funciona en tres dimensiones. Por encima de tres dimensiones se necesitan dos o más ángulos, cada uno asociado con un plano de rotación .

Sin embargo, tenemos bloques de construcción elementales para permutaciones, reflejos y rotaciones que se aplican en general.

Primitivas

La permutación más elemental es una transposición, obtenida de la matriz de identidad intercambiando dos filas. Cualquier matriz de permutación n × n puede construirse como un producto de no más de n - 1 transposiciones.

Una reflexión de jefe de hogar se construye a partir de un vector v no nulo como

Aquí el numerador es una matriz simétrica mientras que el denominador es un número, la magnitud al cuadrado de v . Esta es una reflexión en el hiperplano perpendicular av (negando cualquier componente vectorial paralelo av ). Si v es un vector unitario, entonces Q = I - 2 vv T es suficiente. Una reflexión de jefe de hogar se utiliza normalmente para poner a cero simultáneamente la parte inferior de una columna. Cualquier matriz ortogonal de tamaño n × n puede construirse como un producto de como máximo n tales reflexiones.

Una rotación de Givens actúa sobre un subespacio bidimensional (plano) atravesado por dos ejes de coordenadas, que gira en un ángulo elegido. Por lo general, se usa para poner a cero una sola entrada subdiagonal. Cualquier matriz de rotación de tamaño n × n puede construirse como un producto de como máximon ( n - 1)/2tales rotaciones. En el caso de matrices de 3 × 3 , tres de tales rotaciones son suficientes; y al fijar la secuencia podemos describir todas las matrices de rotación de 3 × 3 (aunque no de forma única) en términos de los tres ángulos utilizados, a menudo llamados ángulos de Euler .

Una rotación de Jacobi tiene la misma forma que una rotación de Givens, pero se usa para poner a cero ambas entradas fuera de la diagonal de una submatriz simétrica de 2 × 2 .

Propiedades

Propiedades de la matriz

Una matriz cuadrada real es ortogonal si y solo si sus columnas forman una base ortonormal del espacio euclidiano n con el producto escalar euclidiano ordinario , que es el caso si y solo si sus filas forman una base ortonormal de n . Podría ser tentador suponer que una matriz con columnas ortogonales (no ortonormales) se llamaría matriz ortogonal, pero tales matrices no tienen un interés especial ni un nombre especial; solo satisfacen M T M = D , con D una matriz diagonal .

El determinante de cualquier matriz ortogonal es +1 o -1. Esto se desprende de los hechos básicos sobre los determinantes, como sigue:

Lo contrario no es cierto; tener un determinante de ± 1 no es garantía de ortogonalidad, incluso con columnas ortogonales, como se muestra en el siguiente contraejemplo.

Con las matrices de permutación, el determinante coincide con la firma , siendo +1 o −1 ya que la paridad de la permutación es par o impar, ya que el determinante es una función alterna de las filas.

Más fuerte que la restricción determinante es el hecho de que una matriz ortogonal siempre se puede diagonalizar sobre los números complejos para exhibir un conjunto completo de valores propios , todos los cuales deben tener un módulo (complejo)  1.

Propiedades de grupo

La inversa de cada matriz ortogonal es nuevamente ortogonal, al igual que el producto matricial de dos matrices ortogonales. De hecho, el conjunto de todas las matrices ortogonales n × n satisface todos los axiomas de un grupo . Es un grupo de dimensiones compacto de Lie.n ( n - 1)/2, llamado grupo ortogonal y denotado por O ( n ) .

Las matrices ortogonales cuyo determinante es +1 forman un subgrupo normal conectado por camino de O ( n ) de índice 2, el grupo ortogonal especial SO ( n ) de rotaciones. El grupo de cocientes O ( n ) / SO ( n ) es isomorfo a O (1) , y el mapa de proyección elige [+1] o [−1] según el determinante. Las matrices ortogonales con determinante −1 no incluyen la identidad, por lo que no forman un subgrupo sino solo una clase lateral ; también está conectado (por separado). Así, cada grupo ortogonal se divide en dos partes; y debido a que el mapa de proyección se divide , O ( n ) es un producto semidirecto de SO ( n ) por O (1) . En términos prácticos, una afirmación comparable es que se puede producir cualquier matriz ortogonal tomando una matriz de rotación y posiblemente negando una de sus columnas, como vimos con las matrices 2 × 2 . Si n es impar, entonces el producto semidirecto es de hecho un producto directo y se puede producir cualquier matriz ortogonal tomando una matriz de rotación y posiblemente negando todas sus columnas. Esto se sigue de la propiedad de los determinantes de que negar una columna niega el determinante y, por lo tanto, negar un número impar (pero no par) de columnas niega el determinante.

Ahora considere ( n + 1) × ( n + 1) matrices ortogonales con la entrada inferior derecha igual a 1. El resto de la última columna (y última fila) debe ser ceros, y el producto de dos de tales matrices tiene la misma forma . El resto de la matriz es una matriz ortogonal n × n ; por tanto, O ( n ) es un subgrupo de O ( n + 1) (y de todos los grupos superiores).

Dado que una reflexión elemental en la forma de una matriz de Jefe de Hogar puede reducir cualquier matriz ortogonal a esta forma restringida, una serie de tales reflexiones puede traer cualquier matriz ortogonal a la identidad; por tanto, un grupo ortogonal es un grupo de reflexión . La última columna se puede fijar a cualquier vector unitario, y cada opción da una copia diferente de O ( n ) en O ( n + 1) ; de esta manera O ( n + 1) es un paquete sobre la esfera unitaria S n con fibra O ( n ) .

De manera similar, SO ( n ) es un subgrupo de SO ( n + 1) ; y cualquier matriz ortogonal especial se puede generar mediante rotaciones del plano de Givens usando un procedimiento análogo. La estructura del paquete persiste: SO ( n ) ↪ SO ( n + 1) → S n . Una sola rotación puede producir un cero en la primera fila de la última columna, y una serie de n - 1 rotaciones pondrá a cero todas menos la última fila de la última columna de una matriz de rotación n × n . Dado que los planos son fijos, cada rotación tiene solo un grado de libertad, su ángulo. Por inducción, SO ( n ) por lo tanto tiene

grados de libertad, y también O ( n ) .

Las matrices de permutación son aún más sencillas; forman, no un grupo de Lie, sino sólo un grupo finito, el orden n ! grupo simétrico S n . Por el mismo tipo de argumento, S n es un subgrupo de S n + 1 . Las permutaciones pares producen el subgrupo de matrices de permutación del determinante +1, el ordenn !/2 grupo alterno .

Forma canónica

En términos más generales, el efecto de cualquier matriz ortogonal se separa en acciones independientes en subespacios bidimensionales ortogonales. Es decir, si Q es ortogonal especial, entonces siempre se puede encontrar una matriz ortogonal P , un cambio (rotacional) de base , que lleva a Q a la forma diagonal de bloque:

donde las matrices R 1 , ..., R k son matrices de rotación 2 × 2 , y con las entradas restantes cero. Excepcionalmente, un bloque de rotación puede ser diagonal, ± I . Por lo tanto, negando una columna si es necesario, y observando que una reflexión de 2 × 2 diagonaliza a +1 y −1, cualquier matriz ortogonal puede llevarse a la forma

Las matrices R 1 , ..., R k dan pares conjugados de valores propios que se encuentran en el círculo unitario en el plano complejo ; por lo que esta descomposición confirma que todos los valores propios tienen un valor absoluto 1. Si n es impar, hay al menos un valor propio real, +1 o -1; para una rotación de 3 × 3 , el vector propio asociado con +1 es el eje de rotación.

Álgebra de mentiras

Supongamos que las entradas de Q son funciones diferenciables de t , y que t = 0 da Q = I . Diferenciar la condición de ortogonalidad

rendimientos

La evaluación en t = 0 ( Q = I ) implica entonces

En términos de grupo de Lie, esto significa que el álgebra de Lie de un grupo de matrices ortogonales consta de matrices asimétricas . Yendo en la otra dirección, la matriz exponencial de cualquier matriz simétrica sesgada es una matriz ortogonal (de hecho, ortogonal especial).

Por ejemplo, el objeto tridimensional que la física llama velocidad angular es una rotación diferencial, por lo tanto, un vector en el álgebra de Lie (3) tangente a SO (3) . Dado ω = ( , , ) , con v = ( x , y , z ) como un vector unitario, la forma matricial de simetría sesgada correcta de ω es

El exponencial de esto es la matriz ortogonal para la rotación alrededor del eje v en el ángulo θ ; ajuste c = cosθ/2, s = pecadoθ/2,

Álgebra lineal numérica

Beneficios

El análisis numérico aprovecha muchas de las propiedades de las matrices ortogonales para el álgebra lineal numérica y surgen de forma natural. Por ejemplo, a menudo es deseable calcular una base ortonormal para un espacio, o un cambio ortogonal de bases; ambos toman la forma de matrices ortogonales. Tener determinante ± 1 y todos los valores propios de magnitud 1 es de gran beneficio para la estabilidad numérica . Una implicación es que el número de condición es 1 (que es el mínimo), por lo que los errores no se magnifican cuando se multiplica con una matriz ortogonal. Muchos algoritmos utilizan matrices ortogonales como las reflexiones de Householder y las rotaciones de Givens por esta razón. También es útil que, no solo una matriz ortogonal sea invertible, sino que su inversa esté disponible esencialmente gratis, mediante el intercambio de índices.

Las permutaciones son esenciales para el éxito de muchos algoritmos, incluido el caballo de batalla de la eliminación gaussiana con pivoteo parcial (donde las permutaciones hacen el pivote). Sin embargo, rara vez aparecen explícitamente como matrices; su forma especial permite una representación más eficiente, como una lista de n índices.

Asimismo, los algoritmos que utilizan matrices Householder y Givens suelen utilizar métodos especializados de multiplicación y almacenamiento. Por ejemplo, una rotación de Givens afecta solo a dos filas de una matriz que multiplica, cambiando una multiplicación completa de orden n 3 a una orden n mucho más eficiente . Cuando los usos de estas reflexiones y rotaciones introducen ceros en una matriz, el espacio desocupado es suficiente para almacenar datos suficientes para reproducir la transformación y hacerlo de manera robusta. (Siguiendo a Stewart (1976) , no almacenamos un ángulo de rotación, que es caro y se comporta mal).

Descomposiciones

Varias descomposiciones matriciales importantes ( Golub y Van Loan 1996 ) involucran matrices ortogonales, que incluyen especialmente:

Descomposición QR
M = QR , Q ortogonal, R triangular superior
Valor singular de descomposición
M = U Σ V T , U y V ortogonal, Σ matriz diagonal
Descomposición propia de una matriz simétrica (descomposición según el teorema espectral )
S = Q Λ Q T , S simétrico, Q ortogonal, Λ diagonal
Descomposición polar
M = QS , Q ortogonal, S simétrico positivo-semidefinito

Ejemplos de

Considere un sistema sobredeterminado de ecuaciones lineales , como podría ocurrir con mediciones repetidas de un fenómeno físico para compensar errores experimentales. Escribe A x = b , donde A es m × n , m > n . Una descomposición QR reduce A a R triangular superior . Por ejemplo, si A es 5 × 3, entonces R tiene la forma

El problema de mínimos cuadrados lineales es encontrar la x que minimiza || A x - b || , Que es equivalente a la proyección b al subespacio generado por las columnas de A . Suponiendo que las columnas de A (y por lo tanto R ) son independientes, la solución de proyección se encuentra a partir de A T A x = A T b . Ahora A T A es cuadrado ( n x n ) y invertible, y también a igual a R T R . Pero las filas inferiores de ceros en R son superfluas en el producto, que por lo tanto ya está en forma factorizada triangular inferior triangular superior, como en la eliminación gaussiana ( descomposición de Cholesky ). Aquí la ortogonalidad es importante no solo para reducir A T A = ( R T Q T ) QR a R T R , sino también para permitir la solución sin aumentar los problemas numéricos.

En el caso de un sistema lineal que está subdeterminado, o una matriz no invertible de otro modo , la descomposición en valores singulares (SVD) es igualmente útil. Con A factorizado como U Σ V T , una solución satisfactoria usa el pseudoinverso de Moore-Penrose , V Σ + U T , donde Σ + simplemente reemplaza cada entrada diagonal distinta de cero con su recíproco. Establezca x en V Σ + U T b .

El caso de una matriz cuadrada invertible también es interesante. Supongamos, por ejemplo, que A es una matriz de rotación de 3 × 3 que se ha calculado como la composición de numerosos giros y vueltas. El punto flotante no coincide con el ideal matemático de los números reales, por lo que A ha perdido gradualmente su verdadera ortogonalidad. Un proceso de Gram-Schmidt podría ortogonalizar las columnas, pero no es el método más confiable, ni el más eficiente, ni el más invariante. La descomposición polar factoriza una matriz en un par, una de las cuales es la única matriz ortogonal más cercana a la matriz dada, o una de las más cercanas si la matriz dada es singular. (La proximidad se puede medir mediante cualquier norma de matriz invariante bajo un cambio ortogonal de base, como la norma espectral o la norma de Frobenius). Para una matriz casi ortogonal, la convergencia rápida al factor ortogonal se puede lograr mediante un " método de Newton " enfoque debido a Higham (1986) ( 1990 ), promediando repetidamente la matriz con su transpuesta inversa. Dubrulle (1994) ha publicado un método acelerado con una prueba de convergencia conveniente.

Por ejemplo, considere una matriz no ortogonal para la cual el algoritmo de promediado simple toma siete pasos

y cuya aceleración se reduce a dos pasos (con γ = 0.353553, 0.565685).

Gram-Schmidt produce una solución inferior, mostrada por una distancia de Frobenius de 8.28659 en lugar del mínimo 8.12404.

Aleatorización

Algunas aplicaciones numéricas, como los métodos de Monte Carlo y la exploración de espacios de datos de alta dimensión, requieren la generación de matrices ortogonales aleatorias distribuidas uniformemente . En este contexto, "uniforme" se define en términos de medida de Haar , que esencialmente requiere que la distribución no cambie si se multiplica por cualquier matriz ortogonal elegida libremente. Las matrices ortogonalizadas con entradas aleatorias independientes distribuidas uniformemente no dan como resultado matrices ortogonales distribuidas uniformemente, pero la descomposición QR de entradas aleatorias independientes distribuidas normalmente sí, siempre que la diagonal de R contenga solo entradas positivas ( Mezzadri 2006 ). Stewart (1980) reemplazó esto con una idea más eficiente que Diaconis y Shahshahani (1987) luego generalizaron como el "algoritmo de subgrupo" (en cuya forma funciona igual de bien para permutaciones y rotaciones). Para generar una matriz ortogonal ( n + 1) × ( n + 1) , tome una n × n uno y un vector unitario distribuido uniformemente de dimensión n + 1 . Construya un reflejo de Householder a partir del vector, luego aplíquelo a la matriz más pequeña (incrustada en el tamaño más grande con un 1 en la esquina inferior derecha).

Matriz ortogonal más cercana

El problema de encontrar la matriz ortogonal Q más cercana a una matriz M dada está relacionado con el problema de Procrustes ortogonales . Hay varias formas diferentes de obtener la solución única, la más simple de las cuales es tomar la descomposición del valor singular de M y reemplazar los valores singulares por unos. Otro método expresa la R explícitamente pero requiere el uso de una raíz cuadrada de matriz :

Esto se puede combinar con el método babilónico para extraer la raíz cuadrada de una matriz para dar una recurrencia que converge cuadráticamente a una matriz ortogonal:

donde Q 0 = M .

Estas iteraciones son estables siempre que el número de condición de M sea ​​menor que tres.

El uso de una aproximación de primer orden de la inversa y la misma inicialización da como resultado la iteración modificada:

Girar y pin

Un problema técnico sutil afecta a algunos usos de las matrices ortogonales. No solo los componentes del grupo con determinante +1 y −1 no están conectados entre sí, incluso el componente +1, SO ( n ) , no está simplemente conectado (excepto para SO (1), que es trivial). Por tanto, a veces es ventajoso, o incluso necesario, trabajar con un grupo de cobertura de SO ( n ), el grupo de espín , Spin ( n ) . Asimismo, O ( n ) tiene grupos de cobertura, los grupos de pines , Pin ( n ). Para n > 2 , Spin ( n ) simplemente está conectado y, por lo tanto, es el grupo de cobertura universal para SO ( n ) . Con mucho, el ejemplo más famoso de un grupo de espines es Spin (3) , que no es más que SU (2) , o el grupo de cuaterniones unitarios .

Los grupos Pin y Spin se encuentran dentro de las álgebras de Clifford , que a su vez se pueden construir a partir de matrices ortogonales.

Matrices rectangulares

Si Q no es una matriz cuadrada, entonces las condiciones Q T Q = I y QQ T = I no son equivalentes. La condición Q T Q = I dice que las columnas de Q son ortonormales. Esto solo puede suceder si Q es una matriz m × n con nm (debido a la dependencia lineal). De manera similar, QQ T = I dice que las filas de Q son ortonormales, lo que requiere nm .

No existe una terminología estándar para estas matrices. Se denominan de diversas formas "matrices semi-ortogonales", "matrices ortonormales", "matrices ortogonales" y, a veces, simplemente "matrices con filas / columnas ortonormales".

Ver también

Notas

Referencias

  • Diaconis, Persi ; Shahshahani, Mehrdad (1987), "El algoritmo de subgrupos para generar variables aleatorias uniformes", Prob. En Ing. E Info. Sci. , 1 : 15–32, doi : 10.1017 / S0269964800000255 , ISSN  0269-9648
  • Dubrulle, Augustin A. (1999), "Una iteración óptima para la descomposición polar de la matriz" , Electron. Trans. Numer. Anal. , 8 : 21-25
  • Golub, Gene H .; Van Loan, Charles F. (1996), Computaciones matriciales (3 / e ed.), Baltimore: Johns Hopkins University Press, ISBN 978-0-8018-5414-9
  • Higham, Nicholas (1986), "Computación de la descomposición polar con aplicaciones" (PDF) , SIAM Journal on Scientific and Statistical Computing , 7 (4): 1160-1174, doi : 10.1137 / 0907079 , ISSN  0196-5204
  • Higham, Nicholas ; Schreiber, Robert (julio de 1990), "Descomposición polar rápida de una matriz arbitraria", SIAM Journal on Scientific and Statistical Computing , 11 (4): 648–655, CiteSeerX  10.1.1.230.4322 , doi : 10.1137 / 0911038 , ISSN  0196 -5204 [1]
  • Stewart, GW (1976), "El almacenamiento económico de rotaciones de plano", Numerische Mathematik , 25 (2): 137-138, doi : 10.1007 / BF01462266 , ISSN  0029-599X
  • Stewart, GW (1980), "La generación eficiente de matrices ortogonales aleatorias con una aplicación a los estimadores de condiciones", SIAM J. Numer. Anal. , 17 (3): 403–409, doi : 10.1137 / 0717034 , ISSN  0036-1429
  • Mezzadri, Francesco (2006), "Cómo generar matrices aleatorias a partir de los grupos compactos clásicos", Notices of the American Mathematical Society , 54

enlaces externos