ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Introduction to the Linear Algebra over the Quaternion Field
    선형대수학 2024. 5. 1. 18:46

    이 글은 Helmer Aslaksen의 글 Quaternionic Determinants의 Study's determinant 부분까지 정리한 것이다.

    1. Introduction

    Quaternion field는 다음과 같이 정의되는 대수 구조이다.

    $$\mathbb{H}=\{a+ib+jc+kd \mid a,b,c,d\in\mathbb{R}\}$$

    덧셈: $(a+ib+jc+kd)+(x+iy+jz+kw)=(a+x)+i(b+y)+j(c+z)+k(d+w)$

    곰셈: $(a+ib+jc+kd)(x+iy+jz+kw)$

    $=(ax-by-cz-dw)+i(ay+bx+cw-dz)+j(az-bw+cx+dy)+k(aw+bz-cy+dx)$

     

    간단하게는 $i^2=j^2=k^2=ijk=-1$인 허수단위 $i,j,k$를 정의해 일반적인 덧셈/곱셈을 정의한 구조이다.

     

    사원수는 복소수의 확장이다. 보통 복소수의 허수단위 $i$와 사원수의 허수단위 $i$를 같다고 생각한다(homomorphism으로 말하면 $\iota:\mathbb{C}\to\mathbb{H}$가 $\iota(a+ib)=a+ib$로 자연스럽게 embedding된다).

    복소수 $z=a+ib$인 실수 $a,b$가 유일하게 결정되듯, 사원수 $z=x+jy$인 복소수 $x,y$가 유일하게 결정된다. 이 명제는 본 글에서 중요하게 사용된다.

    또한, $yj=j\overline{y}$가 $y\in\mathbb{C}$에서 만족한다는 사실도 알아두면 좋다.

     

    이 구조는 곱셈에 대한 역원이 있지만 commute하지 않기 때문에 skew-field로 분류된다. 따라서 많은 선형대수학 입문서에서 전개하는 field에 대한 논리를 그대로 전개할 수 없다. 이에 대한 논의를 해볼 것이다.

     

    2. Notations

    non-commutative ring 위에서 선형대수를 전개하는 것에서 가장 크게 어색한 파트는, 선형 사상과 행렬과의 관계이다. 일반적인 체 위에서 선형대수는 선형 사상이 행렬과 같은 것임을 선형대수학의 기본정리에서 확인할 수 있다. 하지만 non-commutative ring $R$에 대해 $R$-module $M$에서 선형 사상 $L$을 나타내는 행렬이 $A$, $x\in M,r\in R$이라 할 때,

    $$L(rx)=A(rx)\ne r(Ax)=rL(x)$$

    이기 때문에 선형 사상을 저런 식으로 쓸 수 없다. 이는 간단한 plot twist로 해결이 가능한데, right scalar multiplication을 생각하는 것이다. 그렇다면 아래 논의가 성립한다.

    $$L(xr)=A(xr)=(Ax)r=L(x)r$$

    따라서 scalar multiplication을 오른쪽에 적용하는 것으로 생각한다.

    참고로, 선형 사상을 오른쪽에 적용하는 것으로도 해결할 수 있다. $(rx)L=(rx)A=r(xA)=r(x)L$이기 때문이다. 하지만 이 방식으로 쓴다면 벡터를 행벡터로 표기해야하는 번거로움이 생긴다. 따라서 이 글에서는 오른쪽 스칼라곱을 채택한다.

     

    복소수 $a+bi$의 켤레는 $\overline{a+ib}=a-ib$이다. 사원수 $a+ib+jc+kd$의 켤레는 $\overline{a+ib+jc+kd}=a-ib-jc-kd$이다.

     

    ring $R$에 대해, $R^\times$를 $R$의 unit들의 집합이라 생각한다.

     

    $M_{m\times n} (R)$을 모든 entry가 $R$의 원소인 $m\times n$ 행렬의 집합이라 한다. 특히, $M_n (R)=M_{n\times n} (R)$로 정의한다. General linear group, 즉 역원이 있는 $n\times n$ $R$-행렬들의 집합을 $GL_n (R)$로 표기하며, 비슷하게 special linear group $SL_n (R)$도 정의한다(물론 $SL_n (\mathbb{H})$를 바로 쓸 수 없고, 뒤에서 다른 정의를 내린다).

     

    $A\in M_{m\times n}(\mathbb{H})$의 conjugate transpose를 $A^*$라 표기한다. $\forall A,B\in M_n(\mathbb{H})$에 대해 $(AB)^*=B^*A^*$가 성립한다.

     

    집합 $X$와 $Y$, 함수 $f:X\to Y$, $S\subseteq X$에 대해, $f[S]=\{f(s)\mid s\in S\}$로 정의한다.

     

    (이 글에 쓰이는 notation들은 첫 문장에서 소개한 notation과 조금씩 다르다.)

     

    3. Attempts to find the Determinant

    non-commutative의 조건에 의해서 '우리가 흔히 아는' 방식으로 determinant를 계산하고 싶다면 곱셈의 순서를 정의해줄 필요가 있다. Cayley의 가장 쉬운 접근은 첫 번째 열에 대한 cofactor expansion을 하는 것이다. 이를 $\mathrm{Cdet}$으로 표기하자(어차피 이후로는 안 쓸 것이다). 그렇다면 $A\in M_2(\mathbb{H})$에서 $\mathrm{Cdet}$는 아래와 같이 표현된다.

    $$\mathrm{Cdet}\begin{bmatrix}a & b \\ c & d\end{bmatrix}=ad-cb$$

    근데 이는 아래 행렬처럼 singluar한 행렬에 대해서도 $0$을 반환하지 않는다.

    $$\mathrm{Cdet}\begin{bmatrix}a & a \\ b & b\end{bmatrix}=ab-ba$$

    우리는 이런 determinant를 찾고 싶은 것이 아니다. 우리가 찾을 '좋은 성질을 가지는' determinant를 정의하자.

     

    Definition. 아래 세 가지 공리를 만족하는 함수 $d:M_n(\mathbb{H})\to\mathbb{H}$를 determinant라 한다.

    Axiom 1. $d(A)=0$ iff $A$ is singular.

    Axiom 2. $d(AB)=d(A)d(B)$ for all $A,B\in M_n(\mathbb{H})$.

    Axiom 3. $A'$이 $A$의 $i$행의 왼쪽 스칼라배를 $j$행에 더한 행렬 또는 $i$열의 오른쪽 스칼라배를 $j$행에 더한 행렬이라 하면 $d(A')=d(A)$.

     

    물론 이런 식으로 정의한 determinant는 유일하지 않을 것이라 예상할 수 있다. 이 글에서는 Study의 determinant만 소개한다.

     

    $i\ne j$일 때, $e_{ij}$를 $(i,j)$ entry가 $1$이고, 나머지 entry가 $0$인 행렬이라고 하자. 또 $B_{ij}(b)=I_n+be_{ij}$라 하자($b\in\mathbb{H}$). Axiom 3은 Axiom 2와 합쳐서 $d(B_{ij}(b))=1$인 것으로 다시 쓸 수 있다.

    $B_{ij}(b)^{-1}=B_{ij}(-b)$이기 때문에 $B_{ij}(b)$들의 곱은 $GL_n(\mathbb{H})$의 부분군을 만든다. 이를 $SL_n(\mathbb{H})$로 표기한다. 이후 정의한 determinant의 kernel이 $SL_n(\mathbb{H})$임을 보일 것이다.

     

    Theorem 1. $d$가 determinant일 때, $d[M_n(\mathbb{H})]$는 $\mathbb{H}$의 가환인 부분집합이다.

     

    Lemma 2. $0\ne a\in\mathbb{H}$, $d$가 determinant일 때

    $$\begin{bmatrix} a & 0 \\ 0 & a^{-1} \end{bmatrix}=\begin{bmatrix} 1 & 0 \\ -a^{-1} & 1 \end{bmatrix} \begin{bmatrix} 1 & a-1 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & a^{-1}-1 \\ 0 & 1 \end{bmatrix}$$

    이며, 따라서 $\displaystyle d \begin{bmatrix} a & 0 \\ 0 & a^{-1} \end{bmatrix}=1$이다.

     

    Lemma 3. 모든 $A\in GL_n(\mathbb{H})$는 $D(x)$와 $B$가

    $$D(x)=\begin{bmatrix} 1 & & & \\ & \ddots & & \\ & & 1 & \\ & & & x \end{bmatrix}$$

    이며, $B\in SL_n(\mathbb{H})$인 행렬일 때, $A=D(x)B$로 표현할 수 있다.

     

    Proof. $A$가 invertible이므로 $1$행에 최소 하나의 nonzero element가 있어야 한다. 이를 $a_{1j}\ne 0$이라 하자. $j$열의 오른쪽에 $a_{1j}^{-1}(1-a_{11})$을 곱해서 $1$열에 더하면 $a_{11}=1$인 행렬을 얻는다. $1$행의 나머지 열에 대해서는 똑같이 열연산으로 $a_{1j}=0$이 되도록 만들 수 있다. 귀납적으로 위와 같이 표현할 수 있다.

     

    Proof of Theorem 1. $f:\mathbb{H}\to\mathbb{H}$를 $f(x)=d(D(x))$로 정의한다. Lemma 3에 의해, $f[\mathbb{H}]=d[M_n(\mathbb{H})]$이다. 간단하게, $n=2$라 가정한다. 더 큰 $n$에 대해서도 비슷한 논의로 증명할 수 있다. 그러면

    $$d\begin{bmatrix} x & 0 \\ 0 & 1 \end{bmatrix}=d\left( \begin{bmatrix} x & 0 \\ 0 & x^{-1} \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & x \end{bmatrix}\right)=f(x)$$

    이므로

    $$f(x)f(y)=d\left( \begin{bmatrix} x & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & y \end{bmatrix}\right)=d\begin{bmatrix} x & 0 \\ 0 & y \end{bmatrix}= d\left( \begin{bmatrix} 1 & 0 \\ 0 & y \end{bmatrix} \begin{bmatrix} x & 0 \\ 0 & 1 \end{bmatrix}\right)=f(y)f(x)$$

    이고, 따라서 $f[\mathbb{H}]=d[M_n(\mathbb{H})]$는 commutative.

     

    determinant의 정의에서 Axiom 1, 2는 매우 중요한 조건이다. 하지만 상대적으로 Axiom 3은 다른 것으로 치환할 수 있어보인다. Dyson이 정의한 다른 공리를 보자.

     

    Axiom 3'. $A=(a_{ij}),B=(b_{ij}),C=(c_{ij})$라 하자. 어떤 행 번호 $r$에 대해 $i\ne r$일 때 $a_{i*}=b_{i*}=c_{i*}$이고 $a_{r*}+b_{r*}=c_{r*}$일 때, $d(A)+d(B)=d(C)$이다.

     

    하지만 Axiom 1,2,3'을 만족하는 행렬식은 존재하지 않는다.

     

    Proof. Axiom 2에서 $d(I_n)=1$. $D(x)$를 Lemma 3에서와 같이 정의하면 $I_n$과 $D(-1)$을 Axiom 3'의 $A$, $B$에 대입하면 $D(0)$이 되며, 이 행렬은 singular하므로 determinant가 $0$이다. 따라서 $d(D(-1))=-1$.

    또 $-1=iji^{-1}j^{-1}$이므로 $D(-1)=D(i)D(j)D(i)^{-1}D(j)^{-1}$이 되어 $D(-1)$이 $GL_n(\mathbb{H})$의 commutator인데, $d$가 homomorphism이므로 $d(D(-1))$도 $d[M_n(\mathbb{H})]$의 commutator가 되어 $d(D(-1))=1$이다(Theorem 1에 의해 가환이다). 따라서 모순.

     

    4. Study's Determinant

    우선 실수, 복소수, 사원수의 중요한 homomorphism을 소개한다.

     

    모든 복소행렬 $N\in M_n(\mathbb{C})$는 어떤 실행렬 $C,D\in M_n(\mathbb{R})$에 대해 $N=C+iD$로 유일하게 표현된다. 아래와 같이 homomorphism $\phi: M_n(\mathbb{C})\to M_{2n}(\mathbb{R})$을 정의하자.

    $$\phi(C+iD)=\begin{bmatrix} C & -D \\ D & C \end{bmatrix}$$

     

    또 $J\in M_{2n}(\mathbb{R})$를 아래와 같이 정의한다($J\in M_{2n}(\mathbb{C})$로 보기도 할 것이다).

    $$J=\begin{bmatrix} 0 & -I_n \\ I_n & 0 \end{bmatrix}$$

    $R_i$를 $\mathbb{C}^n$에서 오른쪽에 $i$를 곱하는 선형 연산자라 생각하자. 그렇다면 $R_i=iI_n$일 것이다(선형 사상과 행렬에 대한 기호를 혼용한다). $J=\phi(iI)=\phi(R_i)$를 만족한다. 이는 $\mathbb{R}^{2n}$에서의 복소수 구조를 생각할 수 있게 한다. 즉, $x,y\in\mathbb{R}^n$에 대해, $v=(x,y)\in\mathbb{R}^{2n}$를 $v'=x+iy\in\mathbb{C}^n$으로 '생각'할 수 있고, $\phi$가 이 두 공간에서의 선형 사상을 대응시키는 연산을 한다.

    그럼 $\phi[M_n (\mathbb{C})]$의 원소 $f:\mathbb{R}^{2n}\to\mathbb{R}^{2n}$는 $\mathbb{C}^n$의 선형 사상 $g$와 대응된다($g=\phi(f)$). 모든 $v\in\mathbb{C^n}$에 대해 $g(iv)=ig(v)$를 만족하기 때문에 이에 $\phi$를 적용시키면 $f$를 나타내는 행렬 $P\in M_{2n}(\mathbb{C})$에 대해 $PJ=JP$를 만족해야 한다. 또 이를 만족하면 당연히 $\phi[M_n(\mathbb{C})]$의 원소이기 때문에 아래와 같이 나타낼 수 있다.

    $$\phi[M_n(\mathbb{C})]=\{P\in M_{2n}(\mathbb{R})\mid JP=PJ\}$$

     

    비슷한 방법으로 모든 사원수 행렬 $M\in M_n(\mathbb{H})$는 어떤 복소행렬 $A,B\in M_n(\mathbb{C})$에 대해 $M=A+jB$로 유일하게 표현되기에 아래와 같은 homomorphism $\psi: M_n(\mathbb{H})\to M_{2n}(\mathbb{C})$를 정의하자.

    $$\psi(A+jB)=\begin{bmatrix} A & -\overline{B} \\ B & \overline{A} \end{bmatrix}$$

    $\psi$는 injective algebra homomorphism이 된다(따라서 $GL_n(\mathbb{H})$에서 left inverse랑 right inverse가 같다).

     

    $R_j$를 $\mathbb{H}^n$에서 오른쪽에 $j$를 곱하는 연산자라 생각하자. $\mathbb{H}$ 선형 연산자는 $R_j$와 commute하지만, $R_j$ 자체는 선형 연산자가 아니다. $R_j$에 대응되는 $\mathbb{C}^{2n}$의 연산은 $\widetilde{R}_j(x,y)=(-\overline{y},\overline{x})$이며($x,y\in\mathbb{C}^n$), 이는 $J$를 곱하고 켤레를 취하는 연산과 같다. 이 연산자는 $\mathbb{C}^{2n}$에서의 사원수 구조를 생각할 수 있게 한다. 위의 논의와 비슷하게 $N\in\psi[M_n(\mathbb{H})]$인 것과 $N$이 $\widetilde{R}_j$와 commute하는 것이 동치이므로 $\overline{NJv}=N\overline{Jv}=\overline{\overline{N}Jv}$를 모든 $v\in\mathbb{C}^{2n}$에 대해 만족해야 하고, 따라서 아래와 같이 쓸 수 있다.

    $$\psi[M_n(\mathbb{H})]=\{N\in M_{2n}(\mathbb{C})\mid JN=\overline{N}J\}$$

    사실 이는 $jz=\overline{z}j$, $z\in\mathbb{C}$의 일반화이다.

     

    저 식에 의해 $\det_\mathbb{C} \psi(M)\in\mathbb{R}$인 것은 자명하다.

     

    방금까지의 $\phi$(또는 $\psi$)의 구성은 $\displaystyle x=\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_{2n} \end{bmatrix}\in\mathbb{R}^{2n}$에 대해 $x'=\begin{bmatrix} x_1+ix_{n+1} \\ x_2+ix_{n+2} \\ \vdots \\ x_{n}+ix_{2n} \end{bmatrix} \in\mathbb{C}^n$을 대응시키는 작업이었다. 이렇게 하면 $M_n(\mathbb{C})$의 행렬을 $n\times n$ real block matrix 4개로 대응시킬 수 있다. 하지만 determinant를 구하는 것에는 이 대응보다 더 쉬운 대응이 존재한다. $\displaystyle x=\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_{2n} \end{bmatrix}\in\mathbb{R}^{2n}$에 대해 $x'=\begin{bmatrix} x_1+ix_2 \\ x_3+ix_4 \\ \vdots \\ x_{2n-1}+ix_{2n} \end{bmatrix} \in\mathbb{C}^n$를 대응시켜보자. 이렇게 한다면 $\phi_1:\mathbb{C}\cong M_1(\mathbb{C})\to M_2(\mathbb{R})$ ($n=1$에서의 $\phi$)를 $M\in M_n(\mathbb{C})$의 각 원소에 대해 적용시킨 2-block $n^2$개가 있는 block matrix $M'$을 만들 수 있으며 이 과정을 $\widetilde{\phi}: M_n(\mathbb{C})\to M_{2n}(\mathbb{R})$라 하자. $\mathbb{C}$가 commutative이고 $\phi_1$이 homomorphism이므로 각각의 $2\times 2$ block들은 서로 가환이다. 이제 아래 정리를 보자.

     

    Theorem 4. $A=(A_{ij})$가 $mn\times mn$ block matrix이고, $A_{ij}$가 $m\times m$ 행렬이라 하자. $B$를 $A_{ij}$를 '원소'로 가지는 $n\times n$ 행렬의 determinant인 $m\times m$ 행렬이라 하면, $A_{ij}$가 서로 가환이면 $\det A=\det B$이다.

    예를 들어, $A_{11},A_{12},A_{21},A_{22}$가 서로 가환일 때, $A=\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{bmatrix}$이면 $\det A=\det (A_{11}A_{22}-A_{12}A_{21})$를 만족하게 된다.

     

    증명은 생략한다.

     

    적당한 행/열 교환을 통해서 $\det_\mathbb{R} \phi(N)=\det_\mathbb{R} \widetilde{\phi}(N)$임을 보일 수 있다. 그러면 Theorem 4에 의해

    $$\det \phi(N)=\det \widetilde{\phi}(N)=\det (\phi_1(\det N))=\det \begin{bmatrix} \mathrm{Re}\det N & -\mathrm{Im}\det N \\ \mathrm{Im}\det N & \mathrm{Re}\det N \end{bmatrix}=\lvert\det N\rvert^2$$

    가 $N\in M_n(\mathbb{C})$에 대해 성립한다.

     

    Theorem 5. 모든 $N\in M_n(\mathbb{C})$에 대해 $\det_\mathbb{R} \phi(N)=\lvert\det_\mathbb{C} N\rvert^2 \ge 0$이다. 또, 모든 $M\in M_n(\mathbb{H})$에 대해 $\det_\mathbb{C} \psi(M)=\sqrt{\det_\mathbb{R} \phi(\psi(M))}\ge 0$이다.

     

    Proof. 앞 식은 위의 논의에 의해 자명하다. 뒤의 식은 $\det_\mathbb{C} \psi(M)\in\mathbb{R}$이며, $\det[\phi[GL_n(\mathbb{H})]]$은 $\mathbb{R}$의 연결된 부분집합이다(설명이 글에 안 나와있지만, 아마 해석학적 지식이 필요할 것으로 보인다). 그래서 $\det_\mathbb{C} \psi(M)\ge 0$이며, $\psi(M)$을 앞 식에 대입하면 증명된다.

     

    이제 Study의 determinant를 정의하자.

     

    Definition. Study의 determinant $\operatorname{Sdet}: M_n(\mathbb{H})\to \mathbb{H}$을 $\operatorname{Sdet} M=\det_\mathbb{C} \psi(M)$로 정의한다.

     

    $\operatorname{Sdet}$가 각 공리들을 만족시킴을 보이자. Axiom 2는 $\psi$가 homomorphism이기 때문에 성립한다.

    Axiom 1이 성립함을 보이자. $\operatorname{Sdet} M=\det_\mathbb{C} \psi{M}\ne 0$이면 $\psi(M)$은 $M_{2n}(\mathbb{C})$에서 가역이다. 따라서 $\psi(M)^{-1}\in\psi[M_n(\mathbb{H})]$를 증명하면 된다. $J\psi(M)=\overline{\psi(M)}J$의 켤레를 취하고 역원을 취하면 $J\psi(M)^{-1}=\overline{\psi(M)^{-1}}J$이기 때문에 성립한다.

    Axiom 3이 성립함을 보이자. $\operatorname{Sdet} B_{ij}(b)=1$을 보이면 된다. $b_1,b_2\in\mathbb{C}$에 대해 $b=b_1+jb_2$라 하면

    $$\psi(B_{ij}(b))=\begin{bmatrix} I_n+b_1e_{ij} & -\overline{b_2}e_{ij} \\ b_2e_{ij} & I_n+\overline{b_1}e_{ij} \end{bmatrix}$$

    이 성립하며, 이 각각의 block들은 서로 commute하고, $(e_{ij})^2=0$이기 때문에 $\det \psi(B_{ij}(b))=\det (I_n+(b_1+\overline{b_1})e_{ij})=1$이다.

     

    5. Applications

    $M\in M_n(\mathbb{H})$과 $A_0,A_1,A_2,A_3\in M_n(\mathbb{R})$에 대해 $M=A_0+iA_1+jA_2+kA_3$으로 유일하게 나타낼 수 있다. 이때 homomorphism $\mu: M_n(\mathbb{H})\to M_{4n}(\mathbb{R})$을 아래와 같이 정의한다.

    $$\mu(A_0+iA_1+jA_2+kA_3)=\begin{bmatrix} A_0 & -A_1 & -A_2 & -A_3 \\ A_1 & A_0 & -A_3 & A_2 \\ A_2 & A_3 & A_0 & -A_1 \\ A_3 & -A_2 & A_1 & A_0 \end{bmatrix}$$

     

    그러면 $\det_\mathbb{R} \mu(M)=\det_\mathbb{R} \phi(\psi(M))=(\operatorname{Sdet} M)^2$이다. 앞 식은 행/열을 적절히 바꾸는 것으로 보일 수 있다.

     

    마지막으로, $M=A+jB$에 대해

    $$\psi(M^*)=\psi(A^*+(jB)^*)=\psi(A^*-B^*j)=\psi(A^*-jB^T)=\begin{bmatrix} A^* & B^* \\ -B^T & A^T \end{bmatrix}=\psi(M)^*$$

    이다. $A,B$가 복소행렬이기 때문에 위 논의가 성립한다.

    따라서 $\operatorname{Sdet} M^*=\overline{\operatorname{Sdet} M}=\operatorname{Sdet} M$이 된다. 일반적으로 transpose에 대해서는 성립하지 않는다.

    댓글

Designed by Tistory.