图像与线性代数

计算机中的图像，一般都是以矩形的形式呈现。它们由像素点组成，每一个像素点包含着各自的颜色信息。这样看的话，计算机中的图像确实与矩阵有着千丝万缕的联系。

为什么要压缩图像

假设现在我们有一张3000x3000像素的灰度图像（也就是一个3000x3000的矩阵），对于每一个像素来说，它都包含着0-255的灰度信息（即 $2^8$ ，一个字节），所以这整张图片的大小为 $9\times10^6$ Byte，8.53 Mb。

如果这张图片是彩色的，那么这张图片的每个像素都包含了RGB三种颜色的信息，以非常简单的256色为例，这张照片的大小也就是25.7Mb。

这样的大小显然是不可接受的，即便是对如今的电子设备来说。所以，我们需要对图片进行压缩。

如今的市面有很多压缩算法，其中不少都是无损压缩，而今天我想要聊一种有损压缩的算法--奇异值分解（SVD）

奇异值分解

简介

SVD 全称：Singular Value Decomposition。SVD 是一种提取信息的强大工具，它提供了一种非常便捷的矩阵分解方式，能够发现数据中十分有意思的潜在模式。

主要应用领域包括：

隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI)；
推荐系统 (Recommender system)，可以说是最有价值的应用点；
矩阵形式数据（主要是图像数据）的压缩。

线性变换

在了解SVD之前，我们先来了解一下线性变换，以这个简单的 $2\times2$ 矩阵为例

$$ M= \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} $$

从集合上讲， $M$ 是将二维平面上的点 $(x,y)$ 经过线性变换到另一个点的变换矩阵，如下所示：

$$ \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 3x \\ y \end{bmatrix} $$

该变换的几何效果是，变换后的平面沿着x水平方向进行了3倍拉伸，垂直方向没有发生变化。

特征值与特征向量

首先了解一下一下特征值与特征向量:
$$ Ax = \lambda x$$

其中 $A$ 是一个 $n\times n$ 矩阵， $x$ 是一个 $n$ 维向量，则 $\lambda$ 是矩阵 $A$ 的一个特征值，而 $x$ 是矩阵$A$的特征值$\lambda$所对应的特征向量。

这有什么意义呢？这样我们就可以可以将矩阵$A$特征分解。比如我们可以求出$A$的$n$个特征值
$$\lambda_1 \le \lambda_2 \le \dots \lambda_n$$

则矩阵$A$可用下式表示：
$$ A = W\Sigma W^{-1} $$

其中W是这n个特征向量所张成的n×n维矩阵，而Σ为这n个特征值为主对角线的n×n维矩阵。

一般我们会把W的这n个特征向量标准化，即满足 $\vert\vert W_i\vert\vert _2=1$，或者 $W_i^T\times W_i=1$ ，此时W的n个特征向量为标准正交基，满足 $WW^T$=I ，即 $W^T=W^{-1}$ ，也就是说W为酉矩阵。

这样我们的特征分解表达式可以写成

$$A=W\Sigma W^T$$

SVD

特征值分解是提取矩阵信息的好方式，但是仅对方阵而言。现实生活我们遇到大多数矩阵都不是方阵，这个时候就可以使用SVD：
$$A=U\Sigma V^T$$

其中 $A$ 是一个 $N \times M$ 的矩阵，那么得到的 $U$ 是一个 $N \times N$ 的方阵（里面的向量是正交的， $U$ 里面的向量称为左奇异向量）， $\Sigma$ 是一个 $N \times M$ 的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值）， $V^T$ (V的转置)是一个 $N \times N$ 的矩阵，里面的向量也是正交的， $V$ 里面的向量称为右奇异向量）。

所以奇异值和特征值的对应关系是怎样的呢？
$$(A^TA)\nu_i=\lambda_i \nu_i$$

这里的$\nu_i$，其实就是上文所述的右奇异向量，此外，还有：
$$\sigma_i = \sqrt{\lambda_i}$$
$$\mu_i=\frac{1}{\sigma_i}A\nu_i$$

这里的 $\sigma$ 就是上面说的奇异值， $\mu$ 就是上面说的左奇异向量。奇异值 $\sigma$ 跟特征值类似，在矩阵$\Sigma$中也是从大到小排列，而且$\sigma$的减少特别的快，

对于矩阵A来说，可以被分解为
$$ A=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\dots+\sigma_ru_rv_r^T $$
在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：
$$ A_{m\times n} \approx U_{m \times n} \Sigma_{r \times r} V^T_{r \times n} $$

压缩图像

由前文可知，可由矩阵前n个奇异值来大致的表示矩阵，这也是使用SVD压缩图像的原理，具体实现代码如下

import numpy as np
import numpy.linalg as la
import matplotlib.pyplot as plt
from sklearn import datasets
from skimage import io

img = io.imread('./flower.png')
# Read original image
plt.imshow(img)
plt.show()
# Show Original image
r_mat = np.mat(img[:,:,0])
g_mat = np.mat(img[:,:,1])
b_mat = np.mat(img[:,:,2])
# Split RGB Data

def runSVD(imgMat, k):
    # singular value decomposition
    U, s, V = la.svd(imgMat)
    # choose top k important singular values (or eigens)
    Uk = U[:, 0:k]
    Sk = np.diag(s[0:k])
    Vk = V[0:k, :]
    # recover the image
    imgMat_new = Uk * Sk * Vk
    return imgMat_new

top_k = 30

r_new = runSVD(r_mat,top_k)
g_new = runSVD(g_mat,top_k)
b_new = runSVD(b_mat,top_k)
# Use SVD to compress RGB data
r_new = np.int32(np.array(np.array(r_new).reshape((3000,3000,1))))
g_new = np.int32(np.array(np.array(g_new).reshape((3000,3000,1))))
b_new = np.int32(np.array(np.array(b_new).reshape((3000,3000,-1))))
new_img = np.concatenate((r_new,g_new,b_new),axis=2)
# generate new img

plt.imshow(img)
plt.show()
# Show new imgae

修改top_k的值（即所取的前n个奇异值）可以得到不同压缩率下的图片
原图

top_k=10下，只能看清轮廓

top_k=30下，基本能看清了

top_k=50下，大部分细节得以保留

top_k=100下，很难分辨与原图有什么区别