Skip to content
Rain Hu's Workspace
Go back

[AI] 3-5. 邏輯斯迴歸(logistic regression)

Rain Hu

貝式定理

hlineAB \begin{array}{|c|c|} \\hline A&B\\\\\hline \blue{\text{●}}\blue{\text{●}}\blue{\text{●}}\red{\text{●}}&\blue{\text{●}}\blue{\text{●}}\red{\text{●}}\red{\text{●}}\red{\text{●}}\red{\text{●}}\\\\\hline \end{array}
+ 我們抽到藍球,它是來自於 A 的機率為何,即求 \\(P(A|\blue{\text{●}})\\)?
P(Ax)=P(xA)P(A)P(xA)P(A)+P(xB)P(B) P(A|x)=\frac{P(x|A)P(A)}{P(x|A)P(A)+P(x|B)P(B)}
1. 先驗機率
    + \\(P(A)=\frac{\text{A的球數}}{\text{總球數}}=\frac{4}{10}\\)
    + \\(P(B)=\frac{\text{B的球數}}{\text{總球數}}=\frac{6}{10}\\)
2. 條件機率
    + \\(P(\blue{\text{●}}|A)=\frac{\text{A中的}\blue{\text{●}}}{\text{A的總球數}}=\frac{3}{4}\\)
    + \\(P(\blue{\text{●}}|B)=\frac{\text{B中的}\blue{\text{●}}}{\text{B的總球數}}=\frac{2}{6}\\)
套入公式可得
    $$
        P(A|\blue{\text{●}})=\frac{P(\blue{\text{●}}|A)P(A)}{P(\blue{\text{●}}|A)P(A)+P(\blue{\text{●}}|B)P(B)}=\frac{3/4\times4/10}{3/4\times4/10+2/6\times6/10}=\frac{3}{5}
    $$

+ 假設今天猜中類別才能得獎,已經知道是藍球的情況下,來自 A 的機率是 0.6,來自 B 的機率是 0.4,所以我們理論上會選擇 A,因為機率較大。換言之,在機器學習中,我們判斷一個二元分類的問題,我們會將分類判給機率 > 0.5 的那個類別。

高斯分布

fμ,σ(x)=12πσ2exp{(xμ)22σ2} f_{\mu,\sigma}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}exp\bigg\lbrace-\frac{(x-\mu)^2}{2\sigma^2}\bigg\rbrace
+ 其中  
    + \\(\mu\\) 為平均數(Mean),決定分布的中心位置。
    + \\(\sigma\\) 為標準差(Standard Deviation),決定分布的寬度。
fμ,Σ(x)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)} f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\bigg\lbrace-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\bigg\rbrace
+ 其中 x 是一階張量
$$
    x = \begin{bmatrix} x_1 \\\\ x_2 \\\\ \vdots \\\\ x_n \end{bmatrix}
$$
+ \\(\mu\\) 代表 x 在每個維度的均值
$$
    \mu = \begin{bmatrix} \mu_1 \\\\ \mu_2 \\\\ \vdots \\\\ \mu_n \end{bmatrix}
$$
+ \\(\Sigma\\) 是協方差矩陣,\\(\Sigma\in\mathbb{R}^{n \times n}\\),表示數據分布的相關性與變異性:
$$
    \Sigma = \begin{bmatrix}
    \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\\\
    \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\\\
    \vdots & \vdots & \ddots & \vdots \\\\
    \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn}
    \end{bmatrix}
$$

+ \\(|\Sigma|\\)是協方差矩陣的行列式,表示協方差矩陣的尺度,用於歸一化分布。

+ \\(\Sigma^{-1}\\)是協方差矩陣的逆矩陣,用於計算標準化的二次型距離。

+ \\((x - \mu)^T \Sigma^{-1} (x - \mu)\\)是馬氏距離(Mahalanobis Distance),表示點 \\(x\\) 與均值 \\(\mu\\) 的加權距離。

二元分類

二元分類 v.s. 線性迴歸

Logistic RegressionLinear Regressionfunctionfw,b(x)=σ(iwixi+b)fw,b(x)=iwixi+bloss functionL(f)=iC(f(xi),y^i)L(f)=12i(f(xi)y^i)2updatewi=wiηi(f(xi)y^i)xiwi=wiηi(f(xi)y^i)xi \begin{array}{c|c|c} &\text{Logistic Regression}&\text{Linear Regression}\\\\\hline \text{function}&f_{w,b}(x)=\sigma(\sum_i w_ix_i+b)&f_{w,b}(x)=\sum_i w_ix_i+b\\\\\hline \text{loss function}&L(f)=\sum_iC(f(x_i),\hat{y}_i)&L(f)=\frac{1}{2}\sum_i(f(x_i)-\hat{y}_i)^2\\\\\hline \text{update}&w_i=w_i-\eta\sum_i (f(x_i)-\hat{y}_i)x_i&w_i=w_i-\eta\sum_i (f(x_i)-\hat{y}_i)x_i\\\\ \end{array} L(f)wi=2(fw,b(x)y^fw,b(x)(1fw,b(x)))xi \frac{\partial L(f)}{\partial w_i}=2(f_{w,b}(x)-\hat{y}f_{w,b}(x)(1-f_{w,b}(x)))x_i

Discriminative v.s. Generative

z=(μAμB)TΣ1x12(μA)T(ΣA)1μA+12(μB)T(ΣB)1μB+lnNANB z=(\mu_A-\mu_B)^T\Sigma^{-1}\red{x}-\frac{1}{2}(\mu_A)^T(\Sigma_A)^{-1}\mu_A+\frac{1}{2}(\mu_B)^T(\Sigma_B)^{-1}\mu_B+\ln\frac{N_A}{N_B}

符合了 \(z=w^Tx+b\) 的 pattern,那能否直接代入 wx+b 來求最佳的 \(w\) 與 \(b\) 呢?答案是可以的,這種方法就稱為 Discriminative 的方法。

Logistic Regression 的限制


Share this post on:

Previous
[AI] 3-6. 實作線性分類器
Next
[AI] 3-4. 線性迴歸