本文是筆者基於工作上統計製程控制(Statistical Process Control, SPC) 的心得與學習筆記，可能有紕漏，僅供參考。

統計學(Statistics)

基本名詞

群體(population)：研究對象的主體。
- 如上例的$\red{\text{全國人民的政治傾向}}$、$\red{\text{此家工廠的產品品質}}$。
樣本(sample)：群體的一部分。
- 如上例的$\red{\text{台灣部分的民眾}}$、$\red{\text{工廠部分的抽樣}}$。
  - 目的：了解美國總統大選誰會獲勝?
  - 群體：美國有投票權的公民此時不是美國公民的台灣民眾，就不會是這個題目的樣本。
參數(parameter)：由群體資料所計算之群體表徵值。
統計量(statistic)：由樣本資料所計算之樣本表徵值。

為何需要統計學?

統計學是一種工具，人們為了下決策所作的一系列蒐集資料、整理、分析、與解析，是目的導向的。
- 比方說，每次總統大選會花費大量人力，動員全國上下公教人員，花錢印選舉公報、印選票，選後還要花費大量的時間開票、驗票。假如我只是個學生想了解目前國家人民的政治傾向，不可能收集台灣上下每個人的答案，所以我們會進行抽樣。
- 比方說工廠出貨會抽樣調查產品有沒有損壞，不可能全部的產品都拿去做測試，因為成本太高。
藉由普查或抽樣的結果來描述全體的行為，作為決策的依據。
統計的目的：$\red{\text{由樣本資料推論母體參數}}$。

解決統計問題的五大步驟

steps

問題定義

先決定你要討論的問題，跟此問題可能相關的對象為何？可以收集哪些資料？

定義問題的群體與樣本。
- 例如：我想了解 A 工廠「晶片良率」，我認為可能跟「晶片厚度」有關係。
  - 群體：A 工廠生產的晶片良率
  - 樣本：某段時間內 A 工廠某機台生產晶片的厚度
- 例如：我想了解 B 國小附幼「小朋友學習狀況」，我認為可能跟「A 考卷的成績」有關。
  - 群體：B 國小附幼小朋友的學習狀況
  - 樣本：某次活動後的一次學習單成績。

資料收集

要收集哪些資料？哪些資料有可能可以協助我解決我想了解的問題？
例如，收集晶片的氧化層厚度、爐管的溫度、機台的編號、機台的廠商

測量尺度

等比尺度(Ratio measurements)：具有零值且資料間的距離是相等被定義的。
- 如晶片的氧化層厚度
等距尺度(Interval measurements)：資料間的距離是相等被定義的，定零值並非絕對的無，而是自行定義的。
- 如爐管的溫度(攝氏)
順序尺度(Ordinal measurements)：數據的意義是並非表現在值上而是在其順序上。
- 如機台的編號
名目尺度(Nominal measurements)：測量值不具量的意義。
- 如機台的廠商

資料整理

很多時候我們光看數字，會對研究主體沒感覺，所以引入畫圖來協助我們判斷資料。

資料的整理分為兩個部分：

審查資料

篩選有用的資料，收集來的資料是不是與預想的一致，資料是否有錯誤、遺漏、矛盾或是其它可疑的地方？應立刻設法檢查並更正。如果資料由不同單位蒐集而來，可能需要經過正常化(normalization)加以換算統一。太過複雜的資料應依照研究目的加以整理，以求簡化，並藉以顯示研究對象全體的通則。

資料表現

資料經過整理分析得到一些統計結果，為了方便說明，我們常以圖表的方式陳示出來，以供參考使用。

charts

散點圖(Scatter plot): 可以看相關係數
常態分布圖(高斯分布圖 normal distribution, gauss distribution)：
可以看數據分布→變異數(低濶峰變異數大，高狹峰變異數小)
直方圖：跟常態分布圖用途接近，當數據點少的時候使用。
條狀圖(柱狀圖)：分類
折線圖：看時間趨勢(看股票?)
圓餅圖：看組成
瀑布圖：看累計量(也是看股票?)
累積直方圖(CDF)：族繁不及備載…

資料分析

從圖表看到的有時候過於直觀，
於是我們開始用你收集到的資料來做數學，然後進一步分析。
有比較基本、常用的「統計量」與、「指標」(如平均數、標準差)，
也有比較進階的根據不同領域所設計的「進階指標」(如吉尼係數(研究貧富差距))。

常用統計量、指標

統計量用來描述研究對象的表徵，
例如一家公司的年薪中位數，可以了解這家公司的薪資水準。
例如西瓜班的平均身高，可以了解在同齡的小朋友身高狀況。
例如新竹市市民的家庭收入標準差，可以了解新竹市的貧富差距狀況。統計量不外乎就是用來描述「程度」與「分布」。

集中趨勢：用來描述研究對象(大多數)的「程度」。
- 平均數
  - 群體平均數：$\boxed{\mu=\frac{\sum X_i}{N}}$
  - 樣本平均數：$\boxed{\bar{X}=\frac{\sum X_i}{n}}$
- 中位數：最中間的那個值
- 眾數：重複最多次的那個值
離中趨勢：用來描述研究對象「分佈的情形」
- 全距：
  - $\boxed{R=\text{Max}-\text{Min}}$
  - 當數據有離群值時，會失去離中趨勢代表性。
- 變異數：
  - 群體變異數：$\boxed{\sigma^2=\frac{\sum(X_i-\mu)^2}{N}}$
  - 樣本變異數：$\boxed{S^2=\frac{\sum(X_i-\bar{X})^2}{n-1}}$
    (記得樣本數的分子要減)
    - 比較好算的版本
      - $\boxed{\sigma^2=\frac{\sum_i^NX_i^2-(\sum_i^NX_i)^2/N}{N}}$
      - $\boxed{S^2=\frac{\sum_i^nX_i^2-(\sum_i^nX_i)^2/n}{n-1}}$
- 標準差：變異數的平方，單位跟平均數一樣，在應用上可以做加減。
  - 群體標準差：$\boxed{\sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum(X_i-\mu)^2}{N}}}$
  - 樣本標準差：$\boxed{S=\sqrt{S^2}=\sqrt{\frac{\sum(X_i-\bar{X})^2}{n-1}}}$
偏態：數據分佈的「形態」口訣：$\red{\text{平地、山腰、種樹}\rightarrow\text{平均數、中位數、眾數}}$
- 對稱：$\red{\text{平均數=中位數=眾數}(山頂在中間)}$
- 右偏、正偏：$\red{\text{平均數>中位數>眾數}(山頂在左邊)}$
- 左偏、負偏：$\red{\text{平均數<中位數<眾數}(山頂在右邊)}$
- 偏態係數 $\text{g}_1$
  - $\gray{\text{g}_1=\frac{\sum_i^n(X_i-\bar{X})^3/(n-1)}{S^3}}$
  - $\red{\text{g}_1\text{=0表示對稱}}$
  - $\red{\text{g}_1\text{>0表示右偏}}$
  - $\red{\text{g}_1\text{<0表示左偏}}$
峰態：山頂高不高
- 峰度係數 $\text{g}_2$
  - $\gray{\text{g}_1=\frac{\sum_i^n(X_i-\bar{X})^4/(n-1)}{S^4}-3}$
  - $\red{\text{g}_2\text{=0表示常態分佈}}$
  - $\red{\text{g}_2\text{>0表示高狹峰}}$
  - $\red{\text{g}_2\text{<0表示低濶峰}}$

正態分布解析

若一組資料滿足自然分布(高斯分布、常態分布、正態分布、鐘型分布)，便會滿足以下的性質。
- 68、95、99.7 原則
  1. 即平均值一倍標準差內佔 68.27%。
  2. 即平均值二倍標準差內佔 95.45%。
  3. 即平均值三倍標準差內佔 99.73%。
  - 不受高狹峰或低濶峰影響。
  - 但偏態則會影響。
  - 百分位數、百分等級、z 分數、t 分數都可以是從這個固定的分配比例衍生來的。
- 百分位數(Ppr、Pp)
  - 代表「累計百分比」
  - 小明某次考試 90 分贏過 70% 的考生，小明的百分位數即為 70。
- 百分等級
  - 與「資料的個數」有關
  - $\text{PR=}100\times R+\frac{50}{N}$
  - 小明在 10 個人中排第 3 名，表示他贏過 7 個人，累計百分比為 70%， $\text{PR=}100\times 70\%+\frac{50}{\red{10}}=70+5=75$
  - 小明如果考 90 分，則此次考試 PR 75 的原始分數即為 90 分。
  - 小明如果在 50 個人中排第 15 名，同樣的累計百分比為 70 %，但是 PR 值變成 $\text{PR=}100\times 70\%+\frac{50}{\red{50}}=70+1=71$
  - 小明如果是參加五萬人的選拔，同樣贏過 70% 的人，
    $\text{PR=}100\times 70\%+\frac{50}{\red{50000}}=70+0.001=70.001\approx70\\ \red{\text{PR只分100個等級，故不會有小數點，所以要四捨五入，}\\\text{換言之，受試者超過101人，PR=Ppr}}$
- 累積百分比與標準差
  - $-3\times\sigma=50\%-99.73\%/2\approx0.1\%$
  - $-2\times\sigma=50\%-95.45\%/2\approx2.3\%$
  - $-1\times\sigma=50\%-68.27\%/2\approx15.9\%$
  - $+0\times\sigma=50\%$
  - $+1\times\sigma=50\%-68.27\%/2\approx84.1\%$
  - $+2\times\sigma=50\%-95.45\%/2\approx97.7\%$
  - $+3\times\sigma=50\%-99.73\%/2\approx99.9\%$
- z 分數
  - 換言之就是標準差。
  - 小明贏過 84.1% 的人，z 分數即為 +1。
  - 小明贏過 2.3% 的人，z 分數即為 -2。
- t 分數
  - 設定百分位數 50% 為 50 分，每增加一個標準差多 10分反之亦然。
  - 公式：$\boxed{z = \frac{t-50}{10}}$ 或 $\boxed{t=10z+50}$
  - 小明的 t 分數是 70 分，代表它的 z 分數是 +2，累計百分比是 97.7%，百分位數是97.7，假設受試人超過101人，PR等級為 98。

信賴區間

用以一段區間描述研究對象。
例如，95% 信賴水準下，台灣男生的身高為 160~~180 公分。代表你去路上隨機街訪，大約95% 的機率，路人(男)的身高都會落在 160~~180 公分以內。
注意以上的描述不一定為真，因為抽樣結果與群體間會有誤差。

假設我今天做了一個台灣男生身高抽樣調查，結果結果剛好呈現常態分布，並且平均身高是 170 公分，標準差是 5 公分。
- 68% 信賴水準下，台灣的男生身高會落在 165~175 公分的區間內。
- 95% 信賴水準下，台灣的男生身高會落在 160~180 公分的區間內。
- 99.7% 信賴水準下，台灣的男生身高會落在 155~185 公分的區間內。
信賴水準 $1-\alpha$：從上例可見，當信賴區間增加，信賴水準也會增加。
顯著水準 $\alpha$：反之，顯著水準增增加，代表愈寬鬆。通常定為 0.05。
- 白話：你只有 5% 的機率找到例外。
- 假設今天收集的數據不為常態分布，為左偏或右偏，它可以滿足 99.7% 的信賴區間，但不一定滿足 95% 信賴區間。
P 值：
- 定義：假使虛無假設是真的，實際觀測獲得比取樣更極端的值的機率是多少。
- 白話：假設台灣男生的身高都落在 160~180 公分之間，找到比 160 公分以下和 180 公分以上的機率是多少？
  - P 值無法用來證明何者絕對正確，只能透過機率來「合理推斷」
- 跟$\alpha$的關係：
  - 假設我做了一次調查，發現 1000 個人之中只有 20 個人高於 180 公分或矮於 160 公分，即 P 值為 0.02。
  - 此時若此份調查宣稱信賴水準是 95%，即 $\alpha=0.05$，則我們可以推斷這份調查是準確的，所以我們無法拒絕虛無假設。
  - 此時若此份調查宣稱信賴水準是 99%，即 $\alpha=0.01$，則我們可以推斷這份調查可能不準確，所以我們可以拒絕虛無假設。
    - 也就是如果調查是正確的，我們應該只能從 1000 個人裡面找到小於 10 個極端值。不過因為 P 值是機率，我們可以拒絕，但不表示調查就是完全不正確的，也許我們再擴大調查，也許有可能在 10000 個人裡面總共只找到 45 個極端值，那這份調查又變成有效的了。

假設檢定

test

單尾、雙尾
- 單尾代表只有一個拒絕域，右分為左尾與右尾。
  - 左尾：台灣男性有 95% 都高於 160 公分。
  - 右尾：台灣男性有 95% 都矮於 180 公分。
- 雙尾代表有兩個拒絕域
  - 雙尾：台灣男生有 95% 落在 160 公分到 180 公分的區間內。

結論與決策

可信度

當你做完數據，你的最終目的是想把你的研究對象跟你的調查數據關聯起來，這個關聯性必須要有可信度。
前面的一大堆資料分析、檢定目的在於「證明抽樣有沒有辦法代表母體」。現在「兩個足以代表母體的數據」，就可以來測試關聯性。

相關係數
- 以下的圖稱為散佈圖，把兩個數據分別放於 X 軸與 Y 軸，如果兩者是相關的，表示在座標平面上，你可以找到「一條線(趨勢線)」(不一定要是直線)來描述他。
- 為什麼不一定要是直線? 因為 X軸跟 Y 可以是不同的尺規，X-Y 也有可能是對數尺規或是指數尺規。
- |相關係數|愈高，則數據愈貼近趨勢線。一般來說，
  - $\gamma=1$，完全線性正相關。
  - $\gamma=-1$，完全線性負相關。
  - $0.7\le\gamma<1$，強正相關。
  - $-0.7\ge\gamma>-1$，強負相關。
  - $0.3\le\gamma<0.7$，弱正相關。
  - $-0.3\ge\gamma<-0.7$，弱負相關。
  - $-0.3<\gamma<0.3$，無相關。
- 工程上喜歡用 $R^2$ 來表示相關性，其實就是相關係數的平方，不討論正、負相關，只考慮相關性。

$corr$

最後的最後

你學會了定義問題、收集資料、整理資料、資料分析跟最後的關聯性分析，你就可以下結論並做決策了！是不是很棒啊。
- 記得統計學只是工具，過程一定要有問題，目標是下決策。
- 例如，我想知道怎麼樣提升學生的學習成效。
  我發現學生的學習成效跟讀書時間的長短呈現強相關，且讀書時間愈長，學習成效愈好。那麼作為一名老師，我還不叫你把書讀爆！就是在說你，還不快點去讀書！！

統計學(Statistics)#

基本名詞#

為何需要統計學?#

解決統計問題的五大步驟#

問題定義#

資料收集#

測量尺度#

資料整理#

審查資料#

資料表現#

資料分析#

常用統計量、指標#

正態分布解析#

信賴區間#

假設檢定#

結論與決策#

可信度#

最後的最後#

統計學(Statistics)

基本名詞

為何需要統計學?

解決統計問題的五大步驟

問題定義

資料收集

測量尺度

資料整理

審查資料

資料表現

資料分析

常用統計量、指標

正態分布解析

信賴區間

假設檢定

結論與決策

可信度

最後的最後