Skip to content
Rain Hu's Workspace
Go back

[統計] 統計學概要

Rain Hu

本文是筆者基於工作上統計製程控制(Statistical Process Control, SPC) 的心得與學習筆記,可能有紕漏,僅供參考。

統計學(Statistics)

基本名詞

為何需要統計學?

解決統計問題的五大步驟

steps

問題定義


先決定你要討論的問題,跟此問題可能相關的對象為何?可以收集哪些資料?

資料收集


要收集哪些資料?哪些資料有可能可以協助我解決我想了解的問題?
例如,收集晶片的氧化層厚度、爐管的溫度、機台的編號、機台的廠商

測量尺度

資料整理


很多時候我們光看數字,會對研究主體沒感覺,所以引入畫圖來協助我們判斷資料。

審查資料

資料表現

charts

  1. 散點圖(Scatter plot): 可以看相關係數 scatter

  2. 常態分布圖(高斯分布圖 normal distribution, gauss distribution):
    可以看數據分布→變異數(低濶峰變異數大,高狹峰變異數小) guass

  3. 直方圖:跟常態分布圖用途接近,當數據點少的時候使用。

  4. 條狀圖(柱狀圖):分類

  5. 折線圖:看時間趨勢(看股票?)

  6. 圓餅圖:看組成

  7. 瀑布圖:看累計量(也是看股票?)

  8. 累積直方圖(CDF): CDF 族繁不及備載…

資料分析


從圖表看到的有時候過於直觀,
於是我們開始用你收集到的資料來做數學,然後進一步分析。
有比較基本、常用的「統計量」與、「指標」(如平均數、標準差),
也有比較進階的根據不同領域所設計的「進階指標」(如吉尼係數(研究貧富差距))。

常用統計量、指標

統計量用來描述研究對象的表徵,
例如一家公司的年薪中位數,可以了解這家公司的薪資水準。
例如西瓜班的平均身高,可以了解在同齡的小朋友身高狀況。
例如新竹市市民的家庭收入標準差,可以了解新竹市的貧富差距狀況。 統計量不外乎就是用來描述「程度」與「分布」。

正態分布解析

信賴區間

用以一段區間描述研究對象。
例如,95% 信賴水準下,台灣男生的身高為 160180 公分。代表你去路上隨機街訪,大約95% 的機率,路人(男)的身高都會落在 160180 公分以內。
注意以上的描述不一定為真,因為抽樣結果與群體間會有誤差。

假設檢定

test

結論與決策

可信度

當你做完數據,你的最終目的是想把你的研究對象跟你的調查數據關聯起來,這個關聯性必須要有可信度。
前面的一大堆資料分析、檢定目的在於「證明抽樣有沒有辦法代表母體」。 現在「兩個足以代表母體的數據」,就可以來測試關聯性。

corr

最後的最後


Share this post on:

Previous
[Life] July's plan
Next
[CA] 記憶體