[統計] 統計學概要
本文是筆者基於工作上統計製程控制(Statistical Process Control, SPC) 的心得與學習筆記,可能有紕漏,僅供參考。 統計學(Statistics) 基本名詞 群體(population):研究對象的主體。 如上例的\(\red{\text{全國人民的政治傾向}}\)、\(\red{\text{此家工廠的產品品質}}\)。 樣本(sample):群體的一部分。 如上例的\(\red{\text{台灣部分的民眾}}\)、\(\red{\text{工廠部分的抽樣}}\)。 目的:了解美國總統大選誰會獲勝? 群體:美國有投票權的公民 此時不是美國公民的台灣民眾,就不會是這個題目的樣本。 參數(parameter):由群體資料所計算之群體表徵值。 統計量(statistic):由樣本資料所計算之樣本表徵值。 為何需要統計學? 統計學是一種工具,人們為了下決策所作的一系列蒐集資料、整理、分析、與解析,是目的導向的。 比方說,每次總統大選會花費大量人力,動員全國上下公教人員,花錢印選舉公報、印選票,選後還要花費大量的時間開票、驗票。假如我只是個學生想了解目前國家人民的政治傾向,不可能收集台灣上下每個人的答案,所以我們會進行抽樣。 比方說工廠出貨會抽樣調查產品有沒有損壞,不可能全部的產品都拿去做測試,因為成本太高。 藉由普查或抽樣的結果來描述全體的行為,作為決策的依據。 統計的目的:\(\red{\text{由樣本資料推論母體參數}}\)。 解決統計問題的五大步驟 問題定義 先決定你要討論的問題,跟此問題可能相關的對象為何?可以收集哪些資料? 定義問題的群體與樣本。 例如:我想了解 A 工廠「晶片良率」,我認為可能跟「晶片厚度」有關係。 群體:A 工廠生產的晶片良率 樣本:某段時間內 A 工廠某機台生產晶片的厚度 例如:我想了解 B 國小附幼「小朋友學習狀況」,我認為可能跟「A 考卷的成績」有關。 群體:B 國小附幼小朋友的學習狀況 樣本:某次活動後的一次學習單成績。 資料收集 要收集哪些資料?哪些資料有可能可以協助我解決我想了解的問題? 例如,收集晶片的氧化層厚度、爐管的溫度、機台的編號、機台的廠商 測量尺度 等比尺度(Ratio measurements):具有零值且資料間的距離是相等被定義的。 如晶片的氧化層厚度 等距尺度(Interval measurements):資料間的距離是相等被定義的,定零值並非絕對的無,而是自行定義的。 如爐管的溫度(攝氏) 順序尺度(Ordinal measurements):數據的意義是並非表現在值上而是在其順序上。 如機台的編號 名目尺度(Nominal measurements):測量值不具量的意義。 如機台的廠商 資料整理 很多時候我們光看數字,會對研究主體沒感覺,所以引入畫圖來協助我們判斷資料。 資料的整理分為兩個部分: 審查資料 篩選有用的資料,收集來的資料是不是與預想的一致,資料是否有錯誤、遺漏、矛盾或是其它可疑的地方?應立刻設法檢查並更正。如果資料由不同單位蒐集而來,可能需要經過正常化(normalization)加以換算統一。太過複雜的資料應依照研究目的加以整理,以求簡化,並藉以顯示研究對象全體的通則。 資料表現 資料經過整理分析得到一些統計結果,為了方便說明,我們常以圖表的方式陳示出來,以供參考使用。 散點圖(Scatter plot): 可以看相關係數 常態分布圖(高斯分布圖 normal distribution, gauss distribution): 可以看數據分布→變異數(低濶峰變異數大,高狹峰變異數小) ...