[Statistics] a群體與b群體各別標準差求整體標準差

Given \(\sigma_a\) and \(\sigma_b\), Ask for \(\sigma\) 1. 簡化 \(\sigma\) 將 \(\sigma\) 乘開 \(\sigma = \sqrt{\frac{\sum{(x_i-\bar x)^2}}{n}}\) \(\sigma = \sqrt{\frac{\sum{x_i^2-2\bar x\sum{x_i}+n\bar x^2}}{n}}\) 平均等於總和除以個數 \(\frac{\sum x_i}{n}=\bar x\),故 \(\sigma = \sqrt{\frac{\sum x_i^2}{n}-\frac{2\bar x\sum x_i}{n}+\frac{n\bar x^2}{n}}\) \(\sigma = \sqrt{\frac{\sum x_i^2}{n}-2\bar x^2+\bar x^2}\) 得 \(\boxed{\sigma = \sqrt{\frac{\sum x_i^2}{n}-\bar x^2}}-(1)\) 2. 求個別平方和 由\((1)\)式可推得各別的標準差為 \(\boxed{\sigma_a = \sqrt{\frac{\sum x_{ai}^2}{n_a}-\bar x_a^2}}-(2)\) 且 \(\boxed{n = n_a+n_b}-(3)\) \(\boxed{\sum x_i^2=\sum x_{ai}^2+\sum x_{bi}^2}-(4)\) 欲求 \(\sum x_{ai}^2\),我們將\((2)\)式展開 \(\sigma_a^2 = \frac{\sum x_{ai}^2}{n_a}-\bar x_a^2\) \(\sigma_a^2+\bar x_a^2= \frac{\sum x_{ai}^2}{n_a}\) 得\(\boxed{\sum x_{ai}^2=n_a(\sigma_a^2+\bar x_a^2)}-(5)\) 3. 求總體標準差 由\((1)\)式展開 得 \(\boxed{\sigma = \sqrt{\frac{(\sum x_{ai}^2+\sum x_{bi}^2)}{n}-\bar x^2}}-(6)\) 將\((5)\)代入\((6)\) \(\boxed{\sigma=\sqrt{\frac{n_a(\sigma_a^2+\bar x_a^2)+n_b(\sigma_b^2+\bar x_n^2)}{n}-\bar x^2}}-(7)\) 其中 \(\boxed{\bar x=\frac{n_a\bar x_a + n_b\bar x_b}{n}}-(8)\) 故我們可以從上式輾轉得通式: \(\boxed{\sigma=\sqrt{\frac{\sum(n_i(\sigma_i^2+\bar x_i^2))}{n}-\bar x^2}}-(9)\) 或寫成 \(\boxed{\sigma=\sqrt{\frac{\sum(n_i(\sigma_i^2+\bar x_i^2))-\sum n_i\bar x_i}{n}}}-(9)\) summary 個數 \(\boxed{n=n_a+n_b=\sum n_i}\) 平均數 \(\boxed{\bar x=\frac{n_a\bar x_a+n_b\bar x_b}{n_a+n_b}=\frac{\sum{n_i\bar x_i}}{\sum{n_i}}}\) 標準差 \(\boxed{\sigma=\sqrt{\frac{n_{ai}(\sigma_{ai}^2+\bar x_{ai}^2)+n_{bi}(\sigma_{bi}^2+\bar x_{bi}^2)-(n_a\bar x_a+n_b\bar x_b)}{n_a+n_b}}=\sqrt{\frac{\sum(n_i(\sigma_i^2+\bar x_i^2))-\sum n_i\bar x_i}{\sum n_i}}}\) 4. sql 現有一 table 存有 avg_value std_value site_count with stats as ( select ... sum(site_count*avg_value)/sum(site_count) as avg_value, sqrt((sum(site_count*(square(std_value)+square(avg_value)))-sum(site_count*avg_value))/sum(site_count)) as std_value, sum(site_count) as site_count from data where ... group by ... ) select * from stats

December 12, 2023 · 1 分鐘 · Rain Hu
Oh! You closed up the window, so you cannot see raining

[統計] 統計學概要

本文是筆者基於工作上統計製程控制(Statistical Process Control, SPC) 的心得與學習筆記,可能有紕漏,僅供參考。 統計學(Statistics) 基本名詞 群體(population):研究對象的主體。 如上例的\(\red{\text{全國人民的政治傾向}}\)、\(\red{\text{此家工廠的產品品質}}\)。 樣本(sample):群體的一部分。 如上例的\(\red{\text{台灣部分的民眾}}\)、\(\red{\text{工廠部分的抽樣}}\)。 目的:了解美國總統大選誰會獲勝? 群體:美國有投票權的公民 此時不是美國公民的台灣民眾,就不會是這個題目的樣本。 參數(parameter):由群體資料所計算之群體表徵值。 統計量(statistic):由樣本資料所計算之樣本表徵值。 為何需要統計學? 統計學是一種工具,人們為了下決策所作的一系列蒐集資料、整理、分析、與解析,是目的導向的。 比方說,每次總統大選會花費大量人力,動員全國上下公教人員,花錢印選舉公報、印選票,選後還要花費大量的時間開票、驗票。假如我只是個學生想了解目前國家人民的政治傾向,不可能收集台灣上下每個人的答案,所以我們會進行抽樣。 比方說工廠出貨會抽樣調查產品有沒有損壞,不可能全部的產品都拿去做測試,因為成本太高。 藉由普查或抽樣的結果來描述全體的行為,作為決策的依據。 統計的目的:\(\red{\text{由樣本資料推論母體參數}}\)。 解決統計問題的五大步驟 問題定義 先決定你要討論的問題,跟此問題可能相關的對象為何?可以收集哪些資料? 定義問題的群體與樣本。 例如:我想了解 A 工廠「晶片良率」,我認為可能跟「晶片厚度」有關係。 群體:A 工廠生產的晶片良率 樣本:某段時間內 A 工廠某機台生產晶片的厚度 例如:我想了解 B 國小附幼「小朋友學習狀況」,我認為可能跟「A 考卷的成績」有關。 群體:B 國小附幼小朋友的學習狀況 樣本:某次活動後的一次學習單成績。 資料收集 要收集哪些資料?哪些資料有可能可以協助我解決我想了解的問題? 例如,收集晶片的氧化層厚度、爐管的溫度、機台的編號、機台的廠商 測量尺度 等比尺度(Ratio measurements):具有零值且資料間的距離是相等被定義的。 如晶片的氧化層厚度 等距尺度(Interval measurements):資料間的距離是相等被定義的,定零值並非絕對的無,而是自行定義的。 如爐管的溫度(攝氏) 順序尺度(Ordinal measurements):數據的意義是並非表現在值上而是在其順序上。 如機台的編號 名目尺度(Nominal measurements):測量值不具量的意義。 如機台的廠商 資料整理 很多時候我們光看數字,會對研究主體沒感覺,所以引入畫圖來協助我們判斷資料。 資料的整理分為兩個部分: 審查資料 篩選有用的資料,收集來的資料是不是與預想的一致,資料是否有錯誤、遺漏、矛盾或是其它可疑的地方?應立刻設法檢查並更正。如果資料由不同單位蒐集而來,可能需要經過正常化(normalization)加以換算統一。太過複雜的資料應依照研究目的加以整理,以求簡化,並藉以顯示研究對象全體的通則。 資料表現 資料經過整理分析得到一些統計結果,為了方便說明,我們常以圖表的方式陳示出來,以供參考使用。 散點圖(Scatter plot): 可以看相關係數 常態分布圖(高斯分布圖 normal distribution, gauss distribution): 可以看數據分布→變異數(低濶峰變異數大,高狹峰變異數小) ...

July 9, 2022 · 2 分鐘 · Rain Hu