Introduction to ML#
統計學與機器學習差在哪裡?#
同: 將資料(data)轉為資訊(info)
異: 有無強烈的人為事先假設
統計學
- 統計學是在資料分析的基礎上,研究如何測定、收集、整理、歸納和分析反映資料,以便給出正確訊息的科學。
機器學習
- 機器學習演算法是一類從資料中自動分析獲得規律,並利用規律對未知資料進行預測的演算法。
Item特性優點缺點專家Statistics伴隨事前假設,依賴明確規則,以模型定義資料關聯性,重視模型解釋性事前假設(人)→模型估計(機器)模型可解釋推論有強烈理論根據符合事前假設前提下,可做更多的推論符合事前假設前提下,不需大量資料所有推論接基於事前假設,常難以驗證假設的正確性難以抓取資料中過於複雜的特徵統計背景Machine Learning幾乎無視前假設,不依賴明確規則,相信經驗特徵萃取(機器)→網路建構(機器)不須事先假設或了解資料關聯性可抓取資料的所有(幾乎)複雜特徵模型難以解釋(黑盒子)推論無強烈理論根據資訊背景及統計背景
- 統計模型的重點是有合理的事前假設
- 在有合理假設之情況下,統計模型能發揮效力(即使資料量少)
- 機器學習的重點是大量有代表性的資料
- 在有大量有效資料之情況下,機器學習能發揮效力(即使人類對資料間的關聯之了解並不多)
- 何時使用統計方法? 何時使用機器學習?
- 資料關聯性清楚,容易給予合適的模型假設時,建議使用統計模型
- 資料無明確規則(如影像及語音辨識),且資料量夠多時,建議使用機器學習方法(可以佐以人為提示)
統計與機器學習類似的專有名詞#
Statisticscovariate, explanatory variable, independent variablemodelparameter, coefficientfittingrefression, classificationdensity estimation, clusterMachine Learningresponse, dependent variablefeaturenetworkweightlearningsupervised learningunsupervised learninglabel