【機器學習懶人包】從數據分析到模型整合,各種好用的演算法全都整理給你啦! | TechOrange 科技報橘
【為什麼我們要挑選這篇文章】機器學習是人工智慧背後的基礎技術,透過機器學習,電腦可以自動分析數據並進行預測,優化系統的性能。現在有哪些常見的機器學習演算法?各有什麼優缺點?下文列出工程師常用的機器學習演算法,熟悉它們,將提升你的 coding 高度。(責任編輯:郭家宏) 「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 詳細職缺訊息 快將你的履歷自傳寄至 jobs@fusionmedium.com」 說到分類演算法,相信學過機器學習的人都能講出一兩個。 可是,你能夠如數家珍地說出所有常用的分類演算法,以及他們的特徵、優缺點嗎?例如,你可以快速地回答下面的問題嗎: KNN 演算法的優缺點是什麼? Naive Bayes 演算法的基本假設是什麼? entropy loss 是如何定義的? 分類演算法調參常用的圖像又有哪些? 答不出來?別怕!一起來透過這篇文章,回顧一下機器學習分類演算法吧(本文適合已有機器學習分類演算法基礎的朋友)。 機器學習:電腦利用數據自主學習並優化性能 機器學習是一種能從數據中學習的電腦程式科學以及藝術,就像下面這句話: 機器學習是使電腦無需顯式程式碼就能學習的研究領域。 ——阿瑟.塞繆爾,1959 年 不過還有一個更好的定義: 如果一個程式在使用既有的經驗(E)執行某類任務(T)的過程中被認為是「具備學習能力的」,那麼它一定需要展現出:利用現有的經驗(E),不斷改善其完成既定任務(T)的性能(P)的特性。 ——Tom Mitchell, 1997 例如,你的垃圾郵件過濾器是一個機器學習程式,透過學習用戶標記好的垃圾郵件和常規非垃圾郵件,它可以學會標記垃圾郵件。系統用於學習的範例稱為訓練集。在此案例中,任務(T)是標記新郵件是否為垃圾郵件,經驗(E)是訓練數據,性能度量(P) 需要定義。例如,你可以定義正確分類的電子郵件的比例為 P。這種特殊的性能度量稱為準確度,這是一種有監督的學習方法,常被用於分類任務。 機器學習入門指南 監督學習:演算法從標記的數據中學習 在監督學習中,演算法從標記的數據中學習。在理解數據之後,該演算法透過將模式與未標記的新數據關聯,來確定應該給新數據賦哪種標籤。 監督學習可以分為兩類:分類和迴歸。 分類問題預測數據所屬的類別,例子包括垃圾郵件檢測、客戶流失預測、情感分析、犬種檢測等;迴歸問題則根據先前觀察到的數據預測數值,例子包括房價預測、股價預測、身高體重預測等。 機器學習新手的十大演算法之旅 分類:透過自變數判定應變數類別 分類是一種基於一個或多個自變數,判定應變數所屬類別的技術。 邏輯迴歸 邏輯迴歸類似於線性迴歸,適用於應變數不是一個數字的情況(例如,一個「是/否」的回應)。它雖然被稱為迴歸,但卻是基於根據迴歸的分類,將應變數分為兩類。 如上所述,邏輯迴歸用於預測二分類的輸出。例如,如果信用卡公司建構一個模型來決定是否通過客戶的信用卡申請,它將預測客戶的信用卡是否會「違約」。 首先對變數之間的關係進行線性迴歸以構建模型,分類的閾值假設為 0.5。 然後將 Logistic 函數應用於迴歸分析,得到兩類(是或否)的機率。 該函數給出了事件發生和不發生機率的對數。最後,根據這兩類中較高的機率對變數進行分類。 K-近鄰演算法(K-NN) K-NN 演算法是一種最簡單的分類演算法,透過識別被分成若干類的數據點,以預測新樣本點的分類。K-NN 是一種非參數的演算法,是「懶惰學習」的著名代表,它根據相似性(如,距離函數)對新數據進行分類。 K-NN 能很好地處理少量輸入變數(p)的情況,但當輸入量非常大時就會出現問題。 支持向量機(SVM) 支持向量機既可用於迴歸也可用於分類。它基於定義決策邊界的決策平面。決策平面(超平面)可將一組屬於不同類的對象分開。 […]
·buzzorange.com·