close
課程Outline
1. 監督式學習(Supervised learning)簡介
2. 非監督式學習(Unsupervised learning)簡介
3. 模型表示(Model representation)
4. 代價函式(Cost function)
5. 梯度下降法(Gradient descent)
監督式學習(Supervised Learning)
Supervised Learning 即是代表測試 dataset 會有正確答案
圖 1. 1 房價預測問題
如圖 1. 1 紅色叉叉即表示該棟房子之坪數與其正確價位, Housing Price 即屬於一種迴歸問題, 模型會影響預測準確性
圖 1. 2 良性/惡性腫瘤問題
Breast Cancer 即屬於一種分類問題, 加入年齡特性為考量時可繪製成如圖 1. 3 的 2 維圖
圖 1. 3 二維良性/惡性腫瘤問題
如圖 1. 3 中分類問題透過一條線將類別進行切割, 使得其能以特性進行預測。
以上述問題中的特性(features), 如房價問題中的 size in feet, 或腫瘤問題中的 Tumor size 及 Age 都是預測問題中的特性, 然而實際上問題中能夠考量的特性非常多, 如房價還可以考量到當地氣候、離學校的距離、鄰居教育水平等等,腫瘤問題則像是腫瘤形狀、厚度、患者性別、生活習慣等等
在無限多種特性難以選擇下, 可以使用一種演算法稱為-支援向量(Support Vector)
非監督式學習(Unsupervised Learning)
Unsupervised Learning 中,所有樣本沒有對錯優劣之分, 也沒有任何 tag, 但樣本之間具有 Structure, 可以分成多個群組 (Clusters)
圖 1. 4 非監督式分群問題
以 Google News 為例:
圖 1. 5 Google News 頁面
Google 每天會把相似主題的新聞分至同一群中, 如圖 1. 5 所標示的紅線連結皆是與該新聞 Topic 相關的報導, 將報導連結分類供感興趣的人方便觀看
圖 1. 6 其他非監督式學習例子
雞尾酒宴會問題 Cocktail party problem
圖 1. 7 雞尾酒宴會問題
在一個宴會下, 兩人同時在說話,較難以辨別雙方在說什麼, 透過不同距離的麥克風所收到的音, 可以較清楚聽見 Speaker #1與Speaker #2所說的內容, Microphone #1 收到較清晰的 Speaker #1 說話內容, Microphone #2 則收到較清楚的 Speaker #2 聲音, 就像是替吵雜的聲音分了群組
模型表示(Model Representation)
監督式學習(Supervised Learning)
圖 1. 8 監督式學習模型符號
m 即是 training dataset 的樣本數量
一組 training data 可以用 表示, 而第幾個樣本則可用上標加註
圖 1. 9 監督式學習預測(房價問題為例)
h: Hypothesis
如圖 1. 9 中, 投入所欲預測的房子坪數,藉由監督式學習模型 h 可以得到預測的房價
線性迴歸模型
其中 為參數(parameters)
代價函式(Cost Function)
代價函式
圖 1. 10 參數設定及其代價函式
我們必須透過 training data 來求得 ,進而產生最適切的模型
圖 1. 11 參數設定及其代價函式
在線性迴歸函式中, 最常見代價函式為最小平均平方差法
原本式中是除以 m 得平均, 但為了後續最小化參數部份進行微分, 而多除以 2 使其微分後能夠抵銷
在極小化代價函式下找出最佳的
圖 1. 12 代價函式計算
以上圖為例來計算代價函式, 假設橘色點為 training data, 求代價函式
我們必須找到一個 使代價函數極小化, 因此可以畫出一個如圖 1. 13 二維極小化的凸函數圖形
圖 1. 13 參數與代價函式相關圖
整個 Machine learning 的參數、模型、指標可整理如下:
圖 1. 14 所需參數、模型、指標
若模型具有二維參數 , 則參數與代價函式將變成如圖 1. 15 三維的曲面圖了
圖 1. 15 參數與代價函式相關圖
梯度下降法(Gradient Descent)
以迭代使代價函式極小化以求出較佳參數θ0, θ1
圖 1. 16 梯度下降法示意圖
如圖 1. 16 隨著每次迭代的參數與其代價函式, 逐步計算下一代的參數,直到找到區域最佳解(Local Optima Solution), 但在不同初始位置時, 可能導致所找到的區域最佳解不同
圖 1. 17 梯度下降法參數更新公式
其中 為代價函式的切線斜率,以 為例,其切線斜率為 :
若切線斜率為正(圖 1. 18 左),則更新公式會使 往左調整使代價函式變小。
若切線斜率為負(圖 1. 18 右),則更新公式會使 往右調整使代價函式變小。
圖 1. 18 參數斜率與代價函式示意圖
其中 為學習速率(Learning rate),會影響每次迭代參數的收斂速度:
小時(圖 1. 19 左),收斂過慢。
大時(圖 1. 19 右),收斂快但可能會發散。
圖 1. 19 學習速率大小與代價函式示意圖
內容大部分擷取自 Coursera online courses - Machine Learning by Prof. Andrew Ng
僅供學習交流,如有任何侵權問題,煩請不吝告知,將立即移除
有任何問題歡迎留言交流,感謝
By Lach
文章標籤
全站熱搜
留言列表