今天是2020年3月13日星期五。不知不覺已經在家待了這麼多天了,從上一節EM算法開始,數學推導越來越多,用mathtype碼公式真的是太漫長了。本來該筆記是打算把《統計學習方法》這本書做詳細的解讀,起初面對書里大量的數學推導,感到非常恐懼。假期“空窗”時間不少,才有了細嚼慢咽學習的機會。其實很大的原因是自己掌握的東西太少,知道的算法太少,所以才對這本書恐懼。買了一直放着不願意學。現在到隱馬爾可夫模型,再有一章條件隨機場,監督學習部分就結束了。這一個月來,最大的收穫是知道了“怎麼學”。
新的章節拋出一個新的算法模型,往往丈二和尚摸不着頭腦,什麼都是新的。越是拖延進度越慢,更不能一口吃個胖子指望看一遍就能懂。書讀百遍,其意自見,一遍不懂就再看一遍,一遍有一遍的收穫。但這個過程千萬不要盯着一本書看,一定要多找博客,多看知乎、CSDN,保持審視的態度,保留自己的見解。另外,我是喜歡直接看文字,實在不懂了才去翻視頻看,覺得這種模式挺適合我。
學到第十章,發現書中的很多東西,沒必要面面俱到,要適當的取捨和放過。因為畢竟這本書不是一次性消耗品,是值得深究和研習的。第一次不懂的東西,完全可以學習完所有章節,建立大的思維格局后,再重新考慮小細節。
接下來的所有章節,從例子出發,引入各個概念;手寫推導過程;圖解算法流程;最後實現代碼。掰扯開來,其實也就是三個問題:該模型是什麼樣子的(考慮如何引入);該模型為什麼可以這樣做(考慮如何理解推導過程);該模型怎麼應用(考慮代碼實現和應用場景)。
GitHub:https://github.com/wangzycloud/statistical-learning-method
隱馬爾科夫模型
引入
隱馬爾科夫模型描述由隱藏的馬爾可夫鏈隨機生成觀測序列的過程,屬於生成模型。把這句話倒着思考一下:(1)該模型屬於生成模型,會不會類似EM算法中考慮的,一個觀測數據y的生成,中間需要經過一個隱藏狀態z。(2)很明顯這裏生成的不是單個數據,而是單個數據構成的一個序列,並存在時序關係。(3)馬爾可夫鏈是什麼?在生成數據序列的過程中扮演什麼角色?
先區分兩個概念,“狀態and觀測”。在我的理解里,“狀態”也好,“觀測”也罷,不過是表達隨機變量的一個說法。狀態會有多個狀態,觀測會有多個觀測,但同時只允許一個狀態或者一個觀測出現。例如,現在有四個盒子(灰、黃、綠、藍),李華在五天內選盒子取球,規定每天只能取一個盒子(每個盒子被選的概率一樣大)。問,李華這五天可能會有多少種取盒子的序列,並問取到某種序列的概率是多少?如下:
你知道的,這個組合數不小。因為每個盒子被選到的概率一樣大,所以每個序列出現的概率相同。李華每天在盒子里取球(紅、白),現在限制每個盒子紅球、白球數目相同(紅、白球各有五個)。問,李華五天內取到球的顏色的序列有多少種,並問取到某種序列的概率是多少?
顯然,這個組合數要小一些。因為每個盒子中紅白球數目相同,且此時盒子的選擇(狀態)對球的選取無影響,所以每個序列出現的概率相同。可是如果每個盒子中,紅白球的數量不是五五開,各不相同呢?李華五天內取球的某個序列的概率,就不再相同了。另外,除了受到盒子內紅白球的概率分佈影響,還要受到某天會抽到哪個盒子的概率分佈影響。
在上述例子中,把可能取到的盒子情況,稱作“狀態”;把可能會取到的球的情況,稱作“觀測”。在隱馬爾科夫模型中,盒子會取到的各種狀態,我們是觀測不到的。而球的各種情況我們是知道的,可以被觀測到。
取球要受到盒子所在狀態的影響,示意圖如下:
此時,還不能叫做隱馬爾可夫模型的示例。需要繼續給“取盒子->取球->得到觀測序列”的過程施加限制條件。比如說,t時刻取到某個盒子,要受到t-1時刻盒子的狀態影響。一個簡單的例子,t-1時刻盒子是綠盒子,t時刻一定取灰色盒子,且t-1時刻取到綠盒子不對t+1、t+2、…、T時刻產生影響。具體一點,就是讓“當前時刻隱藏狀態”只受上一時刻“隱藏狀態”影響,且與所處的時刻t無關。
通過一步步施加的各個條件,此時可以稱作隱馬爾可夫模型的示例了。
隱馬爾科夫模型的基本概念
先上例子,盒子和球模型。
在這個例子中有兩個隨機序列,一個是盒子的序列(狀態序列),也就是每次選取到的盒子序列,這個過程是隱藏的,觀測不到從哪個盒子取球;一個是球的顏色序列(觀測序列),我們只能知道取出來的各個球的顏色。
先分析一下取盒子環節,這是一個環環相扣的過程。從當前t-1時刻的盒子出發,考慮t時刻會取到哪個盒子,要符合規則。如當前盒子是1,根據上述規則,下一個盒子一定是盒子2。考慮t+2時刻會取到哪個盒子,要站在t+1時刻的盒子狀態上,決定取哪一個盒子。所謂的馬爾可夫性,很重要的一點,就是t-1時刻的狀態只決定t時刻的狀態(盒子1之後一定會取到盒子2),並不能決定t+1時刻狀態的取值(盒子1之後,決定不了盒子2之後會取哪個盒子)。
再看一下取球環節,對應着描述中的從盒子中隨機取球的過程。每個盒子裡邊紅、白球的數目不同,不同的盒子取到紅色球的概率不同。當前盒子有屬於自己的概率分佈,取球的概率不盡相同。
用數學語言完善完善以下過程:盒子可以構成一個集合;當前時刻的盒子如何確定下一個盒子,需要有狀態轉移概率;球可以夠成一個集合;從不同盒子裡邊取球,需要知道每個盒子的概率分佈;取了多少個球,需要有序列長度;最開始怎麼選第一個盒子。
根據所給的條件,有以下:
重點看一下狀態轉移矩陣。
熟悉了這個例子,再來理解數學上的各個概念。
這裏的狀態隨機序列就是每次取到盒子組成的序列,觀測序列就是球顏色的序列。隱馬爾科夫模型由狀態的初始概率分佈、狀態中間的轉移概率分佈以及觀測概率分佈組成。
對應着看,Q就是例子中盒子的集合,V就是球顏色的集合,I是盒子序列,O是顏色序列。
令A為狀態轉移矩陣:
這裏的變量i有點混亂,注意區分。公式10.2中,(1)aij中的i是狀態轉移矩陣A中的第i行的意思,aij也就是矩陣A中的第i行第j個元素,該值表示從第i個元素轉移到第j個元素的概率;(2)it+1、it中的i是指該狀態序列中的第t+1、第t個狀態,這裏i是序列的意思;(3)qi中的i是在狀態集合中取到哪個狀態的意思。
t+1時刻能夠取到哪個狀態,要受到t時刻狀態的影響。也就是在t時刻狀態取某個值的條件下,t+1時刻才會有什麼樣的取值。矩陣A維度為N*N,也就是要知道該時刻每個狀態對下一時刻每個狀態的影響。
觀測有M種,vk可以理解為觀測集合V中的第k個觀測。在盒子和球的例子中,可以看到每個觀測的取值,是由隱變量的狀態->哪個盒子決定的,並且只與當前的盒子有關係,每個盒子有各自取球的概率分佈。用概率符號表示就是公式10.4,表示在狀態為第j個盒子的情況下,觀測到vk的概率。
用π來表示初始概率向量,也就是t=1序列起始時,根據一定的概率分佈選擇第一個盒子。
在這裏,狀態轉移概率矩陣A與初始狀態概率向量π確定了隱藏的馬爾可夫鏈,可生成不可觀測的狀態序列。觀測概率矩陣B確定了如何從狀態生成觀測,與狀態序列綜合確定了如何產生觀測序列。
從上述描述及定義10.1可以看到,隱馬爾科夫模型做了兩個基本假設:
(1)再次回顧盒子和球模型,盒子的選擇是不是只規定了時序上前後相鄰的盒子該怎麼選;而沒有第一次選盒子1,第三次一定會選到盒子3這樣的規定。也就是在任意時刻t的狀態只依賴於其前一時刻t-1的狀態,這就是馬爾科夫鏈“齊次”的重要性質。
(2)觀測獨立性假設是指我們觀測到的每一次現象(紅球、白球),只與該球所在盒子的概率分佈有關,與其它盒子的概率分佈沒有一點關係!與其它時刻的觀測沒有一點關係!
觀測序列的生成過程可以由算法10.1描述。
HMM和CRF,與之前學習的各個模型,差別是比較大的,學習思路是要換一換。理解了隱馬爾科夫模型的基本概念,下一步就是要考慮該模型可以做什麼?怎麼做?這裏我接觸的不多,只能順着書本的思路,學習隱馬爾可夫模型的三個基本問題。
1)概率計算問題。很自然的,考慮一下某個觀測序列O出現的概率P(O|λ)。
2)學習問題。已知觀測序列,用極大似然估計的方法估計模型參數λ=(A,B,π)。
3)預測問題,也稱解碼問題。知道模型參數,給定觀測序列,求最有可能的對應的狀態序列。
概率計算算法
1)直接計算
已知模型參數λ=(A,B,π)和觀測序列O=(o1,o2,…,oT),計算觀測序列O出現的概率P(O|λ)。很容易想到,可以按照概率公式直接進行計算。把得到觀測數據的過程,想象成兩個階段:選取狀態和生成觀測。第一步得到狀態序列,第二步得到觀測序列,可以應用乘法原理。不同的觀測序列可以得到不同的觀測序列,可以應用加法原理。類似於全概率公式,通過列舉所有可能的狀態序列I,求各個狀態序列I上生成觀測O的概率(也就是I,O的聯合概率),然後對所有可能的狀態序列求和,得到P(O|λ)。
容易理解,公式(10.10)為全部狀態序列中某個狀態序列I的概率計算公式;公式(10.11)為在該狀態序列I條件下,觀測序列為O時的條件概率計算方法;公式(10.12)為聯合概率公式;公式(10.13)對所有可能的狀態I求和,也就是求O的邊緣概率(考慮在I出現的所有情況條件下,O出現的概率)。簡單分析下,若狀態數目為N,一共有T個狀態序列,所以狀態序列的可能性為NT。每一種狀態序列都要相應乘T個觀測概率,所以最後的時間複雜度為O(TNT)。用這種方法計算觀測序列O出現的概率,是非常低效的。接下來介紹高效的計算方式,前向-後向算法。
2)前向算法
先來看一個新概念“前向概率”:
放在示意圖上,如藍色虛線框α3(i)=P(o1,o2,o3,it=qi|λ),可以從聯合概率的角度理解。具體為 αt=3(灰色盒子)=P(o1=紅球,o2=白球,o3=紅球,it=3=灰色盒子|λ):
在前向概率的基礎上,定義前向算法為:
步驟(1),計算初值。注意這裏α1(i)應用向量來表示,在t=1,觀測取到o1時,各個隱藏狀態i都有到達o1的概率。計算分兩步,從初始概率πi到隱狀態qi,再從qi經發射矩陣到觀測o1,需要對每個隱藏狀態i計算。
步驟(2),前向算法遞推公式。αt(i)遞推到αt+1(i),公式(10.16)中的bi(ot+1)可以理解為下圖第二步,由所在的狀態qi經發射矩陣得到觀測ot+1;aji可以理解為下圖中的第一步,也就是由t時刻狀態qj經轉移矩陣在t+1時刻狀態為qi的過程。
公式(10.16)中的求和符號,實際上反映的是t+1時刻取qi時,其實t時刻的任何一個狀態都可以轉移到qi,因此要把t時刻的每種狀態都考慮到。
步驟(3),終止。公式(10.17)的求和符號挺好理解的,因為,對iT=qi求和,實際上相當於求觀測序列O的邊緣概率。
再來看一下書中的詳細解釋:
通過畫圖,是不是要好理解一些~前向算法高效就高效在利用先前的局部計算結果,通過路徑結構將局部結果“遞推”到全局。
看一下例10.2,基本上就可以理解這個計算過程了。
3)後向算法
相應的,後向算法先了解“後向概率”這個概念。
放在示意圖上,如綠色虛線框β2(i)=P(o3,…,oT-1,oT,it=qi|λ),可從條件概率的角度理解。具體為βt=2(綠色盒子)=P(o3=紅球,oT-1=紅,oT=紅球|it=2=綠色盒子,λ):
在後向概率的基礎上,定義後向算法為:
步驟(1),初始化後向概率。這裏將最終時刻的所有狀態qi規定為βT(i)=1以下示意圖簡單分析。
這就好像是βt(i)=P(ot+1,ot+2,…,oT|it=qi, λ)變成了βt(i)=P(it=qi, λ),此時對於it的所有取值,it=qi,是一個不爭的事實。
步驟(2),後向算法遞推公式。這裏的遞推方向是反向由T+1遞推到T,圖示如下:
這裏由T+1遞推到T,仍然需要①②兩處的連接。①是公式(10.20)中的aij,②是公式(10.20)中的bj(ot+1)。求和符號是t時刻qi到t+1時刻qj所有情況的匯總。取(qi=灰色盒子,ot+1=白球)進行分析:
T+1遞推到T,我覺得圖畫的應該差不多了…①②部分是怎樣起到連接作用的…大概就是上圖這樣吧…我解釋不出來…當然了,知乎也好CSDN也好,有詳細推導公式,我就不班門弄斧了。書面解釋如下:
於是,利用前向概率和後向概率的定義,可以將觀測序列概率P(O|λ)同一寫成:
示意圖好像是這個樣子:
公式(10.22)中,先來看前向概率的求和部分,i=1時,αt(1)是t時刻盒子為灰盒子,觀測序列為(o1,o2,…ot,it=q1)的概率;相應的,αt(2)是t時刻盒子為黃盒子,觀測序列為(o1,o2,…ot,it=q2)的概率;αt(3)是t時刻盒子為綠盒子,觀測序列為(o1,o2,…ot,it=q3)的概率;αt(4)是t時刻盒子為藍盒子,觀測序列為(o1,o2,…ot,it=q4)的概率。那麼求和自然就代表着,不考慮盒子的影響,觀測序列為(o1,o2,…ot)的邊緣概率。對應示意圖,也就是消除了t時刻狀態的影響。
同理,後向概率的求和部分,在示意圖中相當於消除了t+1時刻狀態的影響。①對應着公式(10.22)中的aij,建立連接。②對應着公式(10.22)中的bj(ot+1),將ot+1時刻的觀測計入統計。
4)一些概率與期望值的計算
利用前向概率和後向概率,可以得到關於單個狀態和兩個狀態概率的計算公式。頭幾遍看這幾個公式的時候,丈二和尚摸不着頭腦,不知道這幾個概率計算有什麼用,就沒怎麼好好看。編寫這部分代碼的時候,發現這幾個公式挺重要的。在學習算法小結,對估計模型參數非常有用。公式介紹的挺具體的,這裏就不在畫圖了…學習的時候隨手畫畫圖,就能理解了~
1)求單個狀態的條件概率:
還是畫吧,這裏γt(i)反映是在給定觀測序列O條件下,t時刻處於狀態qi的概率。如下圖,γt(i=灰色盒子)。
2)求兩個連續狀態的條件概率:
如下圖所示ξt(i,j)反映的是,在給定觀測序列O的條件下,t時刻狀態為灰色盒子、t+1時刻狀態為綠色盒子的條件概率。
3)一些有用的期望,在學習算法小節可以看到用處:
學習算法
書中提到,我們進行隱馬爾可夫模型的學習,也就是對模型參數進行估計。根據訓練數據是包括觀測序列和對應的狀態序列,還是只有觀測序列,可以分別由監督學習和無監督學習實現,這裏監督學習方法實際上就是利用極大似然估計。
1)監督學習方法。書中直接給出了參數估計公式,這裏簡單摘抄下~
2)無監督學習方法。顧名思義,無監督方法也就是只有觀測序列,進行參數估計的方法。由於監督學習需要使用標註的訓練數據,而人工標註訓練數據往往代價很高。因此有時候就會利用無監督學習的方法。我們可以將觀測序列數據看作EM算法中的不完全數據,狀態序列數據看作EM算法中不可觀測的隱數據,那麼隱馬爾可夫模型就可以看作是含有隱變量的概率模型。於是,可以通過EM算法求解。
詳細過程如下:
1.確定完全數據的對數似然函數
2.EM算法的E步:求Q函數Q(λ,λ^)
3.EM算法的M步:極大化Q函數Q(λ,λ^)求模型參數A,B,π
書本上有詳細的推導公式,看懂了2/3,先不摘抄了。有空了把理解了的整理上來,參數估計公式如下:
於是,有以下Baum-Welch算法,從這裏可以發現一些期望的用處:
預測算法
預測算法,也就是根據已知的觀測序列,找到概率最大的狀態序列(最有可能的對應的狀態序列)。
應用維特比算法,相當於有向無環圖求最短路徑,網上有大量詳細的資料,暫不整理了~
代碼效果
本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】
※USB CONNECTOR掌控什麼技術要點? 帶您認識其相關發展及效能
※台北網頁設計公司這麼多該如何選擇?
※智慧手機時代的來臨,RWD網頁設計為架站首選
※評比南投搬家公司費用收費行情懶人包大公開
※回頭車貨運收費標準
※網頁設計最專業,超強功能平台可客製化
※別再煩惱如何寫文案,掌握八大原則!