語音識別技術之自適應技術

來源：網絡編輯：ZZZ 2024-02-22 10:05:56 加入收藏

　　1. 語音識別技術中的自適應技術簡介

　　語音識別中的自適應，即針對某一個說話人或者某一domain來優(yōu)化語音識別系統(tǒng)的識別性能，使得識別系統(tǒng)對他們的性能有一定的提升。語音識別的自適應技術的目的是為了減少訓練集和測試集說話人或者domain之間差異性造成的語音識別性能下降的影響。這種差異性主要包括語音學上的差異還有生理上發(fā)音習慣上不同導致的差異性等等。自適應技術主要被應用于語音識別技術相關的產品，還有針對VIP客戶的語音識別等。

　　上述的差異性問題，它容易造成說話人或者domain無關的識別系統(tǒng)性能上不好，但是如果針對該說話人或者domain訓練一個相關的識別系統(tǒng)，那么需要收集很多數據，這個成本是很高的。而語音識別中的自適應技術作為一種折中，它的數據量較少，并且性能上也能達到較好的效果。

　　語音識別中的自適應技術有很多，根據自適應的空間，可以分成兩類：特征空間自適應和模型空間自適應。對于特征空間自適應來說，它試圖將相關的特征通過特征轉換成無關的特征，從而能夠和無關的模型相匹配。而對于模型空間的自適應來說，它試圖將無關的模型轉換成相關的模型，從而能夠和相關的特征相匹配?？偠灾@兩類算法目的是為了讓相關的特征與無關的模型相匹配。

　　2. INTERPSEECH 2017 paper reading

　　2.1 Paper 1

　　第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition，它來自蒙特利爾大學。這篇文章的主要思想是將layer normalization的scale和shift兩個參數由上下文無關的變成上下文相關的，從而根據上下文信息來獲得動態(tài)的scale和shift。這是一種模型空間的自適應。它的主要創(chuàng)新的地方主要是，它不需要自適應階段(自適應階段就是使用目標 domain的數據進行自適應，從而能夠學習到目標domain的知識)，另外，它同樣不需要提供包含說話人信息的相關特征，例如i-vector等等。

　　DLN對應的公式如上圖右邊所示，首先，取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進行summarization，從而獲得alal。然后，通過線性變換矩陣和偏置來動態(tài)地控制scale ( αlgαgl )和shift ( βlgβgl )。

　　同時，在原來的CE訓練的基礎上，在目標函數上增加一個懲罰項(上圖的右下角LvarLvar)，用于增加句子內的variance，從而summarization出來的信息會更加具有區(qū)分性。

　　這篇paper主要是在81小時的WSJ以及212小時的TED數據集上進行實驗，WSJ的訓練集包含283個說話人，TED的訓練集包含5076個說話人。

　　首先，在WSJ數據集上對比LN和DLN之間的性能，性能主要包括開發(fā)集和測試集的FER和WER(FER表示幀錯誤率，WER表示詞錯誤率)。可以看出，除了測試集WER外，DLN均優(yōu)于LN。文章分析，這是由于WSJ的說話人數目較少，導致句子間的差異性不明顯，同時WSJ數據集是在安靜環(huán)境下錄制的，句子都比較平穩(wěn)，DLN不能夠起作用。

　　在TED數據集上的結果如第二個表格所示，發(fā)現在四個性能參數下，DLN均優(yōu)于LN。文章對比WSJ和TED數據，TED數據集能夠取得比較好的性能的原因是，TED數據集較WSJ speaker數目更多，句子數更多，variability更加明顯。通過這篇文章，我們可以發(fā)現這種動態(tài)的LN與句子的variability相關。并且總體上看來，DLN是要優(yōu)于LN。

　　2.2 Paper 2

　　第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning，它來自微軟。這篇文章的主要思想是通過teacher/student的結構來進行domain adaptation。這種方法不需要目標 domain的帶標注的數據。但是，它需要和訓練集相同的并行數據。它的創(chuàng)新點和價值主要在于，這種方法可以使用非常多的無標注數據，同時借用teacher network的輸出來進一步提升student模型的性能。

　　將teacher/student 簡稱為T/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側為teacher network，右側為student network，它們的輸出后驗概率分別設為PTPT和PSPS。

　　student network的訓練過程：首先，將teacher network復制一份作為student network的初始化。然后，利用student domain data和teacher domain data通過對應的網絡獲得相應的后驗概率PTPT和PSPS。最后，利用這兩個后驗概率計算error signal，進行back梯度反傳更新student network。

　　本paper的實驗是在375小時的英文cortana數據上進行的。測試集根據不同的domain，有不同的測試集。

　　針對干凈/帶噪，在Cortana測試集上進行實驗。首先，使用teacher network進行測試，發(fā)現在帶噪語音上測試性能(18.8%)要遠差于noise-free的語音(15.62%)。如果通過仿真的方式來訓練teacher network，發(fā)現noisy的測試性能(17.34%)有一定的提升，這個等價于在student network上使用hard label來訓練。第四行和第五行使用T/S 算法，在同樣數據量上，soft label (16.66%)要優(yōu)于hard label (17.34%)。如果將訓練student network的數據增加到3400小時，性能會有進一步的提升(16.11%)。

　　對于成年人/小孩來說，實驗首先將375小時中的女性以及兒童數據去除，獲得adult male 模型。實驗發(fā)現，小孩的識別性能很差，分別是39.05和34.16。與干凈/帶噪相同，在使用T/S算法后，能夠在性能上獲得進一步的提升，并且數據擴大對于性能是有優(yōu)勢的。

　　2.3 Paper 3

　　第三篇文章是來自香港科技大學和谷歌的文章。這篇文章主要的想法和創(chuàng)新點是將Factorized Hidden Layer (FHL)的自適應方法應用于LSTM-RNN。

　　對于FHL adaptation算法來說，它在說話人無關的網絡權重WW基礎上加上一個說話人相關的網絡權重，從而獲得說話人相關的網絡權重WsWs。根據公式(7)，我們可以看到，這個SD transformation是根據一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過線性插值得到。同樣，對神經網絡的偏置bb也可以進行相應的說話人相關變換。

　　但是，在實際實驗中，由于矩陣基會帶來大量的參數引入，這些矩陣基都被限制為rank-1，因此公式(7)可以進行一些變換，如上圖右邊所示。由于矩陣基為rank-1，那它可以被表示成一個列向量γ(i)γ(i)和一個行向量ψ(i)Tψ(i)T相乘的形式。同時，插值矢量被表示成對角矩陣DsDs的形式。這樣便獲得三個矩陣ΓΓ、DsDs和ΨTΨT連乘的方式，方便模型訓練。

　　本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進行speaker-dependent scale。通過公式帶入，發(fā)現，只要對每一個說話人學習zszs即可以進行說話人相關的scaling。但是這種算法存在一個問題，zszs的維度與網絡的層寬相關，參數量大。因此，一種subspace scaling的方法被提出，它通過一個固定維度的low-dimensional vector vsvs來控制zszs，vsvs的維度遠小于zszs，從而大大地減少了說話人相關的參數量。