<kbd id="ia2e8"><input id="ia2e8"></input></kbd><u id="ia2e8"></u>
  • <blockquote id="ia2e8"></blockquote>
  • <blockquote id="ia2e8"></blockquote>
  • <samp id="ia2e8"><label id="ia2e8"></label></samp>
  • 音頻信號處理的制作方法

    文檔序號:26102439發布日期:2021-07-30 18:13
    音頻信號處理的制作方法

    相關申請的交叉引用

    本公開要求于2018年12月28日提交的、申請號為16/236,208的美國申請的優先權的權益,其全部內容通過引用并入本文。



    背景技術:

    在存在環境噪聲、背景聲音、設備噪聲、房間混響等干擾的惡劣聲學環境中,可能很難實現講話者識別。

    附圖說明

    參考附圖闡述詳細描述。在附圖中,附圖標記的最左邊的數字標識首次出現該附圖標記的附圖。在不同的附圖中使用相同的附圖標記表示相似或相同的項或特征。

    圖1例示了用于音頻信號處理的系統的示例框圖。

    圖2例示了卷積神經網絡(cnn)的示例配置的表。

    圖3例示了基于初始(inception)塊的cnn的示例框圖。

    圖4例示了基于初始塊的cnn的示例配置的表。

    圖5例示了基于初始塊的cnn的層/塊的參數表。

    圖6例示了以時間擴展的方式展開的用于音頻信號處理的系統的示例框圖。

    圖7例示了具有跳過連接的話語(utterance)級嵌入提取機制的示例框圖。

    圖8例示了用于音頻信號處理的處理的示例流程圖。

    圖9例示了用于音頻信號處理的示例系統900。

    具體實施方式

    本文討論的系統和方法涉及改進音頻信號處理,并且更具體地,涉及改進講話者識別。

    說明書中的術語可以表示如下。講話者嵌入/表示是指表征通過機器學習系統從大規模語音(speech)數據中學習到的講話者信息的向量。與文本無關的講話者識別是指不依賴于特定語音內容的講話者識別。與文本相關的講話者識別是指限定所需內容的講話者識別。cnn是指一種廣泛應用于圖像/語音識別和視頻分析的前饋神經網絡。遞歸神經網絡(rnn)是指一種用于描述動態時間行為和模型時間序列信息的神經網絡。

    圖1例示了用于音頻信號處理的系統100的示例框圖。

    系統100可以包括數據準備機制102、段級(segment-level)嵌入提取機制104、話語級嵌入提取機制106和分類/識別機制108。

    數據準備機制102可以接收音頻/語音信號110,該音頻/語音信號110可以是話語/句子形式的時域信號。在口語分析中,話語是最小的語音單位??梢詮臄祿蛘鎸嵱涗浿蝎@得音頻/語音信號110,其中不同的講話者可能在具有噪聲干擾的各種環境中講話。

    數據準備機制102可以以預定窗口大小和預定窗口移位來對音頻/語音信號110進行幀化,以獲得幀序列(sequence)。作為示例,預定窗口大小可以是25ms,并且預定窗口移位可以是10ms。預定窗口大小和預定窗口移位可以根據需要進行調整,并且不限于此。

    數據準備機制102可以將音頻/語音信號110的幀分組成段序列,各個段具有預定長度。所述段的預定長度(即,預定數量的幀)可以根據需要進行調整。例如,預定長度可以是10個幀、64個幀等。相鄰段之間可以存在重疊或不存在重疊,并且可以丟棄音頻/語音信號110的尾部(該尾部的長度小于預定長度)。

    數據準備機制102可以基于音頻/語音信號110的各個幀獲得多維特征。例如,濾波器組(未示出)可以用于將音頻/語音信號110的幀序列轉換成多維特征序列。多維特征可以是但不限于64維(64d)向量。針對段,也可以獲得多維特征。例如,如果段包括10個幀,則該段的多維特征將是64×10矩陣。如果段包括64個幀,則該段的多維特征將是64×64矩陣。

    上下文中的向量和矩陣的定義是簡單的數學定義。n維的向量是元素的有序集合,所述元素也稱為分量,其中n是正整數。矩陣是按行和列排列的數字、符號或表達式的陣列。音頻/語音信號110可以被視為向量。矩陣可以用于表示段的多維特征,其中矩陣的各個列表示一個幀的多維特征。如果段的矩陣維度是64×10,則這將意味著該段中將存在10個幀,并且各個幀存在64d向量。如果段的矩陣維度是64×64,則這將意味著段中將存在64個幀,并且各個幀將存在64d向量。

    數據準備機制102可以對多維特征序列執行歸一化,以獲得經歸一化的幀級特征112的序列。歸一化可以是均方差歸一化。即,多維特征序列中的各個多維特征可以被歸一化為零均值和單位方差。數據準備機制102可以將經歸一化的幀級特征112的序列提供至段級嵌入提取機制104。

    段級嵌入提取機制104可以基于經歸一化的幀級特征112的序列生成段級嵌入/表示114的序列。嵌入/表示可以被認為是對期望信息進行了編碼的向量。例如,在包括講話者識別和驗證的講話者識別中,嵌入/表示可以指對講話者信息進行了編碼的向量。例如,段級嵌入/表示114可以對包括預定數量的幀(諸如10個幀、64個幀等)的段內的講話者信息進行編碼。例如,段級嵌入提取機制104的輸入可以是64×10矩陣,而段級嵌入提取機制104的輸出可以是64×8矩陣(可以將該64×8矩陣視為512維(512d)向量)。又例如,段級嵌入提取機制104的輸入可以是64×64矩陣,而段級嵌入提取機制104的輸出可以是512×1矩陣(可以將該512×1矩陣視為512維(512d)向量)。這里使用的數字是為了描述而不是將本發明限制于此。段級嵌入提取機制104可以將段級嵌入/表示114的序列提供至話語級嵌入提取機制106。

    段級嵌入提取機制104被設計為開放框架,該開放框架可以并入有任何合適的自適應/學習機制,諸如cnn、包括長短期記憶(lstm)的遞歸神經網絡(rnn)或門控遞歸單元(gru)rnn的rnn、深/淺多層感知器(mlp)、其任何組合等。人工神經網絡的現代設計或改進也可以并入段級嵌入提取機制104中。

    話語級嵌入提取機制106可以基于段級嵌入/表示114的序列生成話語級嵌入/表示116。例如,話語級嵌入提取機制106的輸入可以是512d向量的序列。話語級嵌入提取機制106可以將512d向量的序列編碼成話語級嵌入/表示116,該話語級嵌入/表示116是512d向量。結果,話語級嵌入/表示116可以包含整個話語/句子的講話者信息。

    話語級嵌入提取機制106被設計為開放框架,該開放框架可以并入有任何合適的自適應/學習機制,諸如cnn、rnn、lstmrnn、grurnn、mlp、其任何組合等??梢允褂闷渌线m的技術來減少話語級嵌入提取機制106的參數數量,同時保持相似的性能。人工神經網絡的現代設計或改進也可以并入話語級嵌入提取機制106中。

    另外地或另選地,可以添加批量歸一化機制(未示出),以跨時間維度對段級嵌入/表示114的序列進行歸一化。在那種情況下,輸入至話語級嵌入提取機制106的段級嵌入/表示114的序列已被歸一化。

    可以利用任何合適的算法/方法來訓練系統100。例如,交叉熵損失可以用于訓練系統100??梢月摵系鼗騿为毜赜柧毝渭壡度胩崛C制104和話語級嵌入提取機制106。另外地或另選地,可以引入三重態損失(tripletloss)以對經訓練的系統100進行再訓練,而無需修改系統結構。

    在訓練后,系統100可以用于各種任務,諸如講話者識別和驗證等。例如,可以將包括來自一個或更多個講話者的具有噪聲干擾的語音的音頻信號110輸入至系統100。系統100可以以分層的方式(即,從幀級特征112到段級嵌入/表示114再到話語級嵌入/表示116)提取講話者的嵌入的話語/句子。話語級嵌入提取機制106可以將話語級嵌入/表示116饋送至分類/識別機制108。分類/識別機制108可以通過將話語級嵌入/表示116分類至與講話者的身份(id)相關聯的類別來基于話語級表示從音頻信號108中識別一個或更多個講話者。即,分類/識別機制108可以做出指示音頻/語音信號110屬于哪個講話者的判斷。

    分類/識別機制108被設計為開放框架,該開放架構可以并入有能夠處理多類別的任何合適類型的分類器。例如,可以將人工神經網絡(ann)、支持向量機(svm)、樸素貝葉斯分類器、其任何組合等并入分類/識別機制108中。

    分類/識別機制108可以包括線性層和softmax層(未示出)。softmax函數通常用于基于神經網絡的分類器的最后一層。通常在對數損失(或交叉熵)狀態下訓練這種網絡,從而給出多項式邏輯回歸的非線性變型。softmax函數的輸出可以用于表示分類分布(即,許多不同可能結果上的概率分布)。話語級嵌入提取機制106可以將話語級嵌入/表示116饋送至線性層和softmax層。線性層可以將話語級嵌入/表示116映射至預定維度向量中。例如,如果講話者的數量是1251,則線性層會將512d向量映射至1251d向量。在通過softmax層后,1251d向量的各個元素可以具有對應于與類別相關聯的概率的值??梢赃x擇具有最大值的元素來確定輸入音頻信號屬于哪個類別。各個類別可以與講話者的id相關聯。作為示例,如果1251d向量的第r個元素是最大值,則輸入話語/句子將被確定為屬于第r類(第r類可以對應于第r個講話者的id),其中1≤r≤1251。即,輸入話語/句子屬于第r個講話者。本文討論的數字和符號是出于描述的目的而使用,而不是將本申請限制于此。

    系統100的魯棒性可以通過利用真實世界的數據進行訓練來實現,其中不同的講話者可能在具有噪聲干擾的各種環境中講話。例如,訓練的代碼可以基于任何合適的算法/方法,諸如開源深度學習框架等。訓練數據可以是來自可公開訪問的資源(諸如在線音頻/視頻資料)的公共數據集。在分類階段期間,可以使用與已知模式有關的信息來訓練嵌入/表示向量數據??梢曰谧R別準確度來評估分類機制的性能。

    另外地或另選地,語音活動檢測(vad)機制(未示出)可以被添加至系統100中。作為示例,vad機制可以布置在數據準備機制102之前,并且用于移除音頻/語音信號110的靜默部分。針對幾乎沒有靜默的音頻/語音信號,不需要添加vad機制。然而,針對在真實世界環境中記錄的音頻/語音信號,vad機制可能是有用的。作為另一示例,vad機制可以被并入數據準備機制102中,并且用于移除表示靜默部分的幀。

    系統100結合了段級嵌入提取機制104和話語級嵌入提取機制106的特性。系統100使用段級嵌入提取機制104來獲得時頻特征的良好魯棒性并獲得針對不利的聲學環境(諸如噪聲)的魯棒性。同時,系統100還使用話語級嵌入提取機制106來對時間序列進行建模并且非線性地組合話語/句子的段級嵌入/表示114的序列,以獲得更好的識別性能。另一方面,話語級嵌入提取機制106的使用允許系統100處理具有可變長度的音頻/語音信號,而無需附加的設計或附加的處理。

    圖2例示了cnn的示例配置的表200。

    作為示例,段級嵌入提取機制104可以被實現為cnn。cnn的配置至少部分地取決于輸入至cnn的矩陣的維度。例如,音頻/語音信號的段的長度是10幀,并且輸入至cnn的矩陣的維度是64×10。cnn可以采用64×10矩陣(幀級特征)并輸出512d向量(段級嵌入/表示)。

    參考圖2,cnn可以包括第一卷積層(conv1)、第一最大池化層(maxpool1)、第二卷積層(conv2)、第二最大池化層(maxpool1)和第三卷積層(conv3)。針對各個層,給出了諸如內核大小、跨度、填充、濾波器的數量和數據大小的參數,其中數據大小表示在處理所述層后由該層輸出的向量的維度。

    針對第一卷積層(conv1),內核大小可以是3×3,跨度可以是(1,1),填充可以是1,濾波器的數量可以是256,并且數據大小可以是128×64×10。

    針對第一最大池化層(maxpool1),內核大小可以是2×2,跨度可以是(2,2),填充可以是0,并且數據大小可以是128×32×5。

    針對第二卷積層(conv2),內核大小可以是3×3,跨度可以是(2,2),填充可以是1,濾波器的數量可以是256,并且數據大小可以是256×16×3。

    針對第二最大池化層(maxpool1),內核大小可以是2×3,跨度可以是(2,1),填充可以是0,并且數據大小可以是(256×8×1)。

    針對第三卷積層(conv3),內核大小可以是1×1,跨度可以是(1,1),填充可以是0,濾波器的數量可以是64,并且數據大小可以是64×8×1。大小是64×8×1的向量可以被認為是512d向量。第三卷積層(conv3)被設計用于降維,以實現512d段級嵌入/表示(其是具有512個元素/分量的向量)。

    另外地或另選地,在第一卷積層conv1和第二卷積層conv2后,可以添加批量歸一化(未示出)。該批量歸一化的激活函數可以是整流線性單元(relu)。批量歸一化是用于改進人工神經網絡的性能和穩定性的技術。批量歸一化可以用于通過調整和縮放激活來對輸入層進行歸一化。

    圖3例示了基于初始塊的cnn300的示例框圖。

    作為示例,段級嵌入提取機制104可以被實現為基于初始塊的cnn300。如果音頻/語音信號的段的長度是64幀,則輸入至基于初始塊的cnn300的矩陣的維度將是64×64?;诔跏級K的cnn300可以采用64×64矩陣(幀級特征)并輸出512d向量(段級嵌入/表示)。

    參考圖3,先前層302可以聯接至塊1、塊2、塊3和塊4。塊1可以包括第一內核304(conv1×1)。塊2可以包括第二內核306(conv1×1)和第三內核308(conv3×3)。塊3可以包括第四內核310(conv1×1)、第五內核312(conv3×3)和第六內核314(conv3×3)。塊4可以包括第七內核316(maxpool3×3)和第八內核318(conv1×1)。塊1、塊2、塊3和塊4可以聯接至濾波器級聯(concatenation)模塊320。

    在基于初始塊的cnn300中,具有不同大小的內核部署在同一層中,從而使基于初始塊的cnn300更寬而不是更深。

    圖4例示了基于初始塊的cnn300的示例配置的表400。如圖4所示,可以確定基于初始塊的cnn300的超參數集。

    參考圖4,針對塊1的第一內核(conv1×1)304,內核大小可以是1×1,跨度可以是2,填充可以是0,濾波器的數量(內(in))可以是n,濾波器的數量(外(out))可以是m。

    針對塊2的第二內核(conv1×1)306,內核大小可以是1×1,跨度可以是1,填充可以是0,濾波器的數量(內)可以是n,濾波器的數量(外)可以是m/2。

    針對塊2的第三內核(conv3×3)308,內核大小可以是3×3,跨度可以是2,填充可以是1,濾波器的數量(內)可以是m/2,濾波器的數量(外)可以是m。

    針對塊3的第四內核(conv1×1)310,內核大小可以是1×1,跨度可以是1,填充可以是0,濾波器的數量(內)可以是n,濾波器的數量(外)可以是m/2。

    針對塊3的第五內核(conv3×3)312,內核大小可以是3×3,跨度可以是1,填充可以是1,濾波器的數量(內)可以是m/2,濾波器的數量(外)可以是m。

    針對塊3的第六內核(conv3×3)314,內核大小可以是3×3,跨度可以是2,填充可以是1,濾波器的數量(內)可以是m,濾波器的數量(外)可以是m。

    針對塊4的第七內核(maxpool3×3)316,內核大小可以是3×3,跨度可以是2,填充可以是1,濾波器的數量(內)可以是n,濾波器的數量(外)可以是n。

    針對塊4的第八內核(conv1×1)318,內核大小可以是1×1,跨度可以是1,填充可以是0,濾波器的數量(內)可以是n,濾波器的數量(外)可以是m。

    各個塊(塊1、塊2、塊3和塊4)可以被視為具有不同內核的層。針對不同層,n和m是不同數字,并且細節在圖5中呈現。

    圖5例示了基于初始塊的cnn300的層/塊的參數的表500。

    參考圖5,針對塊1,n可以是1,m可以是64,并且數據大小可以是256×32×32。針對塊2,n可以是256,m可以是64,并且數據大小可以是256×16×16。針對塊3,n可以是256,m可以是128,并且數據大小可以是512×8×8。針對塊4,n可以是512,m可以是128,并且數據大小可以是512×4×4。針對maxpool層(4×4),數據大小可以是512×1×1。

    圖6例示了以時間擴展的方式展開的用于音頻信號處理的系統600的示例框圖。

    系統600可以包括可以根據一系列時間步長展開的段級嵌入提取機制602和話語級嵌入提取機制604。例如,幀級特征606、608、…、和610的序列可以用作段級嵌入提取機制602的輸入。如果所述序列中幀級特征的數量是n(其中n是正整數),則段級嵌入提取機制602和話語級嵌入提取機制604將根據n個時間步長(即,t1、t2、…、和tn)展開。

    幀級特征606、608、…、和610的序列可以分別用作在t1612、t2614、…、和tn616處的展開的段級嵌入提取機制的輸入。t1612、t2614、…、和tn616處的展開的段級嵌入提取機制可以分別輸出段級嵌入/表示624、626、…、和628的序列。段級嵌入/表示624、626、…、和628的序列可以分別用作在t1618、t2620、…、和tn622處的展開的話語級嵌入提取機制的輸入。在t1618、t2620、…、和tn622處的展開的話語級嵌入提取機制可以分別對段級嵌入/表示624、626、…、和628的序列進行編碼,以獲得話語級嵌入/表示630,該話語級嵌入/表示630可以是向量的形式。

    作為示例,系統600可以將cnn實現為段級嵌入提取機制602,并且將rnn實現為話語級嵌入提取機制604。

    另外地或另選地,可以將lstmrnn或grurnn實現為話語級嵌入提取機制604,以避免rnn的梯度爆發或消失問題。此外,grurnn可以減少模型參數的數量。例如,lstmrnn由以下公式(1)-(6)限定。

    it=sigmoid(wiixt+whiht-1+bi)(1)

    ft=sigmoid(wifxt+whfht-1+bf)(2)

    gt=tanh(wigxt+whght-1+bg)(3)

    ot=sigmoid(wioxt+whoht-1+bo)(4)

    在上面的公式(1)至(6)中,it、ft、gt、ot分別是輸入門、遺忘門、單元門和輸出門;在時間步長t處,ht是隱藏狀態;ct是存儲器單元狀態;xt是第一層的輸入或先前層的隱藏狀態;wii、whi、wif、whf、wig、whg、wio和who分別表示線性變換中的權重;bi、bf、bg和bo分別表示線性變換中的偏差;并且表示逐元素相乘。

    sigmoid函數由以下公式(7)限定。

    tanh函數由以下公式(8)限定。

    在示例lstmrnn中,隱藏層單元的數量可以是512。lstmrnn的輸出可以是512d向量。lstmrnn可以按照與上文參考圖6描述的話語級嵌入提取機制604相同的方式根據一系列時間步長展開。lstmrnn在最后時間步長t11處獲得的隱藏狀態可以用作輸出話語級嵌入/表示630。換句話說,lstmrnn用于將段級嵌入/表示606、608、…、和610的序列編碼成最后時間步長的隱藏狀態。

    應注意,在圖6中,為了便于例示,系統600以時間擴展的方式展開。實際上,在t1612、t2614、…、和tn616處的展開的段級嵌入提取機制共享相同的參數,并且在t1618、t2620、…、和tn622處的展開的話語級嵌入提取機制共享相同的參數。

    圖7例示了具有跳過連接的話語級嵌入提取機制700的示例框圖。

    針對相對長的音頻/語音信號,或者針對相對小的段大小,可以獲得相對長的段序列??紤]到梯度消失的問題,話語級嵌入提取機制700可能具有有限的建模能力。因此,可以在話語級嵌入提取機制700的時間方向上添加一個或更多個跳轉/跳過連接,以促進該時間方向上的信息傳遞。通過添加跳轉/跳過連接,可以將很長時間以前的信息并入后續步長中。換句話說,跳轉/跳過連接可以用于將信息從若干時間步長之前直接傳遞至后續步長。因此,所得到的話語級嵌入/表示可以更好地平衡話語/句子的整個段序列的信息。

    參考圖7,話語級嵌入提取機制700可以根據一系列時間步長t1、t2、…、tk+1、t2k+1、…、t3k+1、…、和tl展開,其中k和l是正整數。在各個時間步長處,展開的話語級嵌入提取機制700可以具有隱藏狀態702、704、706、708、710或712。例如,可以每k個步長添加跳轉/跳過連接??梢栽趖1702與tk+1706處的隱藏狀態之間添加跳轉/跳過連接714??梢栽趖k+1706與t2k+1708處的隱藏狀態之間添加跳轉/跳過連接716??梢栽趖2k+1708與t3k+1710處的隱藏狀態之間添加跳轉/跳過連接718。跳轉/跳過大小是可以根據需要進行調整的超參數。

    作為示例,lstmrnn可以被實現為話語級嵌入提取機制700。lstmrnn可以由以下公式(9)至(15)限定。

    it=sigmoid(wiixt+whiht-1+bi)(9)

    ft=sigmoid(wifxt+whfht-1+bf)(10)

    gt=tanh(wigxt+whght-1+bg)(11)

    ot=sigmoid(wioxt+whoht-1+bo)(12)

    在以上公式(9)至(15)中,相同的參數具有與如上所述的公式(1)至(6)中的含義相同的含義。

    公式(15)指示添加了一個或更多個跳轉/跳過連接。標量參數α是附加的可訓練參數,并且標量參數α的初始值可以設置為1。k表示要跳轉/跳過的步長數量。

    圖8例示了用于音頻信號處理的處理800的示例流程圖。在下文中,通過四個階段(即,數據準備、段級嵌入提取、話語級嵌入提取和訓練)來描述處理800。

    數據準備

    在框802,數據準備機制102可以以上文參考圖1所討論的相同方式接收音頻/語音信號110。

    在框804,數據準備機制102可以以上文參考圖1所討論的相同方式以預定窗口大小和預定窗口移位對音頻/語音信號110進行幀化,以獲得幀序列。

    在框806,數據準備機制102可以以上文參考圖1所討論的相同方式將音頻/語音信號110的幀序列分組成段序列。

    在框808,數據準備機制102可以以上文參考圖1所討論的相同方式基于音頻/語音信號110的幀序列獲得多維特征序列。

    在框810,數據準備機制102可以以上文參考圖1所討論的相同方式對多維特征序列進行歸一化,以獲得經歸一化的幀級特征112的序列。

    段級嵌入提取

    在框812,段級嵌入提取機制104可以以上文參考圖1所討論的相同方式基于經歸一化的幀級特征112的序列來生成段級嵌入/表示114的序列。

    話語級嵌入提取

    在框814,話語級嵌入提取機制106可以以上文參考圖1所討論的相同方式基于段級嵌入/表示114的序列來生成話語級嵌入/表示116。

    訓練

    在框816,可以以上文參考圖1所討論的相同方式訓練系統100。

    在框818,分類/識別機制108可以以上文參考圖1所討論的相同方式基于話語級表示從音頻信號108中識別一個或更多個講話者。

    本文討論的系統和處理可以用于語音交互產品和基于音頻的身份標簽。在真實環境中,由于環境噪聲、背景聲音、設備噪聲、房間混響等,講話者識別/驗證系統在惡劣聲學環境中的性能可能會大大降低。本文討論的系統和處理可以借助于深度學習和大量語音訓練數據來獲得各種干擾因素的更魯棒的嵌入/表示,從而改進了講話者識別/驗證在實際場景中的性能。

    圖9例示了用于音頻信號處理的示例系統900。

    本文描述的技術和機制可以由系統900的多個實例以及由任何其它計算設備、系統和/或環境來實現。圖9中所示的系統900僅是系統的一個示例并且不旨在暗示對用于執行上述處理和/或過程的任何計算設備的使用范圍或功能的任何限制??梢赃m于與實施方式一起使用的其它眾所周知的計算設備、系統、環境和/或配置包括但不限于個人計算機、服務器計算機、手持式或膝上型設備、多處理器系統、基于微處理器的系統、機頂盒、游戲機、可編程消費電子產品、網絡pc、小型計算機、大型計算機、包括上述系統或設備中的任何系統或設備的分布式計算環境、使用現場可編程門陣列(“fpga”)以及專用集成電路(“asic”)的實現方式等。

    系統900可以包括一個或更多個處理器902以及以通信的方式聯接至所述處理器902的存儲器904。所述處理器902可以執行一個或更多個模塊和/或處理,以使所述處理器902執行各種功能。在一些實施方式中,處理器902可以包括中央處理單元(cpu)、圖形處理單元(gpu)、cpu和gpu兩者、或者本領域已知的其它處理單元或部件。另外地,處理器902中的各個處理器可以擁有其自己的本地存儲器,該本地存儲器還可以存儲程序模塊、程序數據和/或一個或更多個操作系統。

    取決于系統900的確切配置和類型,系統存儲器904可以是易失性的(諸如ram)、非易失性的(諸如rom、閃存存儲器、微型硬盤驅動器、存儲卡等)或其某種組合。存儲器904可以包括可由處理器902執行的一個或更多個計算機可執行模塊。系統900可以另外包括用于接收待處理的數據并輸出經處理的數據的輸入/輸出(i/o)接口906。系統900還可以包括通信模塊908,該通信模塊允許系統900通過網絡(未示出)與其它設備(未示出)進行通信。網絡可以包括互聯網、諸如有線網絡或直接有線連接的有線介質以及諸如聲學、射頻(rf)、紅外和其它無線介質的無線介質。

    存儲在存儲器904上的模塊可以包括但不限于數據準備模塊910、段級嵌入提取模塊912、話語級嵌入提取模塊914、訓練模塊916和分類/識別模塊918。

    數據準備模塊910可以被配置為接收音頻/語音信號、以預定窗口大小和預定窗口移位將音頻/語音信號110幀化成幀序列并將音頻/語音信號110的幀序列分組成段序列。數據準備模塊910可以進一步被配置為以上文參考圖1所討論的相同方式基于音頻/語音信號110的幀序列獲得多維特征序列并對多維特征序列執行歸一化以獲得經歸一化的幀級特征112的序列。

    段級嵌入提取模塊912可以被配置為以上文參考圖1所討論的相同方式基于經歸一化的幀級特征112的序列生成段級嵌入/表示114的序列。

    話語級嵌入提取模塊914可以被配置為以上文參考圖1所討論的相同方式基于段級嵌入/表示114的序列來生成話語級嵌入/表示116。

    訓練模塊916可以被配置為以上文參考圖1所討論的相同方式聯合地或單獨地訓練段級嵌入提取模塊912和話語級嵌入提取模塊914。

    分類/識別模塊918可以被配置為以上文參考圖1所討論的相同方式做出指示音頻/語音信號110屬于哪個講話者的判斷。

    本文討論的系統和處理可以被認為是開放框架,可以通過添加和/或替換對應機制/模塊來將最新技術集成到該開放框架中。本文討論的系統和處理可以處理具有可變長度的音頻/語音信號,使得系統的輸出是完整的話語/句子的講話者嵌入/表示,該講話者嵌入/表示可以用于講話者識別/驗證。本文討論的系統和處理可以具有相對少量的參數(例如,比3m多一點),從而節省了計算和存儲資源??梢岳幂^少的參數獲得良好的識別結果。本文討論的系統和處理可以解決與文本無關的講話者識別/驗證任務。

    可以通過執行存儲在如下文限定的計算機可讀存儲介質上的計算機可讀指令來執行上述方法的一些或全部操作。在說明書和權利要求書中使用的術語“計算機可讀指令”包括例程、應用、應用模塊、程序模塊、程序、部件、數據結構、算法等??梢栽诟鞣N系統配置上實現計算機可讀指令,所述各種系統配置包括單處理器或多處理器系統、小型計算機、大型計算機、個人計算機、手持計算設備、基于微處理器的可編程消費電子產品、其組合等。

    計算機可讀存儲介質可以包括易失性存儲器(諸如隨機存取存儲器(ram))和/或非易失性存儲器(諸如只讀存儲器(rom)、閃存存儲器等)。計算機可讀存儲介質還可以包括可以提供計算機可讀指令、數據結構、程序模塊等的非易失性存儲的附加的可移除存儲部和/或不可移除存儲部,包括但不限于閃存存儲器、磁存儲部、光學存儲部和/或磁帶存儲部。

    非暫時性計算機可讀存儲介質是計算機可讀介質的示例。計算機可讀介質包括至少兩種類型的計算機可讀介質(即,計算機可讀存儲介質和通信介質)。計算機可讀存儲介質包括以用于存儲諸如計算機可讀指令、數據結構、程序模塊或其它數據的信息的任何處理或技術實現的易失性和非易失性、可移除和不可移除介質。計算機可讀存儲介質包括但不限于相變存儲器(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其它類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、閃存存儲器或其它存儲器技術、光盤只讀存儲器(cd-rom)、數字通用盤(dvd)或其它光學存儲部、磁帶盒、磁帶、磁盤存儲部或其它磁存儲設備、或可以用于存儲信息以供計算設備訪問的任何其它非傳輸介質。相比之下,通信介質可以以諸如載波的調制數據信號或其它傳輸機制體現計算機可讀指令、數據結構、程序模塊或其它數據。如本文所限定的,計算機可讀存儲介質不包括通信介質。

    存儲在一個或更多個非暫時性計算機可讀存儲介質上的計算機可讀指令當由一個或更多個處理器執行時,可以執行以上參考圖1至圖9描述的操作。通常,所述計算機可讀指令包括執行特定功能或實現特定抽象數據類型的例程、程序、對象、部件、數據結構等。描述操作的順序不旨在被解釋為限制性的,并且可以以任何順序和/或并行地組合任何數量的所描述的操作以實現處理。

    示例條款

    條款1.一種方法,所述方法包括以下步驟:接收音頻信號;基于所述音頻信號獲得多個多維特征;基于所述多個多維特征獲得多個段級表示;基于所述多個段級表示獲得話語級表示;以及基于所述話語級表示從所述音頻信號中識別講話者。

    條款2.根據條款1所述的方法,其中,所述音頻信號包括來自多個講話者的具有噪聲干擾的語音。

    條款3.根據條款1所述的方法,其中,在接收音頻信號的步驟之后,所述方法進一步包括以下步驟:使用預定窗口大小和預定窗口移位將所述音頻信號分成多個幀;以及將所述多個幀分組成多個段,所述多個段中的各個段包括預定數量的幀。

    條款4.根據條款1所述的方法,其中,在基于所述音頻信號獲得多個多維特征的步驟之后,所述方法進一步包括以下步驟:對所述多個多維特征進行歸一化。

    條款5.根據條款2所述的方法,其中,基于所述音頻信號獲得多個多維特征的步驟包括:將所述多個幀轉換成多個多維濾波器組特征。

    條款6.根據條款1所述的方法,其中,基于所述多個多維特征獲得多個段級表示的步驟通過卷積神經網絡(cnn)執行。

    條款7.根據條款1所述的方法,其中,基于所述多個段級表示獲得話語級表示的步驟通過遞歸神經網絡(rnn)執行。

    條款8.根據條款1所述的方法,其中,基于所述話語級表示從所述音頻信號中識別講話者的步驟包括:將所述話語級表示分類成與所述講話者的身份(id)相關聯的類別。

    條款9.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有能夠由一個或更多個處理器執行的計算機可讀指令,所述計算機可讀指令在由所述一個或更多個處理器執行時使所述一個或更多個處理器執行操作,所述操作包括:基于所述音頻信號獲得多個多維特征;基于所述多個多維特征獲得多個段級表示;基于所述多個段級表示獲得話語級表示;以及基于所述話語級表示從所述音頻信號中識別講話者。

    條款10.根據條款9所述的計算機可讀存儲介質,其中,所述音頻信號包括來自多個講話者的具有噪聲干擾的語音。

    條款11.根據條款9所述的計算機可讀存儲介質,其中,在接收音頻信號的步驟之后,所述操作進一步包括:使用預定窗口大小和預定窗口移位將所述音頻信號分成多個幀;以及將所述多個幀分組成多個段,所述多個段中的各個段包括預定數量的幀。

    條款12.根據條款9所述的計算機可讀存儲介質,其中,在基于所述音頻信號獲得多個多維特征的操作之后,所述操作進一步包括:對所述多個多維特征進行歸一化。

    條款13.根據條款10所述的計算機可讀存儲介質,其中,基于所述音頻信號獲得多個多維特征的操作包括:將所述多個幀轉換成多個多維濾波器組特征。

    條款14.根據條款9所述的計算機可讀存儲介質,其中,基于所述多個多維特征獲得多個段級表示的操作通過cnn執行。

    條款15.根據條款9所述的計算機可讀存儲介質,其中,基于所述多個段級表示獲得所述話語級表示的操作通過rnn執行。

    條款16.根據條款9所述的計算機可讀存儲介質,其中,基于所述話語級表示從所述音頻信號中識別講話者的操作包括操作進一步包括:將所述話語級表示分類成與所述講話者的id相關聯的類別。

    條款17.一種系統,所述系統包括:一個或更多個處理器;以及存儲器,所述存儲器以通信的方式聯接至所述一個或更多個處理器,所述存儲器存儲有能夠由所述一個或更多個處理器執行的計算機可執行模塊,所述計算機可執行模塊包括:數據準備模塊,所述數據準備模塊被配置為接收音頻信號并基于所述音頻信號獲得多個多維特征;段級嵌入提取模塊,所述段級嵌入提取模塊被配置為基于所述多個多維特征獲得多個段級表示;話語級嵌入提取模塊,所述話語級嵌入提取模塊被配置為基于所述多個段級表示獲取話語級表示;以及分類模塊,所述分類模塊被配置為通過將所述話語級表示分類成與講話者的id相關聯的類別來基于所述話語級表示從所述音頻信號中識別所述講話者。

    條款18.根據條款17所述的系統,其中,所述音頻信號包括來自多個講話者的具有噪聲干擾的語音。

    條款19.根據條款17所述的系統,其中,所述數據準備模塊進一步被配置為:使用預定窗口大小和預定窗口移位將所述音頻信號分成多個幀;將所述多個幀分組成多個段,所述多個段中的各個段包括預定數量的幀;將所述多個幀轉換成多個多維濾波器組特征;以及對所述多個多維濾波器組特征進行歸一化。

    條款20.根據條款17所述的系統,其中,所述段級嵌入提取模塊包括cnn,并且所述話語級嵌入提取模塊包括rnn。

    結論

    盡管已用特定于結構特征和/或方法動作的語言描述了主題,但是應理解,所附權利要求書中限定的主題不必限于所描述的特定特征或動作。而是將特定特征和動作公開為實現權利要求的示例性形式。

    再多了解一些
    當前第1頁1 2 
    網友詢問留言 已有0條留言
    • 還沒有人留言評論。精彩留言會獲得點贊!
    1
    中文字幕一区在线观看视频_国产偷v国产偷v_西西人体44rt net毛最多_伊人久久大香线蕉综合网