<kbd id="ia2e8"><input id="ia2e8"></input></kbd><u id="ia2e8"></u>
  • <blockquote id="ia2e8"></blockquote>
  • <blockquote id="ia2e8"></blockquote>
  • <samp id="ia2e8"><label id="ia2e8"></label></samp>
  • 喚醒程度識別模型訓練方法及語音喚醒程度獲取方法與流程

    文檔序號:26091219發布日期:2021-07-30 17:59
    喚醒程度識別模型訓練方法及語音喚醒程度獲取方法與流程

    本發明涉及語音處理領域,尤其涉及一種喚醒程度識別模型訓練方法及語音喚醒程度獲取方法。



    背景技術:

    在許多與醫療健康、教育和安全相關的場景中,情感識別成為現代人機交互系統不可或缺的一部分。在情感識別系統中,可以將語音、文本、視頻等作為單獨的輸入,也可以使用它們的組合作為多模態的輸入,本文主要關注基于語音的情感識別。通常,語音情感識別是采用經過切分的簡短語句以有監督的方式進行識別,情感的標簽可以采用兩種格式,即離散標簽,例如幸福,悲傷,憤怒和中性,或連續標簽,例如激活(鎮靜)對(喚起)、效價(負對正)和優勢(弱對強)。近年來,連續情緒屬性因在描述更復雜的情緒狀態方面更加靈活,而受到許多關注。連續屬性分類在語音情緒識別中有極其重要的作用,喚醒程度也影響了情感識別的速度和準確度,一般來講,喚醒程度越高,情感識別就越迅速,識別準確率也相應越高,通過預先識別喚醒程度也可以一定程度上提高語義情感識別的準確度。

    可見,亟需一種能識別語音的連續情感中的喚醒程度高低的方法。



    技術實現要素:

    為了解決上述技術問題,本發明實施例提供了一種喚醒程度識別模型訓練方法及語音喚醒程度獲取方法。

    第一方面,本發明實施例提供了一種喚醒程度識別模型訓練方法,包括:

    獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;

    提取所述樣本語音對應幀序列的特征矩陣;

    將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練。

    根據本公開的一種具體實施方式,所述獲取樣本語音的喚醒程度標簽的步驟,包括:

    從預設數據集中,選取對應第一喚醒程度標簽的第一類樣本語音、對應第二喚醒程度標簽的第二類樣本語音和對應第三喚醒程度標簽的第三類樣本語音。

    根據本公開的一種具體實施方式,所述獲取樣本語音的喚醒程度標簽的步驟,包括:

    判斷各類喚醒程度標簽的樣本語音的數量之間的差值是否大于或者等于預設數量差值;

    若各類喚醒程度標簽的樣本語音的數量之間的差值大于或者等于預設數量差值,對數量較少的樣本語音進行數據增強處理,直至各類喚醒程度標簽的樣本語音的數量之間的差值小于所述預設數量差值。

    根據本公開的一種具體實施方式,所述對數量較少的樣本語音進行數據增強處理的步驟,包括:

    為初始的樣本語音添加噪聲,得到擴增語音;

    將初始的樣本語音和擴增語音相加后的語音作為用于訓練的樣本語音。

    根據本公開的一種具體實施方式,所述為樣本語音添加噪聲,得到擴增語音的步驟,包括:

    利用librosa庫加載所述樣本音頻,得到浮點型時間序列;

    對浮點型時間序列s進行以下公式的計算,得到加噪后的擴增語音sni,

    其中,i=1,2,...,l,si表示浮點型時間序列,l表示浮點型時間序列的長度,r為w的系數,r的取值范圍為[0.001,0.002],w為服從高斯分布的浮點數。

    根據本公開的一種具體實施方式,所述提取所述樣本語音對應幀序列的特征矩陣的步驟,包括:

    將樣本語音劃分為預設數量的語音幀;

    按照幀序列提取各語音幀的低級描述符特征及一階導;

    根據幀序列和各語音幀的低級描述符特征及一階導,得到對應各類樣本語音的特征矩陣。

    根據本公開的一種具體實施方式,所述神經網絡包括門控循環單元、注意力層和用于情感分類的第一全連接層;

    所述將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練的步驟,包括:

    將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成對應各時間步的隱藏狀態;

    將對應時間序列的隱藏狀態模型輸入注意力層,確定各時間步的特征權重值;

    將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別;

    將所述樣本語音的級別輸入所述第一全連接層,得到所述樣本語音的喚醒程度標簽分類結果。

    根據本公開的一種具體實施方式,所述將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成對應各時間步的隱藏狀態的步驟,包括:

    將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成內部隱藏狀態ht;

    在每個時間步使用特征xt和先前時間步的隱藏狀態ht-1更新;其中,隱藏狀態更新公式為ht=fθ(ht-1,xt),fθ是權重參數為θ的rnn函數,ht表示第t個時間步的隱藏狀態,xt表示x={x1:t}中的第t個特征。

    根據本公開的一種具體實施方式,所述將對應時間序列的隱藏狀態模型輸入注意力層,確定各時間步的特征權重值,將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別的步驟,包括:

    計算得到的各時間步的特征權重值以及,樣本語音的級別

    其中,αt表示時間步t的特征權重值,ht為門控循環單元輸出的隱藏狀態,w表示要學習的參數向量,c表示樣本語音的級別。

    根據本公開的一種具體實施方式,所述神經網絡還包括用于性別分類的第二全連接層;

    所述將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別的步驟之后,所述方法還包括:

    將所述樣本語音的級別輸入所述第二全連接層,得到所述樣本語音的說話人性別分類結果。

    第二方面,本發明實施例提供了一種語音喚醒程度獲取方法,所述方法包括:

    獲取待識別語音;

    將所述待識別語音輸入喚醒程度識別模型,輸出所述待識別語音的喚醒程度標簽,所述喚醒程度識別模型是根據上述任一項所述的喚醒程度識別模型訓練方法獲得的。

    第三方面,本發明實施例提供了一種喚醒程度識別模型訓練裝置,所述裝置包括:

    獲取模塊,用于獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;

    提取模塊,用于提取所述樣本語音對應幀序列的特征矩陣;

    訓練模塊,用于將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練。

    第四方面,本發明實施例提供了一種語音喚醒程度獲取裝置,所述裝置包括:

    獲取模塊,用于獲取待識別語音;

    識別模塊,用于將所述待識別語音輸入喚醒程度識別模型,輸出所述待識別語音的喚醒程度標簽,所述喚醒程度識別模型是根據第一方面中任一項所述的喚醒程度識別模型訓練方法獲得的。

    第五方面,本發明實施例提供了一種計算機設備,包括存儲器以及處理器,所述存儲器用于存儲計算機程序,所述計算機程序在所述處理器運行時執行第一方面中任一項所述的喚醒程度識別模型訓練方法,或者第二方面所述的語音喚醒程度獲取方法。

    第六方面,本發明實施例提供了一種計算機可讀存儲介質,其存儲有計算機程序,所述計算機程序在處理器上運行時執行第一方面中任一項所述的喚醒程度識別模型訓練方法,或者第二方面所述的語音喚醒程度獲取方法。

    上述本申請提供的喚醒程度識別模型訓練方法及語音喚醒程度獲取方法,針對不同喚醒程度的樣本語音進行特征提取,并輸入到神經網絡中進行訓練,這樣即可得到能夠識別語音喚醒程度的喚醒程度識別模型。將喚醒程度識別模型應用于語音識別場景,在基礎語音識別的基礎上增加喚醒程度的識別,增強語音識別的準確性和多樣性。

    附圖說明

    為了更清楚地說明本發明的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發明的某些實施例,因此不應被看作是對本發明保護范圍的限定。在各個附圖中,類似的構成部分采用類似的編號。

    圖1示出了本申請實施例提供的一種喚醒程度識別模型訓練方法的流程示意圖;

    圖2示出了本申請實施例提供的喚醒程度識別模型訓練方法所涉及的數據增強的部分流程示意圖;

    圖3示出了本申請實施例提供的喚醒程度識別模型訓練方法所涉及的提取特征矩陣的部分流程示意圖;

    圖4示出了本申請實施例提供的喚醒程度識別模型訓練方法所涉及的模型訓練的部分流程示意圖;

    圖5示出了本申請實施例提供的喚醒程度識別模型訓練方法所涉及的神經網絡的部分結構示意圖;

    圖6示出了本申請實施例提供的一種語音喚醒程度獲取方法的流程示意圖;

    圖7示出了本申請實施例提供的一種喚醒程度識別模型訓練裝置的模塊框圖;

    圖8示出了本申請實施例提供的一種語音喚醒程度獲取裝置的模塊框圖;

    圖9示出了本申請實施例提供的一種計算機設備的硬件結構圖。

    具體實施方式

    下面將結合本發明實施例中附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。

    通常在此處附圖中描述和示出的本發明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發明的實施例的詳細描述并非旨在限制要求保護的本發明的范圍,而是僅僅表示本發明的選定實施例?;诒景l明的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。

    在下文中,可在本發明的各種實施例中使用的術語“包括”、“具有”及其同源詞僅意在表示特定特征、數字、步驟、操作、元件、組件或前述項的組合,并且不應被理解為首先排除一個或更多個其它特征、數字、步驟、操作、元件、組件或前述項的組合的存在或增加一個或更多個特征、數字、步驟、操作、元件、組件或前述項的組合的可能性。

    此外,術語“第一”、“第二”、“第三”等僅用于區分描述,而不能理解為指示或暗示相對重要性。

    除非另有限定,否則在這里使用的所有術語(包括技術術語和科學術語)具有與本發明的各種實施例所屬領域普通技術人員通常理解的含義相同的含義。所述術語(諸如在一般使用的詞典中限定的術語)將被解釋為具有與在相關技術領域中的語境含義相同的含義并且將不被解釋為具有理想化的含義或過于正式的含義,除非在本發明的各種實施例中被清楚地限定。

    實施例1

    參見圖1,為本發明實施例提供的一種喚醒程度識別模型訓練方法(以下簡稱模型訓練方法)的流程示意圖。如圖1所示,所述模型訓練方法主要包括以下步驟:

    s101,獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;

    本實施例提供的模型訓練方法,主要是利用已知喚醒程度arousal的樣本語音來訓練基礎的神經網絡,以訓練得到具備喚醒程度識別功能的喚醒程度識別模型。喚醒程度表示情緒生理激活水平,例如相對平靜來說,“憤怒”或“興奮”的喚醒程度更高。

    喚醒程度標簽通常為連續情感屬性,其原始標簽的值分布在[1,5]之間。為便于進行區分,可以將連續的情感屬性離散化為三類,例如將連續的喚醒值劃分為3個區間,例如將[1,2]之間的喚醒程度歸類為喚醒程度相對較低的第一喚醒程度,將(2,4)之間的喚醒程度歸類為喚醒程度居中的第二喚醒程度,將[4,5]之間的喚醒程度歸類為喚醒程度相對較高的第三喚醒程度。為便于描述,還可以對屬于這三類的語音重新賦予標簽1、2、3等,這樣就可以將問題轉化為在喚醒標簽上的情感三分類問題。當然,也可以有其他的分類方案,例如劃分為零、低、中和高這四類標簽等,不作限定。

    在準備樣本語音時,為訓練喚醒程度識別模型,需要分別準備不同喚醒程度的樣本語音并為各類喚醒程度的樣本語音添加喚醒程度標簽,以使神經網絡學習不同喚醒程度的語音特征。

    獲取樣本語音的方式可以有多種,根據本公開的一種具體實施方式,s101所述的獲取對應各類喚醒程度的樣本語音的步驟,可以包括:

    從預設數據集中,選取對應第一喚醒程度標簽的第一類樣本語音、對應第二喚醒程度標簽的第二類樣本語音和對應第三喚醒程度標簽的第三類樣本語音。

    針對喚醒程度的覆蓋范圍,可以將要識別語音的喚醒程度劃分為三個級別,對應標簽分別定義為第一喚醒程度標簽、第二喚醒程度標簽和第三喚醒程度標簽,可以設定這三個喚醒程度標簽對應的喚醒程度依次增強。再根據各類喚醒程度標簽,獲取對應的樣本語音。即,選擇喚醒程度相對較低的第一類樣本語音對應第一喚醒程度標簽,選擇喚醒程度相對居中的第二類樣本語音對應第二喚醒程度標簽,選擇喚醒程度相對較高的第三類樣本語音對應第三喚醒程度標簽。

    進一步的,考慮到iemocap數據集是語音情感識別領域內廣泛使用的數據集之一,整個數據集從對話設計到情感標注都比較規范,且數據集包含對話較多,標注中包含離散的情感標簽和連續的情感標簽,符合本發明的要求。因此,在本實施例中,所述預設數據集選擇互動式情感和弦動捕捉(iemocap)數據集。在其他實施例中,亦可選擇其他符合條件的數據集。

    在利用iemocap數據集提取樣本語音時,可以根據數據集內記錄的各樣本語音的喚醒程度值,例如將喚醒程度值范圍為[1,2]的樣本語音作為所述第一類樣本語音,將喚醒程度值范圍為(2,4)的樣本語音作為所述第二類樣本語音,將喚醒程度值為[4,5]的樣本語音作為所述第三類樣本語音。當然也可以有其他的劃分方式和語音選取方式,不作限定。此外,考慮到在進行模型訓練時,所需要的樣本語音的數量較多才能訓練更高的識別進度??紤]到從預設數據集或者iemocap數據集內獲取的樣本語音的數量較少,可以通過數據增強的方式來擴充樣本語音的總數,以提高所訓練模型的識別進度。

    為優化模型訓練效果,輸入的各類樣本語音的數量最好相同或者數量接近。根據本公開的一種具體實施方式,如圖2所示,s101所述獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強的步驟,包括:

    s201,判斷各類喚醒程度標簽的樣本語音的數量之間的差值是否大于或者等于預設數量差值;

    s202,若各類喚醒程度標簽的樣本語音的數量之間的差值大于或者等于預設數量差值,對數量較少的樣本語音進行數據增強處理,直至各類喚醒程度標簽的樣本語音的數量之間的差值小于所述預設數量差值。

    本實施方式中,預先設定訓練所允許的樣本語音的數量可以為約3000,各類樣本語音之間的差值為預設數量差值,該預設數量差值可以設為0,即要求各類樣本語音數量完全相同,也可以設為大于0的其他數值,即允許各類樣本語音數量之間存在部分差值。

    具體實施時,在獲取樣本語音之后,先判斷各類喚醒程度標簽的樣本語音的數量之間的差值是否大于或者等于預設數量差值。若實際數量差值大于或者等于預設數量差值,則需要對數量較少的樣本語音進行數據增強處理,若實際數量差值小于預設數量差值,則可以不需要對樣本語音進行數據增強處理。

    具體實施時,上述對數量較少的樣本語音進行數據增強處理的步驟,可以包括:

    為初始的樣本語音添加噪聲,得到擴增語音;

    將初始的樣本語音和擴增語音相加后的語音作為用于訓練的樣本語音。

    進一步的,所述為樣本語音添加噪聲,得到擴增語音的步驟,包括:

    利用librosa庫加載所述樣本音頻,得到浮點型時間序列;

    對浮點型時間序列s進行以下公式的計算,得到加噪后的擴增語音sni,

    其中,i=1,2,...,l,si表示浮點型時間序列,l表示浮點型時間序列的長度,r為w的系數,r的取值范圍為[0.001,0.002],w為服從高斯分布的浮點數。在本實施例中,所述噪聲為高斯白噪聲。

    例如,初始情況下,低類別樣本1000個,中類別樣本4000個,高類別樣本3500個。對于低類別樣本,可以先取r=0.001,在初始的樣本語音添加噪聲得到新的1000個樣本,此時,用于訓練的低類別的樣本語音增加至2000。若在此基礎上再取r=0.002,在原來的樣本語音再次增加噪聲,即可實現將低類別的樣本語音增加至3000甚至更多。具體差值可以根據具體樣本類型或者模型識別精度進行自定義設置。w在python中由numpy.random.normal(0,1,len(s))生成,本質就是長度為l的一系列符合高斯分布的數。

    通過添加噪聲的方式進行語音數據增強,可以避免和原來的語音一模一樣,加了噪聲之后的音頻,和原來的語音有所不同,而且由于r值設置的較小,人耳聽到的差別不大,加噪聲前后的情感不會受到影響。

    本實施方式中,通過對樣本量少的類別的語音加噪聲,達到擴增數據的效果,緩解低、中和高三個類別的樣本之間數量的差異,保證每個批次中不會出現某一類樣本過多的情況,從而在一定程度上防止訓練出的模型總是偏向于預測為樣本多的那一類。當然也可以在獲取樣本語音時直接限定獲取的各類樣本語音的數量小于預設數量差值,或者直接將樣本語音原樣復制以實現數據增強,以減少對模型訓練效果的影響。

    s102,提取所述樣本語音對應幀序列的特征矩陣;

    獲取對應各類喚醒程度的樣本語音之后,將樣本語音進行分幀,得到對應各樣本語音的幀序列。提取對應幀序列的特征矩陣,用于對各類喚醒程度的語音特征進行學習總結。

    具體的,根據本公開的一種具體實施方式,s102所述的提取所述樣本語音對應幀序列的特征矩陣的步驟,如圖3所示,可以具體包括:

    s301,將樣本語音劃分為預設數量的語音幀;

    s302,按照幀序列提取各語音幀的低級描述符特征及一階導;

    s303,根據幀序列和各語音幀的低級描述符特征及一階導,得到對應各類樣本語音的特征矩陣。

    語音情感識別時,將樣本語音劃分為對應時間軸的語音幀,相鄰的語音幀之間的特征在相鄰時段上是關聯的甚至是重合的。在特征提取階段,可以采用opensmile工具提取低級描述符(low-leveldescriptor,簡稱lld)特征及其一階導,低級描述符可以為is13_compare。低級描述符特征為65個,低級描述符特征的一階導也為65個,得到的特征總數為65+65=130。

    在對樣本語音進行分幀時,幀長可以設置為20ms,幀移設為10ms。在iemocap數據集中,每個語音的長度并不是固定的,所以每個語音提取出的幀數也不同。具體實施時,每條語音設置最大幀數可以統一設為750,若實際幀數(frame_num)不足750,則進行擴增padding操作,即在提取的二維特征后面補上(750-frame_num)行零。若實際幀數大于750,則進行截斷操作,最終使得每個樣本語音的特征矩陣是幀數*特征數,即750*130大小的二維矩陣。

    s103,將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡,學習訓練得到喚醒程度識別模型。

    依據上述步驟獲取各類喚醒程度標簽的樣本語音對應的特征矩陣之后,即可將各類特征矩陣及對應喚醒程度標簽輸入預先準備好的神經網絡進行訓練,對特征進行學習總結,這樣即可得到能夠識別不同語音喚醒程度的喚醒程度識別模型。

    根據本公開的一種具體實施方式,如圖2和4所示,為各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練的步驟。如圖5所示,所述神經網絡包括門控循環單元、注意力層和用于情感分類的第一全連接層。本實施方式中,對特征矩陣進行編碼的神經網絡采用遞歸神經網絡(recurrentneuralnetwork,簡稱rnn),rnn內依次包括變體門控單元(gatedrecurrentunit,簡稱gru)、注意力層和第一全連接層,相鄰層之間為數據傳輸關系,通常上層輸出數據為下層的輸入。當然,進行特征編碼的門變體控制單元也可以為其他編碼單元,例如長短期記憶層(longshort-termmemory,簡稱lstm),不作限定。

    如圖4和圖5所示,所述方法可以具體包括:

    s401,將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成對應各時間步的隱藏狀態;

    根據本公開的一種具體實施方式,所述將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成對應各時間步的隱藏狀態的步驟,包括:

    將樣本語音對應幀序列的特征矩陣及對應的喚醒程度標簽饋入所述門控循環單元,在所述門控循環單元內部形成內部隱藏狀態ht;

    在每個時間步使用特征xt和先前時間步的隱藏狀態ht-1更新;其中,隱藏狀態更新公式為:

    ht=fθ(ht-1,xt),(2)

    其中,fθ是權重參數為θ的rnn函數,ht表示第t個時間步的隱藏狀態,xt表示x={x1:t}中的第t個特征。

    s402,將對應時間序列的隱藏狀態模型輸入注意力層,確定各時間步的特征權重值;

    注意力層被用于關注與情感相關的部分,具體來說,如圖4所示,在時間步t,gru的輸出為ht,首先通過softmax函數計算歸一化重要性的特征權重:

    αt表示時間步t的特征權重值,ht為門控循環單元輸出的隱藏狀態,w表示要學習的參數向量。

    s403,將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別;

    根據權重執行加權和,將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別:

    s404,將所述樣本語音的級別輸入所述第一全連接層,得到所述樣本語音的喚醒程度分類結果。

    將經過注意力層得到的句子級別c輸入到情感分類網絡即第一全連接層,進行情感分類。此外,為了進行多任務分類,在第一全連接層的基礎上,根據本公開的一種具體實施方式,所述神經網絡還包括用于性別分類的第二全連接層。

    所述將對應各時間步的隱藏狀態及特征權重值加權求和,得到對應樣本語音的級別的步驟之后,所述方法還包括:

    將所述樣本語音的級別輸入所述第二全連接層,得到所述樣本語音的說話人性別分類結果。

    本實施方式,設定多分類任務包括情感分類和性別分類,其中性別分類為二分類任務,作為情感分類的輔助任務。情感分類網絡包括第一全連接層和softmax層;性別分類網絡包括第二全連接層和softmax層,結構如圖5所示,其中ye表示預測的某個句子所屬低、中、高三類情感類別的概率;yg表示預測的某個句子說話人性別所屬男、女類別的概率。多任務分類的損失方程如下:

    其中,lemotion和lgender分別表示情感分類和性別分類的損失。α和β表示兩個任務的權重,在本研究中,兩者值都設置為1。兩個任務的損失函數都為交叉熵損失,計算方法如下:

    其中,n表示樣本總數,k為總情感類別數,yi,k表示第i個樣本屬于第k類的真實概率,pi,k表示第i個樣本屬于第k類的預測概率。

    其中,yi表示樣本真實標簽,pi樣本屬于第1類的預測概率。

    綜上所述,本申請提供的喚醒程度獲取方法,針對不同喚醒程度標簽的樣本語音進行特征提取,并輸入到神經網絡中進行訓練,這樣即可得到能夠識別語音喚醒程度標簽的喚醒程度識別模型。將喚醒程度識別模型應用于語音識別場景,在基礎語音識別的基礎上增加喚醒程度的識別,增強語音識別的準確性和多樣性。

    實施例2

    參見圖6,為本發明實施例提供的一種語音喚醒程度獲取方法的流程示意圖。如圖6所示,所述方法包括以下步驟:

    s601,獲取待識別語音;

    s602,將所述待識別語音輸入喚醒程度識別模型,輸出所述待識別語音的喚醒程度標簽。

    其中,所述喚醒程度識別模型是根據上述實施例所述的喚醒程度識別模型訓練方法獲得的。

    本實施方式,將上述實施例簡歷的喚醒程度識別模型加載到計算機設備內,應用于語音喚醒程度獲取場景。將待識別語音輸入加載有喚醒程度識別模型的計算機設備,即可輸出該待識別語音的喚醒程度。所指待識別語音可以為計算機設備采集的語音,或者是從網絡等其他渠道獲取的語音等。

    本實施例提供的語音滑行程度獲取方法的具體實施過程,可以參見上述圖1所示的實施例提供的喚醒程度識別模型訓練方法的具體實施過程,在此不再一一贅述。

    實施例3

    參見圖7,為本發明實施例提供的一種喚醒程度識別模型訓練裝置的模塊框圖。如圖7所示,所述喚醒程度識別模型訓練裝置700主要包括:

    獲取模塊701,用于獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;

    提取模塊702,用于提取所述樣本語音對應幀序列的特征矩陣;

    訓練模塊703,用于將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練。

    實施例4

    參見圖8,為本發明實施例提供的一種語音喚醒程度獲取裝置的模塊框圖。如圖8所示,所述語音喚醒程度獲取裝置800包括:

    獲取模塊801,用于獲取待識別語音;

    識別模塊802,用于將所述待識別語音輸入喚醒程度識別模型,輸出所述待識別語音的喚醒程度標簽,所述喚醒程度識別模型是根據上述實施例所述的喚醒程度識別模型訓練方法獲得的。

    此外,本公開實施例提供了一種計算機設備,包括存儲器以及處理器,所述存儲器存儲有計算機程序,所述計算機程序在所述處理器上運行時執行上述方法實施例所提供的喚醒程度識別模型訓練方法或者語音喚醒程度獲取方法。

    具體的,如圖9所示,為實現本發明各個實施例的一種計算機設備,該計算機設備900包括但不限于:射頻單元901、網絡模塊902、音頻輸出單元903、輸入單元904、傳感器905、顯示單元906、用戶輸入單元907、接口單元908、存儲器909、處理器910、以及電源911等部件。本領域技術人員可以理解,圖9中示出的計算機設備結構并不構成對計算機設備的限定,計算機設備可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。在本發明實施例中,計算機設備包括但不限于手機、平板電腦、筆記本電腦、掌上電腦、車載終端、可穿戴設備、以及計步器等。

    應理解的是,本發明實施例中,射頻單元901可用于收發信息或通話過程中,信號的接收和發送,具體的,將來自基站的下行數據接收后,給處理器910處理;另外,將上行的數據發送給基站。通常,射頻單元901包括但不限于天線、至少一個放大器、收發信機、耦合器、低噪聲放大器、雙工器等。此外,射頻單元901還可以通過無線通信系統與網絡和其他設備通信。

    計算機設備通過網絡模塊902為用戶提供了無線的寬帶互聯網訪問,如幫助用戶收發電子郵件、瀏覽網頁和訪問流式媒體等。

    音頻輸出單元903可以將射頻單元901或網絡模塊902接收的或者在存儲器909中存儲的音頻數據轉換成音頻信號并且輸出為聲音。而且,音頻輸出單元903還可以提供與計算機設備900執行的特定功能相關的音頻輸出(例如,呼叫信號接收聲音、消息接收聲音等等)。音頻輸出單元903包括揚聲器、蜂鳴器以及受話器等。

    輸入單元904用于接收音頻或視頻信號。輸入單元904可以包括圖形處理器(graphicsprocessingunit,簡稱gpu)9041和麥克風9042,圖形處理器9041對在視頻捕獲模式或圖像捕獲模式中由圖像捕獲計算機設備(如攝像頭)獲得的靜態圖片或視頻的圖像數據進行處理。處理后的圖像幀可以視頻播放在顯示單元906上。經圖形處理器9041處理后的圖像幀可以存儲在存儲器909(或其它存儲介質)中或者經由射頻單元901或網絡模塊902進行發送。麥克風9042可以接收聲音,并且能夠將這樣的聲音處理為音頻數據。處理后的音頻數據可以在電話通話模式的情況下轉換為可經由射頻單元901發送到移動通信基站的格式輸出。

    計算機設備900還包括至少一種傳感器905,至少包含上述實施例提到的氣壓計。此外,傳感器905還可以為其他傳感器比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器包括環境光傳感器及接近傳感器,其中,環境光傳感器可根據環境光線的明暗來調節顯示面板9061的亮度,接近傳感器可在計算機設備900移動到耳邊時,關閉顯示面板9061和/或背光。作為運動傳感器的一種,加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別計算機設備姿態(比如橫豎屏切換、相關游戲、磁力計姿態校準)、振動識別相關功能(比如計步器、敲擊)等;傳感器905還可以包括指紋傳感器、壓力傳感器、虹膜傳感器、分子傳感器、陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等,在此不再贅述。

    顯示單元906用于視頻播放由用戶輸入的信息或提供給用戶的信息。顯示單元906可包括顯示面板9061,可以采用液晶面板(liquidcrystaldisplay,簡稱lcd)、有機發光二極管(organiclight-emittingdiode,簡稱oled)面板等形式。

    用戶輸入單元907可用于接收輸入的數字或字符信息,以及產生與計算機設備的用戶設置以及功能控制有關的鍵信號輸入。具體地,用戶輸入單元907包括觸控面板9071以及其他輸入設備9072。觸控面板9071,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板9071上或在觸控面板9071附近的操作)。觸控面板9071可包括觸摸檢測計算機設備和觸摸控制器兩個部分。其中,觸摸檢測計算機設備檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測計算機設備上接收觸摸信息,并將它轉換成觸點坐標,再送給處理器910,接收處理器910發來的命令并加以執行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸控面板9071。除了觸控面板9071,用戶輸入單元907還可以包括其他輸入設備9072。具體地,其他輸入設備9072可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿,在此不再贅述。

    進一步的,觸控面板9071可覆蓋在顯示面板9061上,當觸控面板9071檢測到在其上或附近的觸摸操作后,傳送給處理器910以確定觸摸事件的類型,隨后處理器910根據觸摸事件的類型在顯示面板9061上提供相應的視覺輸出。雖然在圖9中,觸控面板9071與顯示面板9061是作為兩個獨立的部件來實現計算機設備的輸入和輸出功能,但是在某些實施例中,可以將觸控面板9071與顯示面板9061集成而實現計算機設備的輸入和輸出功能,具體此處不做限定。

    接口單元908為外部計算機設備與計算機設備900連接的接口。例如,外部計算機設備可以包括有線或無線頭戴式耳機端口、外部電源(或電池充電器)端口、有線或無線數據端口、存儲卡端口、用于連接具有識別模塊的計算機設備的端口、音頻輸入/輸出(i/o)端口、視頻i/o端口、耳機端口等等。接口單元908可以用于接收來自外部計算機設備的輸入(例如,數據信息、電力等等)并且將接收到的輸入傳輸到計算機設備900內的一個或多個元件或者可以用于在計算機設備900和外部計算機設備之間傳輸數據。

    存儲器909可用于存儲軟件程序以及各種數據。存儲器909可主要包括存儲程序區和存儲數據區,其中,存儲程序區可存儲操作系統、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數據區可存儲根據手機的使用所創建的數據(比如音頻數據、電話本等)等。此外,存儲器909可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態存儲器件。

    處理器910是計算機設備的控制中心,利用各種接口和線路連接整個計算機設備的各個部分,通過運行或執行存儲在存儲器909內的軟件程序和/或模塊,以及調用存儲在存儲器909內的數據,執行計算機設備的各種功能和處理數據,從而對計算機設備進行整體監控。處理器910可包括一個或多個處理單元;優選的,處理器910可集成應用處理器和調制解調處理器,其中,應用處理器主要處理操作系統、用戶界面和應用程序等,調制解調處理器主要處理無線通信??梢岳斫獾氖?,上述調制解調處理器也可以不集成到處理器910中。

    計算機設備900還可以包括給各個部件供電的電源911(比如電池),優選的,電源911可以通過電源管理系統與處理器910邏輯相連,從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。

    另外,計算機設備900包括一些未示出的功能模塊,在此不再贅述。

    所述存儲器用于存儲計算機程序,所述計算機程序在所述處理器運行時執行上述的喚醒程度識別模型訓練方法或者語音喚醒程度獲取方法。

    另外,本發明實施例提供了一種計算機可讀存儲介質,其存儲有計算機程序,所述計算機程序在處理器上運行上述的喚醒程度識別模型訓練方法或者語音喚醒程度獲取方法。

    在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,也可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和結構圖顯示了根據本發明的多個實施例的裝置、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。也應當注意,在作為替換的實現方式中,方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,結構圖和/或流程圖中的每個方框、以及結構圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。

    另外,在本發明各個實施例中的各功能模塊或單元可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或更多個模塊集成形成一個獨立的部分。

    所述功能如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是智能手機、個人計算機、服務器、或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,簡稱rom)、隨機存取存儲器(randomaccessmemory,簡稱ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。

    以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。

    再多了解一些
    當前第1頁1 2 
    網友詢問留言 已有0條留言
    • 還沒有人留言評論。精彩留言會獲得點贊!
    1
    中文字幕一区在线观看视频_国产偷v国产偷v_西西人体44rt net毛最多_伊人久久大香线蕉综合网