牽著老婆滿街逛

嚴以律己,寬以待人. 三思而后行.
GMail/GTalk: yanglinbo#google.com;
MSN/Email: tx7do#yahoo.com.cn;
QQ: 3 0 3 3 9 6 9 2 0 .

統(tǒng)計

隨筆 - 1513
文章 - 45
評論 - 907
引用 - 0

公告

言論：
1.每日自省；
2.享受人生；
3.盡力而為；
4.堅持不懈；
5.切莫急躁；
6.慎言敏行；
7.動心忍性；
8.上善若水。

常用鏈接

留言簿(11)

隨筆分類(466)

隨筆檔案(1513)

文章分類(46)

文章檔案(45)

相冊

收藏夾(39)

搜索

積分與排名

積分 - 2523541
排名 - 2

閱讀排行榜

深入剖析 iLBC 編碼器原理

轉(zhuǎn)載自:http://blog.csdn.net/wanggp_2007/article/details/5114309

早在2005年就聽說iLBC編解碼算法，主要是應(yīng)用在VOIP 的speech codec，但是一直沒有深入研究算法原理，碰巧近期有一些時間可以學習一下它相比基于CELP模型的speech codec的優(yōu)勢。這套代碼是浮點的，聽朋友說要是轉(zhuǎn)成定點代碼會比較有用，只是可能需要的時間會多一點。如果想了解iLBC的一般介紹，如編碼速率、應(yīng)用等，可以參考前面的文章《iLBC編解碼相關(guān)知識》，下面主要是我的一些學習筆記，僅供大家參考。

一、算法整體流程

輸入的語音逐幀進行預處理，然后計算LPC系數(shù)和殘差信號，在殘差信號中選擇初始狀態(tài)，并對其進行標量量化，再對剩下的殘差信號進行增益/形狀矢量量化，最后封包成比特流。

iLBC的每frame/block保持獨立編碼，這樣才能保證在丟包的情況下，保持良好的重建語音質(zhì)量；而CELP模型的codec往往都需要look head buffer 才能對當前幀進行編碼，這樣雖然可以使重建語音連接比較平滑，但是在網(wǎng)絡(luò)傳輸中一旦發(fā)生丟包，則連續(xù)性遭到破壞，解碼語音的質(zhì)量就會下降。

在iLBC的編碼流程中有三個模塊Select Start state、Scalar quantization和CB Search是與CELP模型不同的，下面重點研究這三個模塊。

1、起始狀態(tài)（Start State）

這個概念是iLBC所特有的處理方式，下面以30ms frame mode為例，那么每個frame有6個sub-frame。iLBC在計算完LPC殘差信號后，會找出整個幀內(nèi)具有最高功率的兩個連續(xù)子幀，來決定起始狀態(tài)的位置。下圖給出了start state 在兩個子幀的位置。

2、對起始狀態(tài)樣點的量化

這里并不對兩個子幀的全部sample進行精細量化，只是對從起始狀態(tài)位置以后的57/58 sample（20ms/30ms frame mode）進行精細量化，所以這57/58 sample的量化需要三個部分：

1）子幀位置；

是指哪兩個子幀，如 sub-frame 0,1; 1,2; 2,3; 3,4; 4,5

3bit 量化這五種情況。

2）兩個子幀內(nèi)的前半部分還是后半部分；

1bit 表示 state_first；

3）57/58 sample的標量量化。

這里首先要進行全通濾波，使得樣點大小比較平均分布，然后進行能量的歸一化，這個scaler factor用6bit標量量化，歸一化后的樣點動態(tài)范圍就比較小了，然后對每一個樣點都采用3bit 的DPCM量化。

3、碼書搜索

這部分是指起始狀態(tài)量化后，整個frame剩余的樣點量化方法。這里主要采用了動態(tài)碼書的量化方法，碼書是由整個frame的樣點通過線性組合（加權(quán)濾波）和已經(jīng)量化樣點的解碼信號組成，具體的流程見圖3。

上圖首先解碼已經(jīng)量化的Start state，然后構(gòu)建codebook memory，結(jié)合目標矢量進行感知加權(quán)濾波，在Codebook內(nèi)部搜索與目標矢量最接近的矢量，這里采用三階段的增益/形狀矢量量化的方法進行搜索量化，最后調(diào)整增益以補償能量損失。這里主要的重點還是碼書的組成、大小以及量化順序、搜索過程。

例如，圖4給出了一個30ms 幀的量化順序，這里有6個子幀，假設(shè)Start state是在1、2子幀之間，并且位置在兩個子幀后半部分，那么進行量化的順序如下：

1）Q0：量化Start State；

2）Q1：兩個子幀內(nèi)除了start state的22/23個樣點；

3）Q2，Q3，Q4：Start state的后面每個子幀；

4）Q5：Start state的前面每個子幀；

到這里可以知道，目標矢量包括兩種長度不同的矢量（除了start state）：22/23個樣點的矢量和40個樣點的子幀矢量，下表給出了對于不同矢量的碼書大小。

下圖具體給出了量化目標矢量時動態(tài)碼書的構(gòu)造，需要注意的有以下幾點：

1）不同的目標矢量（22/23、子幀40）對應(yīng)的碼書大小不同，具體數(shù)據(jù)見參考資料；

2）量化Start State前向的矢量需要對碼書進行反轉(zhuǎn)，再進行搜索，如對Q1、Q5進行量化；

3）動態(tài)碼書的構(gòu)成是解碼的已量化樣點而不是原來的經(jīng)過感知加權(quán)的殘差信號；

4）碼書通過補零長度對齊；

增益/形狀矢量量化屬于乘積碼矢量量化中的一種方法，它的基本思想就是將待量化的矢量的形狀和增益分別量化，同時保持它們之間的有機聯(lián)系，最后將碼字相乘就可以得到重構(gòu)矢量。這種量化方法可以實現(xiàn)高維數(shù)的矢量量化，以提高系統(tǒng)的性能。

下表給出了iLBC編碼器的比特流定義，值得注意的是在封包前每個參數(shù)的bit是分成三個級別的，1表示最重要，2比較重要，3一般重要，因此封包是按照級別處理的，如圖先處理級別1，然后級別2，最后級別3，這樣提高了抗干擾性：

二、總結(jié)

與傳統(tǒng)的CELP模型的speech codec有較大不同，精髓在于幀內(nèi)的獨立編碼，同時也利用了長時預測編碼（LPC）去除冗余信息和語音信號本身準周期性的特征構(gòu)造動態(tài)碼書。與CELP模型codec相比，在丟包率較高的網(wǎng)絡(luò)情況下，語音質(zhì)量不會下降很快。對于解碼端的丟包補償算法（packet loss concealment）現(xiàn)在還沒有看到，這個技術(shù)應(yīng)該也是iLBC的一個特點。

本文并沒有列出詳細的數(shù)據(jù)和語音質(zhì)量評測，那些都可以在下面得參考資料找到。

參考資料：

《rfc3951.txt》

一家之言，歡迎討論交流！

posted on 2012-11-23 12:00 楊粼波閱讀(1387) 評論(2) 編輯收藏引用所屬分類: 文章收藏

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: cocos2dx 內(nèi)存管理 select 效率問題微軟代碼簽名證書使用指南 Opus 音頻編碼正式標準化音頻比特率 speex 的一個例子, 使用了SPEEX抖動緩存. 深入剖析 iLBC 編碼器原理 speex開源項目的學習 directsound抓取麥克風PCM數(shù)據(jù)封裝類丟包補償技術(shù)調(diào)查

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 深入剖析 iLBC 編碼器原理 2016-03-16 16:48 shanyongpeng

# re: 深入剖析 iLBC 編碼器原理 2016-03-16 16:50 shanyongpeng

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

牽著老婆滿街逛

導航

統(tǒng)計

公告

常用鏈接

留言簿(11)

隨筆分類(466)

隨筆檔案(1513)

文章分類(46)

文章檔案(45)

相冊

收藏夾(39)

工具官網(wǎng)

技術(shù)網(wǎng)站

開源網(wǎng)站

其他窩點

收藏網(wǎng)站

銀行官網(wǎng)

友情鏈接

資源共享

搜索

積分與排名

最新評論

閱讀排行榜

深入剖析 iLBC 編碼器原理

評論