音声分析合成システムWORLDをPythonに移植した

最近，音声の声質変換を行うために，Pythonで使えるライブラリを探していました．matlab上で使える便利な音声分析合成ソフトとして「WORLD」が存在しますが，これをPython上で使おうとすると少々めんどくさいということがありました．そこで，科学研究用のスタンダードなPython開発環境Anacondaがあれば簡単にWORLDを使えるように，matlabのコードを参考にPythonへ完全移植を行っています．とりあえず，基本的な分析→合成までの部分の移植が完了したので，移植したコードがまともに動くかどうかの検証も含めて記事にしてみました．

まずは，元の音声データです．この音声データをもとに，パラメータを抽出（分析）し，さらに再合成することで音声データが再構築されます．再構築する際に，パラメータを統計的に変化させて別人の声を生成する方法が，「統計的声質変換」です．

次に，正規版（matlab）の変換結果です．

最後に，移植版(Python)の変換結果です．

聞いてみると，正規版と移植版の違いが分かると思いますが，これは，matlab版で使用されている一部の関数が，pythonでは存在しないために，なるべく同じような挙動をするようにコードを書いていますが，やや違いがでてきてしまうためです．

なお，この移植版を公開していいかわからないため，公開するかどうかは後日決定します．

今後，移植を完成させつつ，声質変換についての記事も書いていこうと思います．BYE!

–ここから残念なお話–

まず，matlabからpythonに移植するとき，配列のインデックスの書き方の違いで，とても混乱した．matlabでは，配列のはじめは1から始まるが，Pythonでは一般的な言語と同じく0である．これだけなら，数値を１ずらすだけでいいのだが（実際にはそれだけでもかなりのストレスである．），配列から一部の列を取り出す際，例えば,[0,1,2,3,4,5]という配列から[2,3,4]を取り出すとき，取り出しの記述はPythonでは2:5（２番目から５番目の意）となり,Matlabでは3:5（３番目から5番目の意）とかく（Pythonでは，一番最後のインデックスは無視される．）これが非常に頭を混乱させる要因となっており，一番混乱したときは，matlabのコードを実行したときの図を紙に書いて，紙に書かれた内容をPythonコードで書くという所業をしてしまった．

さらに，面倒くさいのが，matlabで定義されている関数を，pythonで移植する場合，matlabの関数となるべく近い挙動をするpythonコードを書く必要がある．pythonで完全一致する関数があればいいのだが（うれしいことに，汎用的なものは共通化されているようだ），すべてきれいに一致するとは限らないので，なるべく同じ計算結果となるようにコードを書く必要があった．

一部は，面倒くさいので放置しているが，聞こえ上は似ているものができたので，まずは良しとすることにした．

さむねいる