音楽とかソフトとか

setParam ver.2.0-b120127を上げました→こちら

<主な変更点>

- (追加) エイリアス一括変換で、重複上限数を超えたエントリを削除する機能を追加した。
- (追加) MFCCを用いた連続音の先行発声の自動推定機能を追加した。
- (追加) エイリアス補完に「ぢ」「づ」の補完を追加した。
- (修正) 連続音のパラメータ自動生成で、ファイル名に平仮名片仮名が無い場合にエントリが消えるバグを修正した。
- (修正) 連続音でF0表示が消えるバグを修正した。

以下詳細です。


<エイリアス一括変換で、重複上限数を超えたエントリを削除する機能を追加した。>

連続音音源で同じ音がたくさん重複し過ぎて困るということがあります。setParamではパラメータを自動生成する際に重複上限を制限する機能を実装していましたが、既存oto.iniから重複分を除去したいというニーズもあるかなと思って作ってみました。

「ツール」→「エイリアス一括変換」で出る窓について、下図のように入力欄を増やしました。
エイリアス一括変換窓の変更120128

なお、本機能でエントリを削除することはできますが増やす(いったん減らしたものを復旧させる)ことはできません。増やすにはCtrl+iで手動で増やすか、「原音パラメータの自動推定」で増やし直して下さい。


MFCCを用いた連続音の先行発声の自動推定機能を追加した。

MFCCというパラメータを用いて連続音の先行発声値を推定する機能を実装してみました。MFCCとは声の音色を数値化(ベクトル)するもので音声認識プログラムでよく使われています。推定手順の説明は省略しますが改善の余地はあると思いますので、今後何か思いついたら作り変える可能性もあります。とりあえず今のところ以下のような傾向を持つようです。

・実行に時間がかかる。
・「a あ」「i い」…のように、声の音色に変化が無いパターン(当該母音=先行母音のパターン)は正しく推定できない。
・「にゃ」などのように音が「n」→「i」→「a」と複数回変化する場合、「a」の先頭を先行発声値にするため、音源によっては発音タイミングが早く感じられる。


一方以前の版で実装済みの自動補正1はパワー値を基にしており、以下のような傾向です。

・実行は比較的高速。
・パワー変化に乏しいパターン(「e お」のように子音が無くパワーが凹まない)、前の音より音量の下がるパターン(「a ん」など)では正しく推定できない。


どちらにも向き不向きがあります。そこで補正2の設定欄に「適用対象」という欄を設けました。補正2を適用したい音を空白刻みで指定します。デフォルトでは「あ い う え お ん」としており、「i あ」「u あ」「e あ」「o あ」「n あ」、「a い」「u い」「e い」「o い」「n い」、「a う」…(略)…「o ん」に自動補正2を実行します。これはなるべく補正1の結果を尊重し、補正1で失敗しやすい音にのみ補正2を適用させようと思ったためです。なお、空欄にした場合は全パターンが適用対象となります。補正2を利用しない場合は「自動補正2を使う」のチェックボタンを外して下さい。

もう一つ「オプション」欄があります。こちらの詳細は省略しますが、それぞれ以下の値を指定しています。

-l ... フレーム長(単位:サンプル。値は2のべき乗にする必要あり
-p ... フレームのずらし幅(単位:サンプル)
-m ... MFCCの次元数
-t ... 先行発声を求める際の閾値を上下させる係数。値が0に近い(小さい)ほど微小な音色変化に反応しがちになる。
-s1 ... 先行発声を求める探索範囲その1(単位:フレーム数)
-s2 ... 先行範囲を求める探索範囲その2(単位:フレーム数)
-d ... ツール群の置き場所を指定


あまりエラー対策はしていませんので各値を変更する場合はご注意下さい。

なお、MFCCを抽出するために主に名古屋工業大学で開発されているSPTK ver.3.5を利用させて頂きました。


<エイリアス補完に「ぢ」「づ」の補完を追加した。>

タイトルのとおりです。


<連続音のパラメータ自動生成で、ファイル名に平仮名片仮名が無い場合にエントリが消えるバグを修正した。>

以前の版では「息.wav」などのwavファイルの存在を無視してしまっていたのですが、エントリ自体は残すようにしました(パラメータの推定は行いません)。


<連続音でF0表示が消えるバグを修正した。>

連続音で上下矢印を使ったときなどにF0表示が消えるケースがあったので対応しました。


<今後の予定>

自動推定2ができたので、これをFransingに組み込めると良いなと思います。Fransing現状版は自動補正が無く原音設定が大変なので。また、MacOS版OREMOではsetParamの自動推定を移植してoto.ini自動生成機能を付けているのですが、Windows版にも反映させてver.3.0にしたいなと思います。

でもしばらくの間まとまった時間を取りづらいかもしれません。曲の方も同様でDTMで遊ぶ暇もあまりなく。久々にかなりぐっと来る理系的な文章に出会って歌詞がささっと出来たのでえいやっと仕上げたいなあと思いつつ1月が終わろうとしています。
スポンサーサイト

PageTop

コメント


管理者にだけ表示を許可する