音楽とかソフトとか

wavDivider(わぶでば) ver.2.0 開発メモです。私的メモということで、直接内容を上書きしていく可能性があります。

進捗状況(2008/12/29):
桃音モモの3ファイル(拗音、ささやき、外来語)で自動ラベリングの動作を確認しました。プログラムの細かい所を整理しました。

進捗状況(2008/12/27):
パワー表示を実装しました。↓の画像をクリックすると拡大します。

わぶでば2.0の画面一部

青線がパワーで、単位はdBです。パワー表示/非表示はメニューで切り替えられます。あるいは波形上の右クリックメニューからも切り替え可能です。上下縮尺変更は波形パネルと同じくShift+ホイールでできます。

桃音モモの中の方が追加収録されたwavファイルを公開されているので、それでテストしてみようかなと思います。

進捗状況(2008/12/16):
ToDOの1番が大体終わりました。小窓が開いてとりあえず関係するパラメータを変更できるようになりました。ただ、toDoにも書いていますが縦軸の単位が異なる(dBと振幅値)のはやや不親切だと思います。とりあえず数値を変えて試行錯誤すれば解決可能なので問題ない、という考え方でなら、今の段階で公開可能です。

snackライブラリで求めたdBを振幅値に変換して窓に表示(snackのソースを読んで逆算)、というのは試しましたが、あまり良くなかった(詳細省略)ので、他の解決法としては、db単位のパワー系列を(わぶでばのスペクトル表示みたいに)わぶでば画面上にプロットさせることだと思っています。

進捗状況(2008/12/11):
下に書いたアルゴリズムを実装して、テスト用のwavファイルで正しく自動ラベリングできることを確認しました。以下は「あ、い、う、え、お」のサンプルを使って目視確認した画面です。横軸は時間、縦軸は波形パワー[dB]で、赤線が「あ、い、う、え、お」のパワーの曲線です。青線が自動推定した発話開始/終了位置です。
labelingCheck.gif

上図の青線の位置に「S]ラベルまたは「E_」ラベルを付けた結果がこちらです(クリックで拡大します)↓
labelingCheck2.gif

予想していたよりもずいぶん早く実装できました。後はToDOの項目を処理すれば完成です。脳内〆切(年内公開)を守れそうで一安心しています。

ToDO:
  1. 各ユーザがパラメータを調整できるように窓を作る。なお、自動ラベリング時に参照するパワーは単位dBであるのに対して、わぶでば本体の波形左側に表示している目盛は振幅値であり一致しない。できれば窓で両方表示されるようにした方が親切と思う。
  2. 何度か自分で自動ラベリングを試して動作チェック
  3. デモ動画作成(パラメータ説明の図が入ってると良いかも)
  4. exe化してアップロード
  5. ホームページ更新

ver. 2.0 の機能:
 波形のパワーを用いた自動ラベル付与機能

ユーザが行う大まかな流れ:
 1. メニューから自動ラベル付与を選択
 2. パラメータ設定窓が開くので必要に応じて値を変更
 3. 実行を押し、実行結果を目視確認。うまくいってなかったらアンドゥを押す。(アンドゥが万が一無効なら再起動・・・)

脳内締め切り:
 年内。作業時間はひとまず週に2時間くらい確保できればいけそう。。

<ラベル付与をコーディングする際のメモ(アルゴリズム、パラメータなど)>

パワー抽出
 パラメータ:抽出間隔

パワー平滑化(平均(or重みつき平均)で平滑化)
 パラメータ:フレーム幅、重みつきなら重みの度合い

発話開始点抽出
 やり方:現在地xからしきい値a以上のパワーがb点以上続けば、xから逆方向にたどってしきい値c以下になった点を発話開始点とする。
 パラメータ:a,b,c
エラー対策:開始点がどこにもない場合

発話終了点抽出
 やり方:発話開始点から右方向にたどり、しきい値c以下のパワーがb点以上続けば、そこを発話終了点とする。
 パラメータ:a,b,c (多分発話開始点と同じものでいける)
エラー対策:終了点がなかった場合

ラベル付与
開始点、終了点にそれぞれラベルを付与

----
欲をいえば、各しきい値が波形上に線で出てそれを直接動かせると直感的→多分実装が大変→歌声合成用だし録音方法もある程度限定されるから、頑張らなくてもきっと大丈夫。while(1){ print "きっと大丈夫。" }

ver. 3.0:
 ver. 3.0 はとりあえず置いておいて、新しいものを先に作るかもしれません。録音からwavファイル作成までやってしまうソフトです。ただし、録音しつつPCを操作する以上、PCのノイズが入る可能性が高いので、手軽な反面、SN比が低くなる可能性を払拭できません。

 でも、中の方の書き込みなどを随所で拝見すると、PC付属のマイクでやってらっしゃる方もいるので、手軽さ(と出来れば分かりやすさ)を重視するソフトがあっても良いかなと思っています。

脳内締め切り:
 ver.2.0が思いのほかさくっとできたなら年末年始が空くので、「新ソフトは冬休みの宿題」的な状況になっていることをとりあえず期待します。

スポンサーサイト

PageTop