音楽とかソフトとか

OREMO ver.2.0-b090803を公開しました→こちら

主に、UTAUの連続発声音源の仕様への対応です。まだ完全ではありませんが、クリティカルな部分にいくつか対応しました。

<主な変更点>
  • (修正, setParam) oto.iniの内容と保存フォルダが不一致の場合に生じるバグを修正。
    バグ修正


  • (変更, setParam) 一覧表窓のキーバインドを以下のように変更。
    • wavファイル再生をspaceからctrl+pに変更。
    • wavファイルの左右ブランク間再生をctrl+spaceからctrl+alt+pに変更。
  • (追加, setParam) 波形窓でも上記ctrl+p, ctrl+alt+pを使えるようキーバインド追加。
    連続発声音源のエイリアスで空白文字を利用するため。space=再生だと空白を入力できない。


  • (変更, OREMO) デフォルトで「録音後のDC成分除去」をしないように変更(オプションメニューで有効にできます)。
    自動録音の際にPCに負荷をかけないようにするため(あまり負荷がかかるとBGMが一瞬止まることがあります)。


  • (追加, setParam) ツールメニューに「DC成分の一括除去」を追加。
    自動録音でDC成分除去をしない代わりに、setParamで、保存フォルダ内の全wavファイルからDC成分を一括除去できるようにしました。


  • (追加, setParam) ツールメニューに「wavファイル名先頭に「_」を追加」を追加。
    連続発声のwavファイルは「_」で始める仕様になりそうですが、前バージョンのOREMOの連続発声では「_」を付けていませんでした。なので、保存フォルダ内の全wavファイル名の先頭に「_」を追加する機能を付けました。

    なお、既に「_」が付いているファイルは無視しますので2回実行したりしても問題ないです。


  • (追加, OREMO) 連続発声用ガイドBGMのMIDIファイルを添付。
    前バージョンから添付しているガイドBGMのMIDIファイルを添付しました。収録キーをF4以外にしたい場合は、このファイルを編集して音の高さを変えてwav化し、BGM設定ファイルを調整すればOKです。もちろん他のwavファイル、mp3ファイルなども使えますが設定ファイルを一から作るのが面倒な場合には使えるかなと思います。

    いずれはデフォルトで数曲ガイドBGMを用意しようとも思いますが、とりあえず優先度が低いです。


  • (追加, OREMO) reclist-renzoku.txtの変更(発声を5モーラに統一。先頭に「_」を追加)
    きりが良いように全部5モーラにしました。また、連続発声なので先頭に「_」を付けました。

    ただし、このリストは予備テストのつもりで作ったものですので「きゃきゅきょ」などの拗音の連続発声が入っていません。飴屋さん版のreclistには入っています。


  • (追加, OREMO) 音名リスト、発声タイプリストでctrl+wheelすると横幅が変わるようにした。
    連続発声だと縦長のリストの横幅が狭かったために、次に来るフレーズが何なのかが全部見えませんでした。なので横幅を伸ばせるようにしました。

    ただし、ちょっと動きがおかしい場合があります(横幅を伸ばしつつ一緒に縦スクロールしてしまう現象が起きることがある)。操作で復旧できる問題なのでそのままにしています。OREMO起動後にすぐ横幅変更すれば問題ないと思います。



あと次回以降の更新でやりたいこととしては、、

  • 自動録音のoto.iniの自動生成。パラメータ値が分かればexcelでさくっとできそうな機能ですが、あった方が楽かなと思います。
  • 単独発声用ガイドBGMの準備。

スポンサーサイト

PageTop
再生数の伸びにびっくりしつつ、、

今回の連続発声音源についてももももPさんなどが既にブログで解説(図もあり)されていますが、一応私も少し書いてみます。

これまでのUTAUでは「か(/ka/)」「さ(/sa/)」などの「子音-母音」の音を一つの塊として合成処理を行っています。一方今回の場合、UTAUは「あか(/aka/)」「いか(/ika/)」などの「母音-子音-母音」を一つの塊として合成処理を行っています。

例えば「かお」という声を作る場合、これまでのUTAUでは「無音-か」と「無音-お」をつなげていました。これだと、両者をクロスフェードさせた場合、間に「あ("か"の/a/の部分)」と「お」を同時に発声した波形ができてしまいます。クロスフェードさせなかった場合、唇の形が瞬間移動したような波形ができてしまいます。

一方今回の場合は「無音-か」と「あ-お」をつなげます。両者をクロスフェードさせた場合、「あ」と「あ」とをクロスフェードさせますのでつなぎ目が目立たなくなります。

これは必ずしも新しいことをしたわけではありません。朗読音声合成や音声認識では当たり前にやられている方法をUTAUに持ってきています。YAMAHAのvocaloidでも「呪文」の収録をしていますが、これも一般的な音声合成用コーパスの作成と同じと思われます。

------

ここからは私個人の「こうなったら良いな」と何となく思っていることです(実現はだいぶ先の話かもしれません)。

朗読音声合成では、呪文の読み上げではなく通常の日本語文を読み上げていれば合成用データが出来上がります。大雑把に言うと「本を読んでたら合成用音源ができちゃった」といった状態です。

その点で今回のような収録方法は必ずしもベストとは言えない、と個人的には思っています。

呪文を歌い上げるやり方は、必要な音声を無駄なく収集できるためコストパフォーマンスの面ではベストです。特に声優さんなどのプロの方を起用した場合、お金が発生しますから呪文の方が恐らく安く作れます。

しかし呪文を歌っていて楽しいと思えるかどうかは人次第かなと思います。vocaloid関連に興味があって声優さんのインタビューなどを読んだ方ならすんなり収録できるかもしれませんが、何も知らない歌い手さんだったら、いきなり呪文を収録するとなると面食らうかもしれません。

しかもUTAUの場合、基本的にお金が発生しません。なので、その分楽しさでカバーできないものかなぁと思ったりしています。そうなると最終的には、「自分の好きな歌を何曲か歌ってたら音源できちゃいました」というのが理想なのですが、すぐにはそうもいきません。

そんなことも考えながら OREMOのガイドBGMを実装しました。カスタマイズ可能にしてありますので、BGMのmp3ファイル・録音のタイミングを書いた設定ファイルがあればひとまず自分の好きなBGMを使って収録できるはずです(その準備の手間が問題ですけど)。

OREMOの当初の開発姿勢は簡単・気軽に音源作成できることなので、なるべくなら楽しさを感じられる収録支援になれば良いなと思います。

しかし現状では、より高品質な音源・より多くの人に使いたいと思ってもらえる音源にするには、その人の声の良さだけでなく、自分なりに頑張って試行錯誤すること(またはその意気込み)が必要、というのも事実だろうと思います。再収録もどんとこい!みたいな。今回の収録でも1回目のテイクは丸ごとボツになったのですが、それでも藤本さんは「1回目は良い練習になった、感じをつかめた」といったことを仰っていたように思います。

PageTop
飴屋さんが上げられた連続発声の「けんか別れ」についてですが、連続発声デモとしてではなく楽曲、動画について書いていませんでした。



今回の動画ではコーラスが追加されていますが、以前低音PさんがKAITO版で付けて下さったものをベースにして、さらに飴屋さんの追加パート分+アレンジ、私の追加パート分が混じってできています。上記の動画はその低音Pさん版です。また、飴屋さんは(データ渡し~mp3作成までの時間を考えると)ほぼ即興に近い状態でコーラス追加やコーラスワークのアレンジをされたのではないかと思います。

絵も同様で、ももももPさんが描く話になってから完成まで一日もかかっていないはずです。私はつい猫に目が行ってしまいます。


飴屋さんにお渡しした曲データは以下に置いてあります。
http://www.divshare.com/download/8043686-283

必要そうなものを色々詰め込んだため(オケデータ(新旧)、サユ版ustファイル、REAPERプロジェクトファイル)、ファイルサイズが約80MBあります。またオケデータなどはflac形式で圧縮してありますので、wav形式に戻す必要があります。やり方はこのページの最下部に書いてあります。

PageTop