音楽とかソフトとか

再生数の伸びにびっくりしつつ、、

今回の連続発声音源についてももももPさんなどが既にブログで解説(図もあり)されていますが、一応私も少し書いてみます。

これまでのUTAUでは「か(/ka/)」「さ(/sa/)」などの「子音-母音」の音を一つの塊として合成処理を行っています。一方今回の場合、UTAUは「あか(/aka/)」「いか(/ika/)」などの「母音-子音-母音」を一つの塊として合成処理を行っています。

例えば「かお」という声を作る場合、これまでのUTAUでは「無音-か」と「無音-お」をつなげていました。これだと、両者をクロスフェードさせた場合、間に「あ("か"の/a/の部分)」と「お」を同時に発声した波形ができてしまいます。クロスフェードさせなかった場合、唇の形が瞬間移動したような波形ができてしまいます。

一方今回の場合は「無音-か」と「あ-お」をつなげます。両者をクロスフェードさせた場合、「あ」と「あ」とをクロスフェードさせますのでつなぎ目が目立たなくなります。

これは必ずしも新しいことをしたわけではありません。朗読音声合成や音声認識では当たり前にやられている方法をUTAUに持ってきています。YAMAHAのvocaloidでも「呪文」の収録をしていますが、これも一般的な音声合成用コーパスの作成と同じと思われます。

------

ここからは私個人の「こうなったら良いな」と何となく思っていることです(実現はだいぶ先の話かもしれません)。

朗読音声合成では、呪文の読み上げではなく通常の日本語文を読み上げていれば合成用データが出来上がります。大雑把に言うと「本を読んでたら合成用音源ができちゃった」といった状態です。

その点で今回のような収録方法は必ずしもベストとは言えない、と個人的には思っています。

呪文を歌い上げるやり方は、必要な音声を無駄なく収集できるためコストパフォーマンスの面ではベストです。特に声優さんなどのプロの方を起用した場合、お金が発生しますから呪文の方が恐らく安く作れます。

しかし呪文を歌っていて楽しいと思えるかどうかは人次第かなと思います。vocaloid関連に興味があって声優さんのインタビューなどを読んだ方ならすんなり収録できるかもしれませんが、何も知らない歌い手さんだったら、いきなり呪文を収録するとなると面食らうかもしれません。

しかもUTAUの場合、基本的にお金が発生しません。なので、その分楽しさでカバーできないものかなぁと思ったりしています。そうなると最終的には、「自分の好きな歌を何曲か歌ってたら音源できちゃいました」というのが理想なのですが、すぐにはそうもいきません。

そんなことも考えながら OREMOのガイドBGMを実装しました。カスタマイズ可能にしてありますので、BGMのmp3ファイル・録音のタイミングを書いた設定ファイルがあればひとまず自分の好きなBGMを使って収録できるはずです(その準備の手間が問題ですけど)。

OREMOの当初の開発姿勢は簡単・気軽に音源作成できることなので、なるべくなら楽しさを感じられる収録支援になれば良いなと思います。

しかし現状では、より高品質な音源・より多くの人に使いたいと思ってもらえる音源にするには、その人の声の良さだけでなく、自分なりに頑張って試行錯誤すること(またはその意気込み)が必要、というのも事実だろうと思います。再収録もどんとこい!みたいな。今回の収録でも1回目のテイクは丸ごとボツになったのですが、それでも藤本さんは「1回目は良い練習になった、感じをつかめた」といったことを仰っていたように思います。
スポンサーサイト

PageTop

コメント


管理者にだけ表示を許可する