音楽とかソフトとか

pCov ver.1.1を公開しました→こちら。

更新内容は、以前書いたバグの修正です。

また、解説動画を作ってみました。


何だか最近説明が下手(冗長)になっている気もします。

スポンサーサイト

PageTop
先日上げたpCov ver.1.0で幾つかバグがありました(検証&ご連絡ありがとうございました)。

バグ内容は以下のとおりです。改めてver.1.1で修正しようと思いますが、すべて各ユーザでも対応できる内容ですので対策法も書いておきます。

・一覧表に「てぃ」「でぃ」が2回出てくる
(対策法)
 pCov-init.tclをテキストエディタで開き、「set unitList {...}」の項目内の「てぃ でぃ」を1つ消す。

・「ヴ」を認識できない
(対策法)
 pCov-init.tclをテキストエディタで開き、以下の2箇所を変更する。
 ・「set unitList {...}」の項目内に「ヴ」を追加する。
 ・「set vowelList(u) {...}」の項目内に「ヴ」を追加する。

・README&webマニュアルの説明誤り
 「収録効率」の計算式を以下のように書き間違えていました。
 (誤) カバー済組み合わせ数 / 発声回数 * 100 [%]
 (正) カバー済組み合わせ数 / 発声モーラ数 * 100 [%]

 ※webマニュアルは訂正済みです。

PageTop
pCov(ぴーこぶ) というソフトを公開しました→こちら。

pCovは、「UTAU用音声コーパスのカバー率を測定するソフト」です。テキストファイル(reclist.txt)やwav、ust、xmlにどの音が何回出てくるかを測定します。また発声回数やカバー率、収録効率も表示します。主にUTAU向けを想定していますが、それ以外でも使えるかもしれません。

主な用途として以下の例が挙げられます。

・自分で設計したreclist.txtに音の抜けがないか、無駄はないかをチェック。
・収録済みwavに音の抜けがないかをチェック。
・歌唱wavを合成用コーパスにする際に収録されない音はどれかを調査。
などなど。。

pCov実行画面


使い方は恐らく単純だと思いますが、解析対象のファイルを開くと、窓の下半分に音の出現回数が表示されます。未収録の音は黄土色で表示されます。データはcsv形式で保存可能ですのでexcelと連携できます。

また「解析」を押すと発声回数やカバー率(音の全組み合わせのうち何パーセントを収録しているか)、収録効率(重複せずに収録できるか)などを表示できます。以下の例はOREMO付属のreclist.txtとreclist-renzoku.txtを解析したものです。
pCov解析結果


もっと詳しい使い方についてはダウンロードページの説明をご覧下さい。

UTAUの音声コーパス作成の次の展開として、「あいうえお~」のような無意味語の収録だけでなく既存曲の歌唱wavを利用するというやり方も選択肢の一つとして整備されてくるかもしれません(Sinsyではそうなっていますし)。そんな意味も込めて、ustファイルとxmlファイルも入力可能にしてあります。

PageTop
ラジオbotのmp3やMIDI、ust、xmlデータ等を置きました→こちら

ボーカルのキーはsinsy f001の音域外なので、xmlファイルでは長3度(半音4つ分)下げてあります。原曲ではsinsyの出力wavをaudacityで長3度分上に上げてキーをそろえました。

----
公式発表はまだですが「朝焼けサイクリング」が上位200曲内にどうも入っていたようです(「キムラ項」は投票中です)。決まるとしても数ヶ月はかかるかなと思っていたのでびっくりでした。ありがとうございます。

PageTop
Sinsyで一曲上げました。よろしければお聴き下さい。


twitterでbot同士が会話するのが面白いなと思って作りました。酒井駒子さんの童話にSFが混じった感じになっていると良いなと思います。

折角なので酒井駒子さんの作品から「ビロードのうさぎ」を。

ビロードのうさぎビロードのうさぎ
(2007/04)
マージェリィ・W. ビアンコ

商品詳細を見る

原作は外国の方で、酒井さんは絵と訳を担当されています。本物のうさぎになりたいと思っているおもちゃのうさぎの話です。

PageTop
(※このページはver.0.18公開時の内容です。より新しい版(ver.0.19)が公開済みです→こちら



遅くなりすみません。nicoStat ver.0.18を公開しました→こちら

今回の変更点はひとまずマイページHTML構成変更に対応したことですが、もっと大きな変更点として、今回のような変更対応作業を各ユーザでも行えるようにしてみました。(予想以上にHTML構成変更回数が多く、今後も同様のことが続くと思われますので)。

nicoStatのプログラムは以下の流れで動いています。
1. マイページHTMLファイルをダウンロード
2. HTMLファイルから再生数などの数値データを抽出
3. csvファイルに記録


2.のデータ抽出ではPerlの正規表現を使っています。これまでのHTML構成変更では、ほとんどの場合、この正規表現の内容を書き換えることで対応してきました。

今回のバージョンでは、この正規表現を設定ファイル.nicorcで書き換えられるようにしました。よって本バージョンの.nicorcには以下のパラメータが追加されています。旧バージョンをお使いの方は必ず本バージョンの.nicorcを使って下さい。

playNum=再生数抽出
commNum=コメント数抽出
mylistNum=マイリスト数抽出
title=タイトル抽出
id=動画ID抽出
next=次ページへのリンク抽出

今後HTML構成が変更された場合は以下の要領で変更作業することができます。

(例:再生数の抽出方法を変更する手順)
1. ブラウザでマイページのHTMLソースを見て再生数の書いてある行を探す。
2. その行にマッチするようなPerl正規表現を.nicorcのplayNumの項目に書く。
3. RULECHECK.BAT または NICOSTAT.BAT で、所望の再生数を取り出せたかチェックする。

RULECHECK.BATを使った場合抽出経過を表示するようになります。
正しく抽出できた場合の出力例は以下のとおりです。
(例:再生数51、コメント数6、マイリスト数10の曲の例)
----
title: <h4><a href="watch/sm12588413">【Sinsy】 ラジオbot 【オリジナル】</a></h4> -> 【Sinsy】 ラジオbot 【オリジナル】
id: <h4><a href="watch/sm12588413">【Sinsy】 ラジオbot 【オリジナル】</a></h4> -> sm12588413
playNum: <dt>再生:</dt><dd>51</dd> -> 51
commNum: <dt>コメ:</dt><dd>6</dd> -> 6
mylistNum: <dt>マイ:</dt><dd><a href="mylistcomment/video/sm12588413">10</a></dd> -> 10

----
以上のように、「抽出したい項目名: 抽出した行 -> 抽出したデータ値」の形式で抽出経過を表示します。


なお、HTML変更の内容次第では nicoStat 本体側の変更が必須になるケースも考えられます。また正規表現をご存知でない方は適切に正規表現を書き換えられないかもしれません。そのような場合にはご連絡いただければ幸いです。

PageTop
ニコニコ動画のHTML構成が変更され、現バージョンのnicoStatでデータ記録ができなくなっています。手元のPCのPerl環境では対応済みですが、exe化する環境を再構築する必要があって時間が取られています。

Perlスクリプト+.nicorcだけでよければすぐに配布できるのですが、、といった状況です。

なお、最新版では今後のHTML構成変更に備えてデータ抽出規則を外部ファイル.nicorcで設定変更できるようにしてあります。外部ファイル化したことで、ユーザの方でも変更作業ができるようになります。

PageTop