浜崎あゆみ「Dearest」を唄う初音ミクの神調教 まとめ

(初音ミクみく 出た!VocaListenerの秘密の一端解明か?謎の調教師が置き土産!けいゆ)

産総研の技術ぼかりすに対抗する話題沸騰の神調教について。

問題のVSQ(ダウンロードしてから.vsqにリネーム)

http://dtm.e-nen.info/src/up2132.txt

このVSQファイルを解析した記事は下記。

VSQ解析記事

上の#1の記事を要約すると、ポイントは下記。

  1. 調整されているのは、VEL/DYN/PITのパラメータのみ。それ以外(BRE/BRI/CLE/GEN/POR/PBS)初期値
  2. VEL(ベロシティ)について
    • VELは子音の発音の強さで、小さいほど子音が強く表現
    • 音節の最初ほどVELが小さく、後ろにゆくほど大きくなる
    • これは、息継ぎ後には強く発音された子音が、文節の終端ほど段々小さく発音されていく様
  3. DYN(ダイナミックス)について
    • DYNは音量。この値が大きければ音量が大きくなる
    • 長い発音要素の場合には、しだいに大きくなる正弦波カーブを描く
    • また、音節全体でゆるやかな山なりのカーブを描いている
  4. PIT(ピッチベンド)について
    • PITは音程。この値が大きければ音程が高くなる
    • PITはDYNと極めて高い相関性をもって変化する
    • PITは発音要素が短くても長くてもあまり変化せず、音節全体のカーブもゆるやか
    • 長い発音要素のときの正弦波状のカーブはDYNよりも振幅が大きい
  5. ビブラートの主たる要素は、音程の周期的な変化で、従たる要素は音量の周期的な変化なのだと推定

この分析は作者自身がスレでコメントしていた事とおおよそ一致する*1

「音の3要素(音程・音色・音量)」という原点に立ち返った感じです。
VCO…VOCALOID(ビブラート機能は使わずノートデータとピッチベンドで制御)
VCF…DAW(フォルマント変化等をオートメーションで制御)
VCA…VOCALOID(ベロシティとダイナミクス)+DAW(コンプその他)

あと#2の記事の内容から、Vocaloidエディタでは入力不可能な値の指定の仕方がされているとの事。Vocaloidエディタでは正弦波カーブを描くようなことは出来ないし、手打ちでないことは確か。

ぼかりすhttp://www.geocities.jp/cn_hibari/vsq/と同じ発想で浜崎あゆみの歌声を解析してVSQのパラメータを抽出したのだろう。
感覚的だがPITの値は音声から抽出し、DYNは一定のアルゴリズムによって正弦波の合成で生成されているように見える。

試しにPITとDYNをグラフにプロットしてみた

http://farm4.static.flickr.com/3190/2463546279_1f14085359_m.jpg

上:PIT, 下:DYN
縦軸はそれぞれの値(PITは-8192〜8192、DYNは0〜100。実際はDYNの値は128まで取れる)、横軸はPIT, DYNともにコントロールチェンジイベントのTick数。
パラメータはVSQデータからvsq2txtでテキストに引っこ抜き。

*1:ただ、VELの調整に関しては言語学的な形態素解析ではなく、歌唱におけるアクセント、音楽的なアーティキュレーションを考慮しないといけないと思うのだが。