• TOP »
  • DOCUMENT »
  • 日本語VOCALOID1のエンジンバージョンによる違い

日本語VOCALOID1の
エンジンバージョンによる違い

こちらの記事は 2008 年 4 月 24 日にブログに掲載した記事を転載し加筆修正したものです。

このレポートを読む前に:

Version 1.1 のシールが貼られたMEIKO/KAITOを製品のCD-ROMからインストールしただけの状態で、 Synthesis engine の Version を 1.0 に切り替えると、次回から VOCALOID Editor が起動しなくなる(起動中に致命的エラーが発生して、起動に失敗する)不具合があるようです。
製品のCD-ROMからインストールしたまま、アップデータをインストールしていないMEIKOやKAITOをお使いの方は、クリプトン社が配布しているアップデータをダウンロードし、インストールすることをお勧めします。

VOCALOID Ver.1.1.2 アップデータ(メーカーであるクリプトン社のサイトです。ユーザー登録要)

なお、起動しない状態に陥ってしまっても、その状態でアップデータをインストールすれば、正常に起動できるようになります。

念のため、 Synthesis engine の Version を切り替える方法を説明しておきます。

  1. VOCALOID Editor を起動します。
  2. メニューの「Settings」→「AUDIO」→「Synthesis Engine」をクリックします。
  3. 開いた設定ダイアログの「Version」ラジオボタンをクリックしてバージョンを指定し、「OK」ボタンをクリックしてダイアログを閉じます。
  4. ダイアログを閉じた直後に表示される英語のメッセージに従い、 VOCALOID Editor を一旦終了して、再起動します。←ここ重要

VOCALOID の Synthesis engineは、バージョン 1.0 と同 1.1 の2種類が存在していて、歌い方の癖がかなり違います。
バージョンを歌の途中で切り替えることはできないため、通常は調整を始める前にどちらを使うか決めておく必要があります。

私は最初から長いことデフォルトの 1.1 を使い続けているのですが、音程が狂わなくて凄いなぁと思っていた作品の制作者の皆様は、どうやらエンジンバージョン 1.0 を使用しているようです。
そこで、エンジンのバージョンによってどういう違いが出るのか、もしかしたら1.0は良調教への近道なのか?と考え、短い歌を作って試してみました。

歌詞は「アイスクリーム食べてます」のオリジナルのフレーズを、 KAITO に歌ってもらいましたw

無調整の比較

まずは無調整のデータを 1.0 エンジンで歌わせたものから:

無調整(1.0)MP3ダウンロード

きっちり音程を合わせてはきはきと歌ってくれますが、「アイスクリーム」の「ム」と、「食べてます」の「食べ」「す」が、エコーがかかったような変な声になってしまってます。
また、「て」を伸ばす部分の発音が、 1.1 に比べて機械的です。
時々ロボ声っていう言葉を聞きますが、こういう声のことを指すのかな?

次は同じ無調整のデータを1.1エンジンで歌わせたものです:

無調整(1.1)MP3ダウンロード

お約束の自動ポルタメントによる音程ふにゃふにゃ効果で、前半が大変なことになってます(^^;
ただしロボ声っぽい成分は1.0に比べて少なめ。

少しだけ調整してみた状態の比較

次に、1.0と1.1で、それぞれ15分かけて、自然かつ安定した音程の歌声を目標に、調整を行ってみました。

1.0エンジンで調整してみたもの:

やや調整済(1.0)MP3ダウンロード

「食べて」のロボ声成分を退治しきれてませんが、15分の時間制限と、初めて調整した不慣れを考えれば、それなりにいい感じかな?
音程ふにゃふにゃ対策が要らない分、慣れればこっちの方が楽になるのかなぁ。

続いて1.1エンジンで調整してみたもの:

やや調整済(1.1)MP3ダウンロード

ごくわずかに音程がふらついてますが、ロボ声成分は少なめに抑えられており、これもこれでいい感じかと思います。15分の時間制限ではここまでですが、さらに時間をかければもっと自然にできそう。
1.0と比べて、少し柔らかい歌い方になっていることにも気付くんじゃないかと思います。1.0を使って同じ雰囲気を出すには、あちこちのパラメータを細かく動かす必要がありそうです。

各MP3データと、KAITO用MIDIデータの詰め合わせZIPも置いておきますので、興味がありましたらどうぞ。
実験データ詰め合わせZIPダウンロード

感想

比較結果について、個人的感想を。

現段階ではどちらも一長一短で、調整にかかる手間はほとんど変わらないような気がします(´▽`;)

ただ、 1.0 でロボ声対策をマスターできたら、音程ふにゃふにゃ対策を必要としない分だけ、狙った通りの表現で上手く歌わせやすいのかもしれません。私のように DTM 音源を数値入力で動かしていた人には、こちらが適しているのかもしれません。

一方 1.0 は 1.1 に比べて無表情がちなので、表情豊かにするには各パラメータを忙しく変化させることになりそうです。

早口だったり、めまぐるしく高速に音程が変化する歌の場合は、1.0の方が圧倒的有利になりそうです。
一方、スローテンポな曲や、自動ポルタメントの特徴がそのまま生きるような曲は、1.1の方が合うかもしれません。
また、喋らせるなら 1.0 よりは滑らかな 1.1 が適していそうだと思いました。