「DOS/Vmagazineカスタム」＜森山和道の科学的態度＞第３回

99年11月号掲載

『合成音声の音声合成なのだ』

あ・な・たの名前をキャラが呼んでくれる

　恋愛シミュレーションゲームの金字塔、『ときめきメモリアル』の続編、『ときめきメモリアル２』の発売がコナミから発表された。様々なとろで新しい技術が導入されているが、ここでは「Emotional Voice System（E.V.S.）」とコナミが呼ぶところの音声合成システムに注目したい。非常になめらかな合成音声で任意の名前を呼びかけてくれるというものである。つまり登場キャラの女の子がプレイヤー（あなた）の名前を呼んでくれるのだ。しかも、ゲームの進行に合わせて、様々な変化が可能なのである。どういうことかというと、「かずみちくん！「かずみちくーん」「か・ず・み・ち・くん（はあと）」「かずみちくん…」といった、まるで感情がこもっているかのような様々な変化が可能なばかりか（だからEmotional...といっているわけだ）、勝手にニックネームまでつけて呼んでくれるのだ。たとえば「かずくーん！」「もりりーん！」といった具合にコンピュータがあだ名で呼んでくるのである（ちょっと恥ずかしい）。

　口で言ってもなかなか分かってもらえないと思うが、実際に自分の名前を呼んでもらうと、その妙な「生々しさ」にびっくりする。ギャルゲーしない人でも、これは一度試す価値がある。

　開発にあたった『ときメモ』サウンドディレクター笠井治さんは「声優さんを使っていろいろなテンションの音を録って、それを適当に繋ぐんです。ただそれだけです。特に新しい技術や、最先端の技術は使っていない」と語る。なにせハードはプレステなのだ、当たり前である。だが、これは凄い技術である。なにが凄いのか？

　思い出して欲しい、他のメーカーの合成音声を。妙にくぐもった、いかにも「ボクハコンピュータデス」みたいな声か、カーナビみたいな平板な声がせいぜいだったではないか。感情表現などどこにもない。大手企業の研究所ができなかったことを１ゲームメーカーがやっちゃったのだ。なぜEVSは実現できたのだろうか？

肝心要は辞書

　その前にまず、言葉の構造について説明しておこう。言葉、文章は単語からなる。単語は音節から成り立つ。日本語には101の音節がある。さらに音節は「音素」に分けられる。音素は母音と子音に分けられる。これが音の構成である。

　喋る音は音韻的には時間軸上に音素を積み重ねることで構成されている。単純に考えると音は、いわゆるひらがなカタカナで綴ったそのままが積み重なっているように思えるかもしれない。だが、音と音の間には「つなぎ目」がある。前にどんな子音が来ていたかで次の母音への音の移行の仕方が変わり、さらにその前にどんな母音が来ていたかで、また音が変わる。

　何を言ってるか分からないかもしれない。要するにこういうことである。「たかだ」「はかた」「さかた」という言葉があったとする。どれも２番目は＜a-ka＞と変化する言葉である。ところが、ここから音素を合成するための要素としてサンプリングすると、全部波形が違うのである。つまり、それぞれ前にある子音、T、H、Sの違いによって、その後の音が変わるということなのだ。

　予めサンプリングしておいたデータを元に音声合成するときには、これをどう繋げるかというところがポイントの一つになる（もちろんサンプリングせずに純粋に「合成」してしまう技術もあるのだが、ここではそれには触れない）。いくつかの方法があるのだが、『ときメモ２』では、VCVと呼ばれる母音-子音-母音というかたちで音素をサンプリングして繋げる方式を採っている。つまり、次に何の音が来るのかということで辞書をもっていて、それを繋げるのだ。この場合、おおよそ700から800取っておけば、いちおう音を構成することができる。

　だがもちろん言葉は単なる音の連なりではない。抑揚や音量、いわゆるイントネーションと呼ばれるものがある。これによって言葉に感情表現が加わるのである。このリズムや抑揚のことをプロソディ（韻律）と呼ぶ。ちなみに脳ミソというの実に不思議で、右半球の特定部位が破壊されると言葉にプロソディをのせることができなくなる。また別に、ことばに乗せられた感情が理解できなくなる症例も知られている。

ゲームだからできた

　さて、『ときめも２』の話に戻ろう。E.V.S.による合成は、収録したと言ってもわからないほどのナチュラルさを誇る。辞書に登録されていない言葉に関しては抑揚パターンをユーザーが選ぶこともできる。これによって聞き慣れたイントネーションで名前を呼んでもらえるのである。

　この技術のポイントは２点ある。第一はエンターテイメントを目標とした技術であるという点だ。笠井さんは語る。「今までの音声合成は目標が曖昧だった」。

　どういうことか。今までの音声合成は平均的なものを求めすぎていたのである。

「とにかく感情を表現できないとゲームには使えませんので。感情を表現するためにはイントネーションをスムーズにすることが第一なんです。そのためには多少間違っていても個性を生かすことを選んだ。細かいところはすぱっと切り捨てて、たぶんここが一番大切だろうというところだけやったというのが成功の理由です」。

　もう一つは、名前に特化した音声合成であるという点である。つまり、名前だけをスムーズに繋げるための技術なのだ。音素や抑揚の組み合わせは無限にある。だが名前だけに特化してしまえば「名前なりの特性」のみをターゲットにできる。そうした場合、音のつなぎ方、すなわち常識的な発音パターンというのはたかが知れているのだ。われわれも、全く聞いたことのない名前でもそれなりに発音することができる。経験で「だいたいこういう発音」というのを知っているからだ。だから、それと同じだけの知識を持たせれば、それなりにしゃべるはずである。こう考えたのだという。

　発想の転換である。そのためにデータを大量にサンプリングした。E.V.S.は名前だけで１万語のデータを持っている。ちなみに他の音声合成は、様々な用途に使うことを想定しつつも10万語程度しか辞書を持っていないのだという。これが勝因だった。

　さらにプロソディを録音データに合わせて調整する。声優さんのクセに合わせるのだ。これによってあたかも声優さんがしゃべったかのような声に聞こえるのである。

　もちろん、キャラがプレイヤーのことを好きになるとピッチをあげてやって声をうわずらせるとか、ゲームなりの演出もなされている。結局ここがポイントなのだが、まさに人を「騙す」ことを商売にしてきたゲームメーカーの真骨頂だと言えよう。

　サイエンスとしても面白い。今回のE.V.S.は女性ユーザーをあまり想定せずに作ったため、女性名を呼ぶことは苦手とする（本来できたらしい）。つまり男性名のイントネーションと女性名のそれとは、全く違うのだという。逆に言えば、僕らが名前の呼び方をその性別で変えているということを、はっきりした形で示したわけだ。また名前に特化したことで成功したわけだが、他のものを自然に音声合成することはできない。名前には「名前独特の呼び方」があるように、おそらく地名には地名独特の呼び方が、会社名には会社名独特の呼び方が…といった形で、人間がそれぞれの発声を完全に使い分けていること、それを連続して組み合わせて発声しているということを意味している。しかし取りあえず名前に関しては、どこをどう変えているのかということも──なにせプログラミングできているのだから──はっきりした形で把握してしまったわけだ。コナミが自覚しているかどうか知らないが、やっぱり凄いことだと思う。

　E.V.S.はイントネーション、音のつながり、強弱の３つの「かねあい」を考え、いかにナチュラルに繋ぐかがポイントであり、それが全てであったという。具体的にどう繋いでいるのかという点については教えて頂けなかったが（特許申請中だそうな）、「ただそれだけ」で人間は簡単に騙されてしまう。ゲームは騙しの技術の結集なのだが、つくづく人間は不思議である。

| DOS/Vmagazineカスタム掲載原稿インデックスへ | ホームページへ |