RMT-WM
RMT-WM

「FFXIV」のサウンドデザイナーが語る「MMORPGのサウンドデザイン」


   CEDEC 2011の初日,9月6日に,スクウェア・エニックスによるサウンド関連のセッションが開催された。タイトルは「MMO-RPGならではのサウンドデザイン」。スピーカーは同社のサウンドデザイナー兼コンポーザーである祖堅正慶氏で,「FINAL FANTASY XIV」(PC / PlayStation 3,以下 FFXIV)を題材に,デモを交えながら,MMORPG向けのサウンドデザインにおいて,どういったところを工夫したのか,ざっくばらんに語るという,貴重なものだった。

 ちなみに祖堅氏は,音楽活動をしながら化学系の大学に4年間在籍した後,某大手ゲームメーカーに就職。当時は効果音も曲もサウンドプログラムもすべて一人でやってしまう先輩に恵まれてサウンドデザインを学んだとのこと。その後,当時のスクウェアに転職。「劇空間プロ野球」を皮切りに,「かまいたちの夜2」「聖剣伝説4」「ドラッグオンドラグーン2」などなど,48タイトルでサウンドデザインを手がけてきたという。

 

MMORPGならではのサウンドデザインと
その葛藤

 さて祖堅氏は,パッケージタイトルとオンラインタイトルでは大きな違いがあるが,サウンドデザインにおいても例外ではない,というところから話を始めた。
 これまで多数のタイトルに関わってきた祖堅氏ですら,オンラインゲームの制作は大変で,身構えてしまうという。その理由は,「ゲーム(=遊び)も進化していくから」。そして,ゲームが進化していくと,サウンドデザイン側でも進化していかねばならないからだという。

 
 
 もちろん広義のロードマップは存在するのだが,個別にどのようなサウンドを入れて,どのように再生するかは,「その時期」にならないと分からない。誰も先のことは分からないという状況下に置かれ,それでいてスケールは非常に大きい。「目の前には広大で絶望的なスケールが広がっている」(祖堅氏)のだ。

 そしてその大変な具体例を氏は「相反する問題点」として挙げた。具体的には,下記の4項目である。


広大すぎる空間:ゲーム世界が広く,マップも非常に広い
膨大なデータ:ゲーム世界が広いため,それに付随するデータ量も大きい
フレキシブル:ゲームが進化していくと,それがサウンドデザインにも影響する
長期サポート:「FINAL FANTASY XI」は“十年選手”が見えてきたくらいで,それくらいサポート期間が長く,担当者はその間,ずっと「その音」を作り続けていかなければならない

 氏はこれらについて,「今日の葛藤コーナー」と題して1つずつ解説していく。

 
 1.の「広大すぎる空間」だが,一般に,ゲームのサウンドは,プログラムを介してコントロールされる。映画やアニメと異なり,インタラクティブ性に優れるゲームコンテンツでは,プレイヤーのリアクションに応じてサウンドも変化させなければいけないからだ。単にサウンドデザイナーが音を作って置いておいても,音は再生されないため,サウンドエンジニアは,「こういう仕様で,こういう風に音を鳴らしたい」と考えるのが仕事なのだが,そもそも空間が広大すぎるので,考え,作っていく作業が大変になるというわけである。

 空間が広大だと,サウンド担当者として,いろいろなことができる「はず」と考える。「俺の腕で,誰も聴かないような細かい音まですべて用意してやる!」と意気込み,開発をスタートさせるのだが,プログラマーやサウンドデザイナー,コンポーザー(=作曲家)が行きつく答えはたいてい「広大すぎる! 作業をしてもしても終わらない。拘っている時間がない!」という最悪の結果になってしまうという。
 MMORPGでは,音を作るのも,管理するのも大変なのだ。

 
 次は,2.の「膨大なデータ」について。
 広大な空間なので,用意する(=作る)ものがたくさんある。なので最初に,「必要と思われる音を,どこにどれくらい作るか」という仕様をきっちり決めたうえで始めることになる。
 サウンドデザイナーも「分かった。どんどん作るよ」と了解して作業が始まる。もちろん最初はモチベーションも高いのだが,もともとの「どこにどれくらい作るか」の量が尋常でないため,日々100個,200個と効果音を作っていくにつれて,「全然楽しくない! 全然クリエイティブじゃない! こんなはずじゃなかった!」という結論に至ってしまうことが多いとのこと。「我々は自動販売機ではない」という一言が悲痛だ。

 
 3.の「フレキシブル」だが,サウンドエンジニアの視点からすると,「ゲームが進化すると,それに応じて,サウンドも柔軟に対応していかなければならない」わけだから,「どこからでも仕様を拡張できる柔軟なシステムにしてやろう」と考えることになる。
 一方のサウンドデザイナーは「よし分かった。それじゃあ,いつでも始められるよう準備を整えておくよ」という高いモチベーションで待ち続けるのだが,(柔軟なシステムの開発に時間がかかるため)待てど暮らせどその仕様が上がってこない。結果,仕事が始められないため,「無駄飯喰らいとして干されちゃう」と,不満が噴出することになるという。

 
 そして,祖堅氏が一番大きな問題としたのが,4.の「長期サポート」だ。
 長い期間,同じタイトルのサウンドを作り続けなければならないことから,サウンドエンジニアが「フレキシブル」な仕様にしておきたいと言ったところで,「長期サポート」の問題が表面化すると,見通せる状態を望むことから,「ガチガチに仕様を固めておきたい」と思ってしまうのだ。
 これは「フレキシブル」で望んだ「柔軟な仕様追加が可能なシステム」と相反する。一方,サウンドデザイナー側は,当初こそ「よし分かった。それじゃあこの作品を俺のライフワークにしてやる」と意気込むのだが,2年,3年と経過すると,やはり「もう飽きた!」という結論に落ち着いてしまうことが多いとのことである。

 パッケージタイトルなら,広大な空間で,膨大なデータ量だったとしても,「がんばれば」終わる。しかしMMORPGにおいてはフレキシブルかつ長期のコミットメントが必要になるため,「がんばっても終わらない」。これが大きな違いになるのだ。
 ……と,問題点が明確になったところで,実際にどうこれらの問題を解決していったか,FFXIVを題材に祖堅氏は語り始めた。

   

「カテゴリ分け」で対処する
MMORPGのサウンドデザイン

 「ファイナルファンタジー」という名前がついている以上,やはり最高のクオリティをプレイヤーに提供したいという思いが開発側にはある。そこで,「品質を保ちつつ,かつフレキシブルに対応できて,広大な空間や膨大なデータ,多量のリソースを限られた時間で何とか捌いていかなければならない」(祖堅氏)。
 以下,氏が繰り返す「リソース」という言葉の意味はやや取りづらいところもあるため,本稿ではあえて言い換えたりはしない――おそらく,人的資源,あるいは人月といった意味で使っていると思われる――が,ともあれ,一見絶望的にも見えるこのテーマを,氏は,カテゴリ分けしてサウンドデザインすることで解決していったと述べている。

 具体的にはまず,どうしても大量のリソースが発生する部分と,音作りにこだわりたい部分とを切り離した。
 大量のリソースが発生する「キャラ発音関連」の効果音は仕様をガチガチに固め,作る音をあらかじめ決めておくことにした。ちなみに「キャラ発音関連」というのは,祖堅氏によると,「プレイヤーキャラクターの装備の音や,武器の音,モンスターの音など,マップに点在するオブジェクトが発する音」だそうだ。

 
 一方,こだわりの部分は環境音になる。環境音はリソースから5.1chで制作して,天候や時間,室内,屋外といった環境の変化に対応できるよう,「独自のエディタ」(祖堅氏)でサウンドデザイナーが貼り付けまで行って,「空間を音でデザインする」という方法にこだわったとのことだ。
 膨大なデータが存在し,かつ長期サポートということから,予測されるコンテンツの追加への対応も容易になるよう,余裕を持たせられるツールをプログラマーに制作してもらっているという。

 ところで,大量にリソースの発生するコンテンツにおいては,サウンドプログラマーの立ち位置が非常に重要であると,祖堅氏は述べていた。サウンドデザイナーがどんなにがんばっていい音をたくさん作っても,それを適切にゲーム中で鳴らしてくれるサウンドプログラマーがいなければ,意図したようには鳴らないからだ。
 映画の場合,時間軸に対して音を置き,加工していく作業はすべて音響効果担当者が行えるが,ゲームの場合は,プログラマーにトリガーしてもらわないと永遠にその音は鳴らない。プログラマー兼任でもない限り,サウンドデザイナーは通常,サウンドプログラマーの協力なしに効果音を鳴らすことはできないのである。

 

■キャラ依存SE
 というわけで,解説はさらに深いところへ踏み込んでいく。
 まずは細かく仕様を切る「キャラ依存SE」についてだが,将来発生するであろうパッチの適用やバージョンアップなどに対応するため,「テーブルパーツシステム」というものが導入されていると祖堅氏は紹介する。

 いわく,「パーツを決めて,そこに『音素子』を入れていく」という仕様のことだそうだ。「音素子」とは聞き慣れない用語だが,音を分解した要素のことらしい。
 人形キャラクターやモンスター,武器,防具。こういったものすべてで仕様を統一して,サウンドテーブルを作成した。そして,そのサウンドテーブルに音素子を入れて「サウンドパーツ」を作り上げている。

 
 音素子自体はサウンドデザイナーが制作し,音素子がある程度用意できたら,あとはプランナーがそれを自由に組み合わせればよく,これによってバリエーションのある効果音を導入することが可能になったという。
 現在の仕様では,プランナーが武器や防具に「布」「鉄」「皮」といった素材子(≒素材情報)を入力するだけで,武器や防具の効果音が自動生成されるような仕組みができあがっているとのことだ。
 テーブルパーツの素子となる音素子の数は膨大で,1キャラクターあたり最大235種類用意される。そして,キャラクターの種類は数千。かけ算すると気が遠くなりそうだ。
 もちろん,すべてにユニークな効果音が用意されているわけではないものの,キャラクターごとの独自性を出すため,テーブルパーツのブロックはある程度必要になるわけだが,その制作は結局のところ「気合いだ」(祖堅氏)。

 と,ここでFFXIVの開発用クライアントを用いて,氏は貴重なリアルタイムデモを行ってくれた。「着替えるとキャラクターの音がどう変化するのか」を体感するデモだ。


以上のように,音素子を組み合わせることによって,装備を変更すると即座に音が変わる仕組みができあがっている。

 今回のデモはいわゆる「インゲーム」のカテゴリで行われたが,もちろんこれとは異なる仕組みで再生されるものも存在する。それが「カットシーン」と呼ばれるカテゴリだ。同カテゴリでの作業は,「ムービーに音をつける」作業とさほど変わらないもになる。

 祖堅氏によると,FFXIVのカットシーンは,内部で「ノーマルクオリティ」(NQ)と「ハイクオリティ」(HQ)に分類されているそうだ。前者は量産重視,後者は品質重視で制作されるという。
 「ハイクオリティ」のカットシーン制作においては,サウンドデザイン的に「5.1chのムービーに音をつける作業」(※専門用語でいう「サラウンドMA」)となる。当然,ムービークラスの作業量なら,映像に対して多重化する「焼き込み型」が常識なのだが,しかしここで重要なのは,FFXIVにおいて,カットシーンには,プレイヤーが自分が育てたキャラクターが登場する点だ。

 言うまでもないことだが,自分が育てたキャラは自分が獲得した武器や防具をつけている。にも関わらず焼き込み型で制作した場合,装備とは異なる武器や防具の音がカットシーンで鳴ってしまう可能性があるわけだ。
 そこで祖堅氏は「それはかっこ悪い! よし,分かった! 全部対応してやろう!」という決断に至ったそうだ。つまり,1つのカットシーンにおいて,キャラクターと装備の分だけ,焼き込み型の5.1chサウンドが用意されていることになる。

 氏はここで,このカットシーンのデモを以下のとおり見せてくれた。

 

   ちなみに,FFXIVのサラウンドサウンドには,Dolby Laboratoriesの「Dolby ProLogic IIz」が採用されている。右の写真では飛空挺を撮影し損ねたのだが,飛空挺がプレイヤーキャラクターの頭上を通過するときには,本当に音が頭上を通過しているように聞こえるようにもできるという(※実際にはフロントハイト(Front Height)とリアハイト(Rear Height)を,フロント/リアスピーカーとは別に,より高い位置で設置する必要があったりするので,実現のハードルはけっこう高いが)。
 さて,デモでは同じカットシーンながら,プレイヤーキャラクターが鎖帷子を着たルガディン(男)に変更されたが,すると,BGMや環境音は一切変わらないままに,武器や防具の音や足音だけが変わったのを確認できた。

 このように,プレイヤーが装備を変えたら,音もインタラクティブに変更しなければいけないので,あえて装備や防具ごとに5.1ch素材を用意しているそうだ。これもテーブルパーツなどに頼れないため,「気合いで」(祖堅氏)実現しているとのこと。
 さらに,モンスターの音は人間の音と異なるが,もちろんモンスターごとユニークなキャラクターを持っているので,オリジナリティを出したい。なので,これまた「気合い」で作っているという。
 氏いわく,「サウンドデザインは気合いだ」であり,「へこたれたら終わり」だそうだ。

 

■環境依存SE

 祖堅氏の解説は,「環境依存SE編」へと移る。
 キャラクター依存SEは気合いで乗り切ることが多いが,環境依存SEはサウンドデザインからこだわっているそうで,臨場感を突き詰めて空間演出を行っていると,氏は述べていた。
 では実際のところ,FFXIVで環境音はどうデザインされたがだが,そもそも論として,MMORPGにおいてはインタラクティブに天候が変わり,時間が流れ,環境が時々刻々に変化する。なので,環境をすべて一度マルチチャネルでフィールドレコーディング(※実際に屋内外でマイクを立てた録音のこと)したとのこと。
 そして,ここからがユニークなアプローチ方法なのだが,収録した素材をそのまま使うのではなく,素材ごとに「どこにピークの周波数が出ているか」を分析したのだそうだ。

 そのうえで,ホワイトノイズやピンクノイズという汎用的なオーディオデータを流しながら,分析で得られた局所ピーク値をマルチチャネルの各スピーカーへとアサインして,広がりがどう変化するかをシミュレートする。最後に,そこで得られた結果に基づいて,あらためてフィールドレコーディング素材を加工するという,非常に複雑なプロセスを経て生成されている。

 ここでミコッテが再び登場。山に出かけるデモが始まった。

  

   環境音の処理にあたってはまた,外部的なオブジェクトに対するローパスフィルタも搭載しているという。たとえば花火の音を屋外で聴いたのと屋内で聴いたのとでは音が違うが,こういった違いをローパスフィルタによる高周波のカットによって表現しているそうだ。

 しかし,序盤でも述べたとおり,どんなに音を工夫して用意しても,ゲームの実行ファイル側で鳴るようにデザインされていなければ音はならない。映画と異なり,ゲームでは,プレイヤーの入力に応じて,音を変化させなければいけないのだ。
 祖堅氏の話は,「すべての素材を用意したからといって,簡単に音が鳴るというわけではない」という前提に立ったうえで,どういうツールを使ってFFXIVのサウンドデザインを行っていったかに移る。
 さて,まず必要になるのが,リソース(※ここでは素材の意)管理ツールだ。
 FFXIVにおいては,サウンドファイルだけで数十万ファイル存在する。人間が管理できる域を超えた数なので,ツールで管理することになる。バージョンのフラグを入れられるため,ゲームのバージョンが上がったとき,対応する音も同じタイミングから鳴るようになる。

   それから動画共有システム。「これはサウンドデザインをするときにノンリニアで編集するための便利web」(祖堅氏)だそうだ。要は社内の動画共有サイトで,これを,コンテ割りを作るプランナーとサウンド担当者で共有することにより,ノンリニア編集が可能になるという。

 そして,サウンドエディットツールだが,これは「音素子をどのように発音させるか」といった細かいパラメーターを設定ツールだそうだ。自分で作った音を登録して,どういった変調をかけるか,どういったウェイトを持たせるかなどを細かく編集できるとのこと。
 このほかに,画面は公開できないとの断りつつ,氏は環境音の再生システムも紹介していた。


……祖堅氏本人はさかんに「気合い」を連発していて,どこかのオリンピック選手のお父さんみたいだったが,正直なところ,同業として,大いに共感させられたのも確かである。
 筆者自身はパッケージタイトルやアーケードが“主戦場”で,MMORPGをはじめとするオンラインタイトルには携わったことがない。そのため,氏の苦労は想像するほかないのだが,ものを作り上げるとき,最後に必要なのはやはり「気合い」なのだ。

 「気合い」とか「根性」というと,若い方にはおっさん臭く響くかもしれないが,本気でゲーム制作者として食べていくなら,(残念ながら)気合いと根性は必須だ。また,気合いと根性の比率を減らすために「頭を使う」ことも(※でないと本当に倒れてしまう)。

 祖堅氏のセッションで際立っていたのは,「気合い」を連発しつつ,この「頭の使い方」もうまいと感じられた点だ。クレバーというか,インテリジェントな「細分化」と環境音へのこだわりは特筆すべきだろう。
 これはサウンドだけでなく,絵もプログラムもそうだが,物量的にどこかで割り切らないと,そもそもファーストリリースにすらたどり着けない。なので割り切りは当然なのだが,取捨選択の結果として,力の入れどころが環境音になっており,そこにかなりの工夫を凝らしていたのは実に印象的だった。平たく言うと,「ああ,祖堅氏が強く惹かれているのはそこなのね」といった感じで,環境音周りには,セッションで明かされていないノウハウが,山のように積まれているのだと推測される。

 また細分化,つまり「音素子」に分けるという発想も面白いと思う。。
 現在,映画やアニメでは「Foley」(フォーリー)と呼ばれる技法がメジャーなのだが,これは簡単にいうと,キャラクターと同じ服を実際に着て,砂利の上だのコンクリートの上だのを歩き,その時生じる衣擦れなどもまとめて一つの「流れ」として収録してしまうというものだ。
 それに対し――プレイヤーキャラクターが千差万別となるMMORPGだからなのかもしれないかもしれないが――祖堅氏のアプローチは逆で,徹底的に各音を分解していき,各種情報と共にいったんデータベースに登録。それを,プランナーなど,「ゲーム内容を理解している人」が簡単に呼び出せるシステムを構築しているわけだが,この「各音分解」はとくにユニークに感じた。
 とあるアクションゲームで筆者も似たようなことをやったことはあるが,おそらく筆者がそのとき入力したパラメータの何十倍という情報が,FFXIVのデータベースには登録されているのだろう。

 大量というより,もはや手がつけられないレベルの物量となったMMORPGを,いかにうまく割り切りつつ,こだわりつつ,最終的には「気合い」で仕上げていく様子がよく分かる,実に貴重なセッションだった。
 しかし,デバッグ大変だろうなあ……。トリガーする音の確認だけで,何人で何十日かかるのか,考えただけで気が遠くなる。なんというか,「健康に気をつけてください」と祖堅氏に声をかけたい気持ちでいっぱいである。

twitter facebook google 0は参加なら

関連記事