Audacityの使い方:ポッドキャスト用のマスタリング処理

オープンソースソフトウェアを利用すると、ポッドキャスティングは簡単に行うことができるが、あまりに簡単にできすぎるというのも考え物かもしれない。たとえばポッドキャスト初心者の作ったプレイリストを開いて聴いてみると、再生時の音量が突然変化して、耳が痛くなる場合がある。こうした問題の原因は、オーディオ・マスタリングの不備である。

音を録音するのは簡単だが、録音レベルの上下動を補正したり、デシベルのシーリングを適正化するといった、録音後のマスタリング作業は一筋縄でゆくものではない。ただありがたいことに、トークなどを録音したポッドキャスト用データのマスタリングに必要なすべての作業は、オープンソースとして公開されているツールで実行できるのである。必要となるのはAudacityという、あらゆるプラットホームのポッドキャスターにその名が知られた多機能波形エディタである。ここではポッドキャスターを対象として、マスタリングや音量調整に必要となるツールやヒントをいくつか紹介するが、こうしたノウハウは録音に適さない環境下で会話を収録する場合などでも役立つだろう。

Audacityでの音量レベルはデシベル単位で表示されるが、この単位はdbとも略記される。シーリングとなるレベルが0dbであり、これを超える音は歪んで再生されると思えばいいだろう。ポッドキャスト用の音声ならば、-7dbから-14dbの間にレベルを収めるべきだ。これは、最大音量側に適当な余裕を保ちつつ、かなり大きめの音量で再生される範囲である。また再生時の最大と最小の音量の差を7dbとしておくと、聴き手の耳に優しくなる。ただし録音データが-14dbを下回っていても、心配することはない。実際私は、ここで解説するテクニックを使って、-25db程度の低レベルで録音されたデータを復旧した実績がある。

Audacityは、音声を波形として表示する。この波形の上下の振れ幅が音量の大きさに対応するので、波形ピークの上下幅が大きいセクションほど大きな音で再生される。ただしこうした波形からは、音量レベルについての概要しか知ることができない。厳密なデシベル値を確認したければ、波形セクションの該当部を反転表示してから、Analyze -> Plot Spectrumを選択する。これによりデシベル値を示すグラフが、周波数スペクトルのポイントとして表示される(グラフの左側に表示されるのがデシベル値の目盛り)。このグラフ上でカーソルを移動させると、対応する各ポイントのピーク・デシベル値を確認することができる。

デシベル・レベルと同じくらい重要なのは、録音された音声の周波数帯である。周波数は、グラフ底部に数字として表示される。この数字が低いほど音のピッチも低く(James Earl Jonesのような声)、逆に高いほど音のピッチも高くなる(Mickey Mouseのような声)。人間の声であれば、Plot Spectrumのウィンドウの86ヘルツから3キロヘルツの間に最大部が現れるはずである。つまり、トークなどの録音データのデシベル値を確認する際には、この周波数帯がどうなっているかが問題となる。

Compressorの使用法の把握

AudacityのCompressorは、最も有用であるにもかかわらず、最も理解されていない機能の1つである。この機能を用いると、設定さえ適切であれば、録音データ全体における音量のバラツキを自動的に補正できるからだ。つまりこれは、Audacityに用意されたEnvelopeツール(詳細は後述)の自動バージョンだと言える。両者の違いは、録音データ全体をEnvelopeツールで処理しようとすれば数時間がかりになるような場合でも、Compressorであれば数分で処理が完了することである。

Compressorを理解する上で混乱しやすいのは、この効果が2段階で施されるという点だ。まず1段階目では、指定値を超過する部分の音声がすべて小さくされる。そして2段階目で、選択範囲全体の音量が大きくされる。1段階目のステップは、いわば地ならし機をかけて不要なピークを取り除く処理である。こうして音量が大きすぎる箇所を取り除いてから、2段階目で全体の音量を大きくすることで、録音レベルの小さすぎる箇所を補正するのである。このような2段階のプロセスによって望ましい結果を得るためには、ユーザによる設定値が重要な意味を持つ。

この処理を行うには、効果を施す録音部分を反転表示させてから、Effect -> Compressorを選択する。効果の設定ウィンドウが表示され、Threshold、Ratio、Attack Timeという3つの値をユーザ指定できるようになる。この中で最も重要なのが1番目の設定値である。Thresholdの設定は、Compressorによるデシベル・シーリング値として機能する。つまり、この値以上の音声はすべて音量が小さくされる。ただし、この値以下の音声はそのまま残される。ここで指定すべきは、音量の最大領域を最小領域から7db程度に収めることのできる中で、最低の値である(Compressorを実行しても波形に何の変化も生じなかった場合は、Thresholdの設定が高すぎる)。

録音時に拾ってしまった不要なノイズを探して除去する

ポッドキャストに関する不満の中でも、高すぎるバックグラウンド・ノイズはリストの最上位にくるだろう。自分の録音環境でどのくらいのノイズが拾われるかを確認するには、Audacityを使って無音状態を録音してみればいい。そしてこの録音データを反転表示させてから、Analyze -> Plot Spectrumを選択する。これにより、自分の録音環境で拾われるノイズのデシベル・レベルをグラフとして確認することができる。

たとえば、私が自分のポッドキャストを録音している自宅のオフィスで試してみたところ、ノイズ・レベルは-60dbであった。録音データの使用目的を考えると、これは十分な値である。許容できる最小値は-50dbであるが、この程度でも無理なく聞き取ることができる。自分の録音環境のノイズ・レベルが理想より高ければ、ノイズの発生源をすべて消してから、再度サンプリングを行ってみればいい。ノイズの発生源としては、エアコンやファンの駆動音が考えられるが、運が悪いとデスクトップ・コンピューターそのものがノイズを出している場合がある。

Thresholdの設定値を決めるにあたって私が初めに行うのは、Plot Spectrumツールを用いて録音データ全体のデシベル・レベルを確認することだ。まず最初に、音量が最大となるセクション(波形中で最大のピークを含む部分)を反転表示させて、これらの値を確認する。そして次に、音量が最小となるセクション(波形中で最小のピークを含む部分)を反転表示させて、同様の操作をする。たとえばピークの大きさが、最大セクションで-10db、最小セクションが-20dbであった場合、私であればThresholdとして両者の中間値の-15dbを指定する。あるいはピークの大きさが、最大セクションで-5db、最小セクションが-25dbであった場合、私であればThresholdにはより低い-20dbを指定するだろう。

この場合もCompressorによって最適な結果を得るポイントは、音量最大のセクションのレベルをできるだけ最小のセクションに近づけるために必要となる、十分に小さな値をThresholdに指定することである。なお、2段階目のステップでは全体の音量が高められるので、ここでの指定により音量を下げすぎてしまわないかに気を遣う必要はない。これが特に当てはまるのは、音量の高低の差が著しいセクションが混在している場合である(VoIPソフトウェアを介したインタビューをするポッドキャスターの場合、こうした事態には常に遭遇することになる。というのも、手元にあるマイクロフォンは、遠方からの信号よりも大きな音量で音を拾うものだからである)。

2番目の設定項目Ratioは、Threshold値を超過した部分に対するCompressorによる減音のレベルを指定する。2:1という指定値では、非常に穏やかな効果が施される。この場合、指定した閾値を超過するすべてのシグナルは半分に下げられる。この比率を高く指定しすぎると音が歪むので、一般的にここの値はできるだけ小さな比率にしておくべきだろう。ただし、録音データ中にThreshold値をはるかに超える大音量部が存在する場合は、6:1などの高めの比率を指定する必要がある。

Attack timeの値は、Threshold値を超過した場合におけるCompressorの反応速度を指定する。私の好みとしては、より迅速に反応する0.2を指定している(より遅く反応する0.5を推奨する者もいる)。

最後に、「Normalize to 0db」というチェックボックスをオンにしておく。これは、2段階目の増音をさせるための設定である。OKをクリックすると、Compressorによる処理が開始される。気にそぐわない結果が得られた場合は、Edit -> Undoを選択して、異なる設定を試すことができる。Compressorを使いこなすには、何度かの試行錯誤が必要となるが、これはそれだけの労力に見合う機能である。

Envelopeツールによるクリーン・アップ処理

Compressorを使い込んでゆくと、この機能には1つの制限があることに気づかされるだろう。たしかに0dbへのノーマライズ処理は録音データの音量を高めるが、その増量の幅は、録音データ中の最大音量で規定されてしまう点だ。と言うことは、孤立したスパイク状のピークが-2dbで存在する場合、ノーマライズ処理は0db以上の音量を排除するのであるから、この部分が基準となって全体の増音分は2dbに抑えられてしまうことになる。こうした制限は、録音データの残りの部分が-18dbを下回っている場合に大きな問題となる。

機能的には、Compressorによる増音処理の前に、こうした例外的なピークは自動的に排除されることになっている(そもそもこうしたピークの排除はこの機能の役割である)。問題は、これらの自動処理が完全ではないことだ。私の経験からすると、突発的に出現するシャープなピークは見落とされる場合がある。対策としては、該当するピークをユーザ自身が探し出して、手動で排除するしかない。

Envelopeツール(左上にある砂時計形のアイコン)を選択する。波形をたどって、最初に出現する突発的なピークを特定する。ピークを囲むように両側をクリックして、コントロール・ポイントを設定する。設定したコントロール・ポイントをドラッグして、ピークの下げ幅を指定する。上にドラッグすると音量は高くなり、下にドラッグすると音量は低くなる。細かい調整が必要であれば、より多数のコントロール・ポイントを設定することができる。問題のピークが周囲の波形と同じ程度の高さになったら、次の処理すべきピークに移動して、同様の操作を繰り返す。

Amplifyによるシーリングの変更

残存ピークの処理が終われば、最終的な増音処理を実行する。録音データ全体を反転表示にしてから、Effect -> Amplifyを選択する。Amplifyウィンドウが表示されるが、その際には、増音させても0dbを超過して音を歪めることのない最大値が自動的に提示される。アマチュアのポッドキャスターの場合、録音データの音量は小さくなりがちなので、この最終ステップによる処理は重要である。

思ったほどの増音効果が得られなかった場合、原因としては、不要なピークが録音データ中に残存していることが考えられる。録音データ全体にEnvelopeツールによるスムージング処理を施すだけの時間的余裕がなければAmplifyを再実行してもよいが、その際には「Don’t allow clipping」チェックボックスをオフにしておく。これにより、Amplifyウィンドウにあるデシベル・スライダーをドラッグして、より高い増幅値をユーザ指定できるようになる。ただしこの場合、残存ピークは0dbよりも高い位置にはみ出すので、結果としてかなりの歪みが生じてしまう。よってこの方式を使用するのは、対象となるピークの幅が非常に狭い場合か、Envelopeツールでピークを手動で除去している時間的な余裕のない場合に限るべきだろう。また、スライダー値を推奨値よりもあまりに高い設定にすると、全体の音が歪むので注意が必要である。

原文