2020.03.26開設

サンプリングレートとビットレートの基礎知識

ここでは、DTMerが最低限必要なサンプリングレート(またはサンプリング周波数)とビットレート(または量子化ビット数)の基礎知識を簡潔にお伝えしていこうと思います。
(この記事は以前の記事を再度まとめ直したものになります。以前の記事はこちら→http://bcellrays.jp/dtm_beginner/dtm_daw_pc013/index.html

サンプリングレートとは時間軸に沿って時間を細かく刻んだもの

パラパラ漫画やアニメといえば解りやすいと思いますが、DVDムービーやネット動画もこれと同じ原理です。

YouTubeなどにみられる動画は、一見スムーズに動いているようにみえますが、実は一枚の静止画を何枚、何十枚、何千枚といくつも重ね合わせ、それを超高速で1枚1枚の静止画をめくって1つの動く絵、つまり動画として見せているのです。

では、サンプリング周波数44.1KHzの場合を、パラパラ漫画の理論に当てはめて考えてみましょう。

再生する場合は静止画を毎秒44100回ページをめくり、録音する場合は毎秒44100ページの静止画を作りアナログからデジタルへの変換作業(AD変換)を行っているという事になります。

 

サンプリング周波数192Khzの場合なら、それぞれ毎秒192000回となります。

 

(例)96Khzの場合であればつまり、一秒間のデータ量を96000回分割を行い、データをとっている(標本化またはサンプリングしている)という事。

したがって、ページ数が少なければ少ないほどAD変換の回数は減り、比例してデータサイズも少量になり、結果、パソコンの瞬間的に必要な処理能力も少なくて良いのでCPUへの負担も軽くなっていきます。

しかし、ページ数が少ない分、コマ送りの様にカクカクとした映像になり、スムーズな動きではなくなっていきます。つまり、リアルではなくなっていく事になります。

 

サンプリングレートとパソコンの関係

サンプリングレートは音質に大きくかかわっており、CDの規格44.1Khz(キロヘルツ)というのが古くから使われてきました。最近では48Khz、96Khzがよく使用されるようになってきています。

 

単位はヘルツ(hz)で表します。(K=1000倍)
1Khz=1000hz

 

どれくらい細分化して音をパソコンに取り込むか?という単位であり数字が多いほど、細かく音が取り込まれていることになります。

 

また数字が大きいほど処理回数が多く、理論上では高音質に記録できることになります。

 

44.1Khz→48Khz→96Khz

 

ハイサンプリングを扱うには高性能なパソコンが必要とよく言うのは、192Khzのような一秒間のページ数の多いハイサンプリングの場合、瞬間的に処理するデータ量が増え、CPUに大きな負担をかけるからです。

 

瞬間的なデータ処理量が多い192Khz
瞬間的なデータ処理量が少ない44.1Khz
参考:CD44.1Khz IPフォン16Khzまたは32Khz YouTube22.05Khz

 

一方、ビットレート(量子化ビット数)とはレベルに沿って細かく刻んだもので、サンプリングレートが時間軸に沿った横軸であるのに対し、ビットレートは縦軸になり、ページ一枚分の色の多さなどの情報量を表します。

samplerate01 - サンプリングレートとビットレートの基礎知識 -
*CD規格の44.1Khz 16bitの場合、一秒間に44100分割おこない、2の16乗で分割
つまり、実際に目で見たものに近づける為にはページ数、ページ1枚分の情報量共に多くする必要があるわけです。

 

サンプリングレートやビットレートを上げれば本当に音は良くなっていくのか?

 

では、サンプリングレートやビットレートを上げれば上げる程、実際に音は良くなっていくのでしょうか?

 

はい、高音質になっていきます。

 

しかしこれは、デジタル化を取り巻く単純ならざる環境を紐解き、総合的に判断した結果、ハイサンプリング・ハイビットを使用した方が音が良くなるという事です。

少し曖昧で複雑な表現なので後述詳しくお話ししますが、簡単に言うと、

 

あくまで、「音の再現性」は高まる事になるが、「良い音」になるわけではない

 

という事です。つまり、撮った元々の音が悪ければ忠実にそれを再現してしまうということですね。

 

高音質にならない条件とは

  1. 人間の可聴周波数の限界、つまり人間が聴く事の出来る周波数帯域には限界があり、さらに個人差や年齢によっても差が生じる。
  2. 録音時の環境や聴く側のリスニング環境にも左右される

 

人間の耳が聴く事の出来る周波数

人間の耳が聴く事の出来る周波数には限界があります。可聴周波数と言ったりしますが、ネットなどでよく見かけるので、すでに皆さんもご存じかも知れませんね。
参考値として年齢による可聴域の違いを見てみましょう。

年齢層 可聴周波数帯域
20歳前後 20hz~16khz
30代 20hz~14khz
40代 20hz~12khz
50代 20hz~11khz

実際には個人差もあるので、目安としてご覧ください。

 

いかかですか?

 

ガックリ来た方もいらっしゃるのではないでしょうか?(笑)

 

しかし、これは単調音での参考値です。

単調音とはサイン波と呼ばれているもので、聴覚検査などでヘッドフォンから鳴ってくる「ピー」というあの音です。

 

つまり、倍音成分が含まれていないわけです。

 

ですから、純音として聴く事ができる帯域の参考値が上記の表のようになるという事です。

実際には人間は音楽的な倍音成分を識別できるので、もう少し高い周波数を聴いている事になります。

 

では倍音を含めてどの程度まで識別できるのかという事になりますが、20歳前後で20khzが限界で以降は徐々に低くなっていきます。

 

つまり、どれほどハイサンプリングレートで録音しようとも聴く側の人間の可聴周波数帯域は20khz前後であるという事です。

 

 

録音時の環境や聴く側のリスニング環境に左右される

デジタル化、つまりアナログ音をサンプリング(標本化)する為には、まず入力ソースが必要で、さらにそれを聴くための出力ソースが必要です。

 

入力ソースにはマイクの種類、マイクケーブルの種類、マイクセッティング、音を撮る場所等が加味されており、出力ソースには、多くの場合CDを経て、不特定多数のリスナーのリスニング環境が加味されます。

 

そしてハイレートであればあるほど、入力ソースの特性は、悪い環境さえも忠実に再現します。

 

つまり、

悪い音で撮った素材はその「悪さ」の再現力が如実に出るわけですね。

 

これがハイレート=良い音にならない最も大きな原因かもしれません。

 

一方、不特定多数である出力ソースは、多くの再生機器があり、個人個人様々な環境で音楽を聴く事が可能です。

 

ハイクォリテーなオーディオ機器からカーステレオ、ラジオ、iPhoneのようなスマートフォンであればスピーカーでの再生、もしくはイヤフォンでの再生、さらにNintendo Switchなどのゲーム機器でも再生が可能で、数えればキリがないほど、全差万別です。

 

高価なオーディオ機器であればワイドレンジで再生できますが、ゲーム機器やスマートフォンのスピーカーではナローレンジになります。

 

このように、

音の再現性が高まっても聴く側が再生できない環境、または聴く事の出来ない聴域では意味がありませんし、録音環境が悪ければ、好ましい結果は得られないというわけです。

 

結局のところ、録音環境や録音技術が全てという事になり、ハイサンプリング・ハイビットレートの存在意義が全くなくなってしまいます。

 

結果、192khzでレコーディングを行ったとして、44.1khzへのコンバート時間などを考えれば、最初から44.1khzでレコーディングを行う方が時間的コストの面からみても遥かに合理的ですよね?

 

ではなぜ、ハイレートが必要なのでしょうか?ハイサンプリング・ハイビットレートの存在意義とはいったい何なのでしょうか?

 

ハイサンプリング・ハイビットレートの存在意義

ハイサンプリング・ハイビットレートの存在意義は音の再現性が高い、いわゆるリアルに録音できるという事にありますが、DTM・DAWの世界では、レコーディング後の編集時における存在意義が最も大きいのです。

 

実は、撮った音をそのまま再生した場合、ビットレートの変化(24bitか16bitの違い)はある程度感じる事は出来ますが、サンプリングレートの変化は、ビットレートのそれよりも変化を聴き取る事が難しいのです。

 

サンプリングレートの違いを実際に体感で明らかに違うと認識できるのは、プラグインなどで編集した時で、プラグインを多用すればするほど、違いがハッキリと現れてきます。

 

全く同じ工程でミックスダウンを行っても、2MIXにまとめてCD-R等に落とし込んだ最終的な音は明らかに違う音になります。

  • 192khz→編集→2mix→44.1khz
  • 44.1khz→編集→2mix

この二つでは大きく変わるわけです。

編集の工程が多いほど、プラグインを多用するほど、変化の差は大きくなっていきます。

サンプリングレート・ビットレートの違いは編集時の誤差

ではなぜ、同じ工程で編集作業を行ったにも関わらず、このような違いが起きるのでしょうか?

 

それは、編集時による誤差が生じる為です。

 

ハイサンプリングレート・ハイビットレートほど、より細かく細分化して記録できるという事は、編集時に誤差が少なく編集できるという事なんです。

 

仮に、長さ10mの階段を10mまま段数のみを極限まで増やしていくと限りなく平坦な坂道に近づいていきますよね?

 

階段の段数が多いほど、坂道が平坦であるほど自在に地面の角度を細かく変えられますよね?

 

それと同じで、自然な編集が出来たり、細かい変化を感じる事が可能になるわけです。

 

細かい変化を感じられるという事は、イコライザーやコンプレッサー、リバーブをかけすぎたりといった不自然な結果に陥る事も少なくなります。

 

詰まる所、プラグインのかかり方が違うと言っても過言ではありません。

 

このように、ハイサンプリングレート・ハイビットレートでレコーディングした音をそのまま44.1khzにダウンコンバートしても、あまり変化を感じられ無い事が多いですが、編集を重ねる事で最終的な出音に違いが出てくる、これが最も大きなハイサンプリング・ハイビットレートの存在意義なのです。

 

サンプリングレートとビットレートの選定基準を自分の中で明確に持とう

 

DTM・DAWで制作するにあたって、サンプリングレート(サンプリング周波数)とビットレート(量子化ビット数)の選定基準を自分の中で明確に持つことが非常に重要になってきます。

 

高精度でデジタル化(標本化)出来るからといってハイサンプリングレートを選択したり、最終的にCDに落とすのだから44.1Khz/16bitを選択したり、局地的な側面から安易にサンプリングレートを決定付けるのではなく、音楽ジャンル、録音作業、制作作業、編集作業など、制作全般を見渡した判断が結局のところ良い結果が得られる事が多いように思います。

 

プロの現場でも「いわゆる一般的」とされているサンプリングレートとビットレートがありますが、それでも一般的と言うだけであって決められているわけではありません。自分の制作したいジャンルや制作スタイル、目指す音楽性に合った選択をする事が一番大切なのです。

 

主なサンプリングレートとビットレートの種類(赤字はCDの規格)

サンプリングレート ビットレート
192Khz (24bit or 16bit)
176.4Khz (24bit or 16bit)
96Khz (24bit or 16bit)
88.2Khz (24bit or 16bit)
48Khz (24bit or 16bit)
44.1Khz (24bit or 16bit)

 

設定によっては迷惑をかける事もある

特にデータの受け渡しが頻繁に行われるような場合には注意が必要です。

例えば、共同制作の場合、頻繁にデータの受け渡しは多くなると思います。

また、ミックスダウンを依頼する場合なども、対応レートを事前に聞いておくとダウンコンバートの手間が省けます。

時間の短縮の意味でも、あらかじめ事前に相談しておいた方が良いかもしれません。

このように、まわりの環境に合わせて、決めるのが最適解なのです。

 

まとめ

いかがでしたでしょうか?

サンプリングレートとビットレートの基礎知識でしたが、この分野はまだまだ深堀していけるのですが、一冊の本ができるくらい奥が深いものなので、この辺にしておきます。

かなりの長文になり、長らくお疲れさまでした。

ここまで読んで頂きましてありがとうございました。

>DTMerによる雑記blog「極東Under Script」

DTMerによる雑記blog「極東Under Script」

人生楽しく行く!ゲーム、料理、恋愛、音楽を主に語る。他にも音楽制作ログ、音楽研究 作曲公開なども

CTR IMG