今天的故事要从最后一个流程「保存声音」说起。2014 年的现在audio是什么,人们最常使用的保存声音的方式,就是「声音档案」(Audio File)audio是什么了,您在网络上听到的所有声音,包含 MUZIK ONLINE 上的每一首音乐,YouTube 上影片的声音部分,都是使用某种声音文件格式来储存的。所以,声音档案里面到底装的是什么东西?为什么它可以储存声音?
什么是「数字」?
首先我要来厘清一下名词。这系列文章的标题其实是三个字组成的audio是什么:「数字」、「音乐」和「科技」,我想大家比较会有疑虑的是「数位」这个字,「数字」到底是什么意思?
「数位」这个字的简单的定义是:「用数字,来描述、处理、保存事情」。也就是说,这一系列的文章也会跟数字和数学很有关联喔!
画素
为了让您更能想象声音档案的运作方式,我想先介绍一下图片档案。
现在网络上最流行的图片文件格式叫做 JPEG,您在 Facebook 上看到的每一张照片,都是使用这个方式储存的。JPEG 档案(以及其他大部份的图片档案)里面装的是什么呢?它里面有很多「画素」(pixel)。
您在计算机或手机屏幕上,看到的所有东西,都是由一个一个细小的小方格组成的,因为这些小方格太小了,平常您不会注意到它们的存在,所以我要把它们放大给您看清楚。
首先,您可能会发现一个有趣的事情:在屏幕上你看起来像是全黑的文字,其实它的边缘不是真正全黑的。
在这里您看到的每一个小方格,就是一个「画素」。现代计算机储存一张黑白图片档案的方式,就是测量每一个画素的亮度,然后给它一个范围是 0 到 255 的数字,0 表示最暗(也就是纯黑),255 表示最亮(纯白),中间的数值代表各种不同深浅的灰色。
所以,在黑白图片档案中,每一个画素,就是一个范围是 0 到 255 的数字(注 1),集合够多的画素,您就得到了一张图片。
声音档案的「画素」
在声音档案中,与「画素」相对应的东西叫做「取样」(sample)。您可以想样,一个「取样」就是一小小小小小段声音,跟「画素」一样,也是用一个数字来代表。不过您可能会想,我们要怎么用数字来形容声音呢?就像在图片档案里,我们用一个数字来描述一小块图片的「亮度」audio是什么;在声音档案里,我们用一个数字来描述一小段时间内的「空气密度」。
声音档案的运作方式其实超乎想象地简单:您可能还记得在高中物理课的时候学到的,声音是一种「疏密波」,也就是说您大脑觉得的「声音」,其实只是您的耳朵侦测到周遭空气分子的密度变化,传送讯号给大脑后产生的幻觉而已。
如上图,当左方的喇叭在震动的时候,会造成周围的空气分子在某些地方的密度比较高、有些地方比较低。然后您只要拿一个「空气分子密度侦测器」(俗称「麦克风」),去测量当下的空气密度,当空气密度高的时候,给它一个大数字,而密度低的时候,给它一个小数字就可以了。
然后当您不断地、一直一直重复测量空气密度之后,您就会得到⋯⋯一大堆数字。没错,您每天听到的网络上的声音、下载的每一首 MP3 音乐档案,就只是一大堆叙述空气密度的数字而已,计算机可以读取这些数字,然后再透过您的音响重现记录好的空气密度变化。
声音档案的分辨率
声音档案的质量基本上由两个因素决定:第一是我们用多大的数字范围来叙述一个当下的空气密度,第二是我们每一秒钟叙述空气密度几次。我们刚开始说了,一般的黑白图片档案,是用 0 到 255 的数字来表达一个画素的亮度,也就是说,从全黑到全白,图片档案可以记录 256 种不同深浅的灰色。
一般声音档案的分辨率比这高得多,从空气最稀疏到最密集,我们是用范围 0 到 65,535 的数字来表示,而在专业用途的声音文件,数字的范围更大(注 2)。
我们把每一秒钟,声音档案记录空气密度的次数,称为「取样频率」(sample rate)。现在最常被使用的取样频率是 44,100 Hz,也就是每秒钟记录空气密度 44,100 次。
换句话说,在一般您每天使用的声音档案,每一秒钟的声音,就是 44,100 个、范围是 0 到 65,535 的数字。那是非常非常多的数字耶,这也就是我们为什么叫它「数字」音乐的原因了。
还有更多所以您现在知道了,您每天听的声音档案,里面装的只是一大堆、叙述空气密度的数字而已。那么,在人类发明计算机来储存一大堆数字之前,我们又是怎么储存声音的呢?
注 1:在彩色图片中,每一个画素则是用「三个」范围是 0 到 255 的数字表示,分别代表红色、绿色、蓝色的亮度。
注 2:在专业录音设备使用的档案,叙述空气密度的数字范围通常是 0 到 16,777,215。
转载自MUZiK ONLiNE名家随笔
合作投稿微信号:jiang13911458766(←长按复制)
关注中国音响网微信号:chinaaudio