2008年对我们来说确实有太多值得关注的焦点,包括刚刚过去的北京奥运会、残奥会,科技元素成为当今社会不可或缺的组成部分。但是你知道吗,除了这些,今年还是MP3播放器诞生十周年、MP3音频格式诞生21周年的特别日子。一个小小的发明,不仅造就了每年几十亿美元的市场,同样改变了很多人的生活习惯……如果你有兴趣的话,不妨跟随我们的文章,去了解一下这个小家伙所不为人知的另一面吧。
在MP3之前,我们也经常听音乐,不过那时候流行的是用其它方式—— 黑胶唱片、磁带、CD以及MD等。黑胶唱片是一种褐色的圆盘形胶片,上面刻有凹凸不平的坑纹以记录声音,不过受限于体积以及其它因素并没有大规模普及开来。
黑胶唱片
磁带是很多人都使用过的,相信很多朋友对使用“Walkman”的岁月还记忆犹新,除了经典歌曲带来的无限回忆之外,更多的恐怕是保存磁带的烦恼。关于保存磁带,当时有很多不成文的经验——注意不要让磁带靠近强磁场区域、磁带不使用时应放入盒内直立存放、存放温度不能过高过低、过干燥或者过湿润、收藏的磁带应该每年以快进方式将其重卷一次……只要想想这些麻烦,恐怕都会让现在已经习惯了MP3的朋友们感到头昏脑涨了。
Walkman曾经与磁带机划上了等号,而磁带则是那时候我们享受音乐的首选
有别于黑胶片和磁带的模拟记录方式,1982年由飞利浦公司和索尼公司制定的CD格式一经推出,行情就不断水涨船高——CD记录的是数字信号,可以明显降低干扰和噪声对声音的影响,而且保存时间、歌曲(曲目)的选择更自由。但CD也有自身的缺点,那就是光盘自身的缺陷使得划痕和污垢很容易造成误码;虽然可以通过一定的纠正电路来补偿,但在早期这些问题是非常突出的。而从CD衍生出来的MD虽然具有更大的灵活性,但因为专利授权的问题一直没有大规模推广开来。
从音质上来说,CD和MD已经能够让大众满意了,但数字音乐大的问题并不在这里,一张CD光盘可以存储16首曲目,但却有640MB的容量。这就严格限制了数字音乐在计算机用户之间(尤其是互联网上)的相互交流,正因如此,缩小文件体积便提上了议事日程。也正是在这种大背景下,各种有损压缩的音频格式诞生了。
现在说起MP3相信是无人不知、无人不晓,谁叫它是使用广泛的有损压缩数字音频格式呢?不过它的发明者(单位)——德国Fraunhofer研究所就没有那么幸运了,1987年Fraunhofer研究所的工程师们制定了MPEG Audio Layer-3这个绕口的规范,到1992年,MPEG才正式将其作为标准规范,并改名“MP3”。据参与开发的技术人员介绍,这种音频标准在128Kbps的情况下压缩比为10∶1,也就是说只要60MB左右的容量就可以将整张CD都给塞进去。
不过也有很多人提出了反对意见,认为MP3相对于CD来说音质有所下降;但毕竟反对的人只是少数专业爱好者,绝大多数消费者并不愿意去深究CD和MP3之间的音质差别有多大,况且他们也听不出二者之间有多明显的差别。随着网络的普及和发展,MP3也迎来了自己第一个发展高峰。
现在我们知道了MP3音频格式的诞生地是德国的Fraunhofer研究所,但其真正的“生父”却是一位名叫Karlheinz Brandenburg的德国人。
为了表彰其杰出的贡献,德国政府于2000年10月为他颁发了德国未来奖
Karlheinz Brandenburg(卡尔海因茨·布兰登保)和互联网之父Tim Berners Lee(蒂姆·伯纳斯·李)一样,并没有从自己所研制的产品中聚集财富,反而是成就了众多以此为依托的公司,如现在的Apple和Google。
虽然很多人并不明白什么叫无损压缩、什么叫有损压缩,但大家都想知道为什么MP3这样的压缩格式可以节约出9/10以上的文件体积呢?归根到底是因为MP3音频格式应用了心理声学的原理,简单地说就是使用复杂的理论算法,将我们耳朵不可能听到或不容易听到的音频信息去掉,从而降低音频文件容量大小。
举个简单的例子,一对情侣在距离我们不远的地方窃窃私语,这时一辆火车从我们身边飞驰而过,在轰隆隆的汽笛背后那对情侣的声音就显得微不足道了。MP3就是利用了这个道理,它只保留了汽笛的轰鸣声,而滤去了情侣的声音,所以就可以达到更高的压缩效率。利用心理声学的原理,采用MP3编码规格的音乐在常人听来就不会比CD等无损压缩的格式有太大的差距。
如果细究MP3,大家会发现MP3的编码格式也有不同,其中主要的方面就体现在编码速率上。目前来看,常用的主要有三种方式——CBR(Constants Bit Rate,固定比特率)、VBR(Variable Bit Rate,可变比特率)和ABR(Average Bit Rate,平均比特率)。要说清楚三者之间的区别,就需要先了解一下什么是“比特率”。
比特率是一种数字音乐/视频文件压缩效率的参考性指标,比特率表示1秒内传送的比特数bps(bit per second,位/秒),常用的单位有Kbps和Mbps。音乐文件的比特率越高,意味着在单位时间内所处理的数据量越大,也就代表音乐文件有更多的采样信息和细节表现(注:相同算法下);但与此同时,高比特率的文件也会占用更多的存储空间,MP3文件可以使用的比特率一般从8Kbps到320Kbps。
如此一来,三种编码方式之间的差异就很好理解了。顾名思义,固定比特率就是整个文件的比特率是都一样的,好处是编码简单,缺点在于如果使用非320Kbps比特率的话,MP3文件的音质会随复杂程度而变化,也就是说越复杂的部分音质越差,因为表现不出更高的细节来。
可变比特率就是在一首歌(曲目)中对复杂的部分采用高比特率编码,而简单的部分就是用较低的比特率,这样就可以在音质和文件大小中间做到平衡。平均比特率则是在可变比特率的基础上出现的编码方式:在指定的文件大小内,以每50帧为一段,低频和不敏感频率使用较低的比特率编码,而高频和大动态表现时则采用较高的比特率编码。
播放器可以看到当前播放可取的比特率参数(图示为Winamp,上图为APE文件,注意码率的差别)
除了MP3之外,少数朋友可能还听到过另外一种音频格式——MP3 Pro,它又是何物呢?其实这是一种以MP3编码方式为基础的新型编码方式,于2001年6月的时候得到MPEG联盟认证并推广。MP3 Pro可以用64Kbps的比特率实现普通MP3 128Kbps比特率才能达到的效果,几乎将音乐文件在原来的基础上又压缩了一半。可能是MP3 Pro与MP3有着很好的兼容性,就连唱片商又或者播放器厂商都很少提及Mp3 Pro,至于普通消费者,深究其中差别的人就更少了。
除了MP3之外,经常用电脑的朋友一定不会对WAV(又称WAVE)文件感到陌生。借助Windows无所不在的影响力,WAV几乎成了通用的音频格式。打开Windows的录音机功能,系统会默认使用WAV文件将你的声音记录下来;很多音频软件也提供了将CD上所记录的信号通过抓轨的方式保留下来(比特率:1411.2Kbps)。虽然WAV可以保存无压缩的音频信息,但与MP3格式相比,WAV的体积实在太大了,一首曲目动辄就是几十MB,对于存储和交流都相当不便。
饭后,我们随手拿出MP3播放器,将耳塞插入耳朵,就会响起优美的旋律,可是你知道世界上第一首MP3格式的歌曲是什么吗?很多人都回答不上这个问题。
Suzanne Vega(照片拍摄于2006年)
第一首MP3格式的曲目名叫“Tom’s Diner”,它的演唱者苏珊娜·薇格(Suzanne Vega)也因此被称为MP3之母(Mother Of the MP3)。这首曲子旋律柔和、简单,使得在回放时很容易听出压缩格式的缺陷,因此当时Karlheinz Brandenburg教授也拿这首歌来评估MP3的压缩算法。
时光倒回1998年3月的德国CeBIT,一家由三星集团分离出来的小公司(韩国世韩公司)展出了第一款MP3播放器——MPMan F10。以现在审美观来看,MPMan F10的确是非常丑,具体参数方面:91mm X 70mm X 16.5mm的三围、体重65克,有一块不足0.3英寸的单色LCD小屏幕,使用并口方式与电脑通讯。
全球首台MP3播放器MPMan F10
5个月后,帝盟公司拿出了改进型的RIO 300,增加了外置闪存(SM卡)插槽,0.7英寸的LCD屏幕。虽然RIO300不是第一款MP3产品,但却是第一款引发业界销售狂潮的产品,有资料统计显示RIO 300在全球发售了20万台以上。这其中除了帝盟公司对高音质的诉求之外,一场意外的官司也帮了RIO 300很大的忙——RIO 300上市后不久,其母公司帝盟就与美国唱片工业协会(RIAA)就版权保护的问题打起了官司,终的结果以帝盟公司胜出而结束,而RIAA是赔了夫人又折兵,输掉了官司不说,还将RIO 300的知名度推到了一个空前的高度。以至于后来很多人误都认为帝盟RIO 300是第一台MP3播放器。
帝盟Rio 300
早期MP3产品的功能都非常简单,只能进行简单的MP3音频播放,至于录音、图片浏览、视频播放、FM广播以及TXT电子书阅读等都是想都不敢想。不过那时的产品已经打下了MP3产品的基本硬件结构和框架。
光看这幅解剖图,大家可能会觉得有些茫然,让我们为大家介绍一下各芯片的作用。
帝盟RIO 300拆解图
1.Micronas(#MAS 3507):音频解码芯片,完成所有的音频解码算法并将解码后的数据传送到数/模转换器;
2. Micronas(#MAS 3550):数/模转换器,负责将音频解码芯片解码后的数字音频流转换成为模拟音频流,再通过接口输出到耳机;
3.NEC(#uPD78P064GC):8bit MCU芯片,完成操作控制、LCD显示屏驱动、NAND Flash数据读取等工作;
4.Actel(#A40MEX04):专用接口电路控制芯片,完成电脑与MP3播放器的连接和通信;
5.Maxim(#MAX1706):电源管理芯片,负责将普通电池所提供的电压值升压到符合音频解码芯片和MCU芯片工作的电压值;
6.Samsung(#KM29U64000T):NAND Flash芯片,4颗8MB NAND Flash提供32M存储容量;
7.NXP(#74HC157): 四组2选1数据选择器,实现信号分时传送、组合逻辑函数和进行数据的串/并转换。
差不多在十多年前(1996年前后),苹果公司在历经辉煌之后陷入困境,曾被踢出门外的乔布斯也被请了回来,但苹果一直在为寻找一根“救命稻草”和新的突破点而苦恼。这种情况一直持续到2001年11月,第一代iPod产品发布,此时距离第一台MP3播放器诞生已经过去了3年多的时间。那iPod又是如何突出重围并成为领军人物的呢?
新一代iPod Nano全家福
追根究底,友好的操作界面、创新的控制方式以及易用的iTunes软件都是不可忽略的元素;但更多人人认为,iPod不仅仅是MP3播放器,而是一种时尚产品。至今,iPod针对不同的群体已经拥有了Shuffle、Nano、Classic和Touch四大系列。据国外有关统计机构的估算,从iPod诞生至今已经成功销售出上亿台,这样的业绩足以让任何一家IT公司所侧目。
在设计MP3之初,Fraunhofer研究院并没有深入全面考虑到版权保护这一现在看来相当重要的问题。也正是没有版权保护技术,才使得MP3如此容易的被修改、复制和通过网络下载。但没有版权保护的MP3音乐对于诸如iTunes Store这类商业在线音乐发行服务商来说是不能接受的。乔布斯能允许一个人买首Chloe Agnew的《Waking In The Air》然后让100个甚至于1000人分享吗?因此,iTunes Store让自己所销售的MP3支持DRM格式,防止受版权保护的音乐被侵权,遗憾的是,大多数保护机制还是能被无情的破解。而近几年来,随着音频数字水印的出现,相信将会对音频产品的版权保护起到积极的作用。
现在我们已经知道,促使MP3诞生的主要原因就在于当时硬盘的存储容量有限,每GB存储成本居高不下而且网络带宽也不足以负载像WAV这样的无损压缩格式。但随着技术的进步,这几方面都有了长足的进步。高320Kbps的比特率以前是MP3的长处(使用较低比特率压缩可以缩小文件体积),但在现在看来却成了一个短板——我们在嘈杂的环境中听MP3觉得还算将就,但是当你静下心来换上高质量耳机或者音响时就觉得不可接受了。甚至有些人开始有了“过河拆桥”的念头。
能不能摒弃有损压缩的数字音频格式,而使用无损压缩的方式呢?所谓的无损压缩,顾名思义就是不会对原始的音频信号进行删减处理,在缩小文件体积的同时尽量与原始信号保持一致。仍然用刚才的例子,火车飞驰而过时,我们借助无损压缩技术以及高保真耳机/音响就可以听出那对情侣的窃窃私语。这一点是有损压缩所不能做到的,哪怕使用同样的耳机或者音响设备。
重担落在了APE身上,与MP3编码格式一样,APE也是一种对数字音频信号的编码方式,与原始的WAV文件相比,APE在保证音质一样的前提下,可以缩小一半的文件体积(压缩比2∶1,一张640MB的音乐CD,现在只要320MB就可以装下)。
很多人认为只要是压缩就会有所损失,而压缩比高达2∶1的APE文件能够做到跟WAV一模一样吗?国外就有这样“好事儿”的玩家,他为了验证APE是否是无损压缩专门做了一个实验,首先是提取出WAV格式文件的MD5码,然后用Monkey’s Audio音频转换软件将WAV压缩成APE格式,后将APE格式解压成WAV后再次提取MD5码,得到的结果居然是压缩前后的MD码完全一致。看来APE是无损压缩所言不虚,类似的无损压缩格式还有FLAC等。
采用APE无损压缩格式的音乐越来越流行
MP3文件格式和播放器的出现满足了我们随时随地聆听数字音乐的要求,但“贪心”的人们远没有就此满足,除了用耳朵去感受周围这个世界之外,我们更主要的是用眼睛去观察。因此,不仅能听、而且能看的“MP3产品”应运而生了。
这就是我们常说的Portable Media Player(便携式媒体播放器,简称PMP),另外需要注意的是MP3的升级产品——MP4同样也具有视频播放功能,因此PMP与MP4在概念上的区别并不大。在专业人士看来,MP4特指那些只能支持MPEG-4视频格式的移动媒体播放器,而支持多种视频格式的产品则称之为PMP;但MP3的形象太过于深入人心,所以很多普通消费者都将这种随身播放视频的产品唤作MP4。
其实不管是MP4又或者PMP,要实现“看”的功能就必须要首先解决视频解码以及播放所带来的诸多问题,比方说速度、功耗、所能支持的视频格式等。这些问题在PC上面可能不算什么,但便携式产品对体积的要求非常苛刻,在狭小的体积和重量限制下实现上述功能就变得非常困难了。
到底谁发明了世界上第一台能看的MP3产品,现在已经很难考究了——因为当时的产品是一个不断演化的过程,现在公认度较高的说法是DMTECH推出的DM-AV10。它不仅可以听,而且还可以让用户通过LCD屏幕来进行图片浏览和观看影片。不过早期的产品多使用纯CPU的架构,因此视频的解码工作全部由软件来实现。这样对于视频播放速度以及品质都有一定的影响,大的问题在于CPU架构的功耗非常大,所以续航时间成了这类产品的一块心病。
DMTECH推出的DM-AV10,很多人认为它是现在PMP产品的原型
随后的时间里,PMP产品的架构方案开始不断革新、改进。发展到目前为止,主要有两大方案——其一是DSP与CPU相结合,其二就是基于MCU来构建。前者仍然使用软件来工作,但是将音视频的编解码工作放在专用的DSP芯片中来进行处理,所以在效率、速度以及功耗方面都有了很大的进步;而且软件方案具备很强的灵活性,方便日后升级和改进。后者则是靠硬件来工作,因此在功耗和效能上都能达到优,缺点在于硬件解码对文件的要求较高(例如飞思卡尔所提供的方案就只能支持MPEG-4和H.263编码的文件)。两种方案各有利弊,至于哪种更好则要看具体的使用情况,不过现在市场上流行的低价PMP产品多以后者居多。
就目前PMP的发展趋势来看,多功能整合、多格式视频支持、丰富的影音资源以及高清视频将是未来发展的重点。就像是在MP3中,人们要求添加对APE/FLAC无损格式支持一样,未来的PMP也必然会走向多格式视频支持的道路。
MP3因为“看”的需要从而进化出PMP产品,而当PMP遇到传统的无线广播时又会发生怎样的变化呢?很多人预测,那会是随身影音播放设备的下一个阶段。
作为一种新兴的媒体传送方式,数字移动广播受到国内外业界的广泛关注,其应用范围也在不断扩大,例如我们在电梯和公交车上看到的数字移动电视、奥运期间的手机电视等。目前,我国已经有两个统一的移动电视标准:CMMB和TDBM。
其中CMMB(中国移动多媒体广播)是国家广电总局广播科学研究所开发的一项基于混合式卫星和地面网络的移动广播标准;而TDMB则是一种基于3G移动通讯标准TD-SCDMA的移动电视标准。截止到目前为止,CMMB的应用已经大规模展开,例如奥运会期间各式各样能够支持移动电视的手机、PMP产品;而TDMB的应用就要稍微滞后一些。
回首MP3产品发展的这十年,我们会感叹技术发展之迅速。从早的只是播放MP3音乐这一单一功能的播放器,到大小视频通吃的PMP Player,再到现在如火如荼的CMMB移动播放器/手机……就算是Karlheinz Brandenburg本人也不会想到,当时不经意的研究,不仅造就了每年几十亿的产业,而且改变了很多人生活和工作的习惯。当我们现在想起往事时,真有一种“曾经沧海难为水,除却巫山不是云”的感慨!(对于时下流行的CMMB中国移动多媒体广播,我们将在后续的文章中为大家详细介绍其中的技术细节,敬请期待。)