如果您看过美国科幻连续剧《泰星来客》,其中两种未来产品一定给您留下了很深印象。一种是武器,可以发射出巨大集束能量的“生物武器”,它可与人的手臂长在一起,成为身体的一部分。
另一种产品没那么可怕,这就是掌上可视电话。在泰星人给地球人设计的未来世界里,这种电话无处不在,就像今天在我们的世界里随处可见的手机。这种电话功能十分强大,不仅有双向视频通信功能,而且还有定位、查找、向导、建议等高级智能。
像大部分科幻片中描述的那样,许多未来通信工具是如此的真实,以至于今天的人们几乎会不约而同地认为:它们就在我们眼前。然而,真正的现实又如何呢?
可视电话新版本?
就科幻片中随处可见的掌上视频通信而言,目前除了微软等少数公司的一些实验室产品外,第一个商业化产品依然没有出现。微软有一个视频通信技术叫“Portrait”,中文名称暂定为“肖像视频”。
目前,肖像视频已经在PC和掌上电脑上实现了实时的双向视频通信,效果和速度都还不错。5月15日,肖像视频又发布了可以运行在微软Smartphone操作系统上的版本。据悉,今年6月,CECT公司与我国台湾省企业神达电脑将联合在国内推出第一款以Smartphone为操作系统并且支持GPRS的智能手机。
这款智能手机上将安装一个摄像头,就像目前流行的几款带摄像头的手机那样,可以拍照和录制一段视频,但还无法实现实时的视频通信功能。不过,可以肯定的是,其后的版本将实现这一功能,那时,肖像视频将可能会有用武之地。像PC和掌上电脑一样,手机如果也可以实时地进行视频通信,就成了我们梦寐以求的掌上可视电话。
说到可视电话这个概念,人们也许早已耳熟能详,但真正见过可视电话的却没有几个人。可视电话一直是个非常有争议的产品,早在二十多年前,美国贝尔实验室就开始做这方面的研究,但却胎死腹中。原因是,最终用户似乎对这种可以面对面说话的电话不太感兴趣(无法移动),而且,更多人对它的高额运营成本带来的超高收费也不感冒——据说AT&T曾想为此专门建立一套新的通信网络。
在数字通信业务已经成为大势所趋的今天,可视电话正在被作为一种辅助通信手段,“嵌入”到各个应用中去,这就是视频通信的范畴了。可以预见,视频通信将在未来的网络游戏、网络会议、网络电话等应用中有很大的发展空间。
尽管如此,一个研究机构要把研发方向选择在这上面,还是要慎之又慎,即使对于微软亚洲研究院这样的庞大机构而言亦是如此。因为,在视频通信领域,已经有很多成熟的压缩技术和传输技术。而且,这一研究领域的历史也很悠久,没有“两把刷子”很难在此领域有所作为。而肖像视频的最初目的就是:解决视频通信的两大难题。
第四个压缩标准?
肖像视频要解决的两个难题是:压缩效率和运算速度。对微软亚洲研究院的技术专家们而言,这是个老生常谈的新课题。
由于网络带宽有限,视频通信不得不都采用“先压缩再传输”的方式。2000年,当微软亚洲研究院副院长沈向洋开始关注此领域时,视频压缩技术已经十分成熟,可以说,当数据压缩算法几乎达到了极限,要在这方面找到新的突破点,几乎不太可能。
在随后访问美国的日子里,沈向洋跟微软亚洲研究院研究员李江谈起了自己的想法。他们很快就沟通出了灵感:既然视频压缩技术已经到了极限,那么有没有可能结合视觉技术从数据本身来做些文章?
他们意识到:在实时的视频通信中,人们视觉对图像的要求,并不像在定睛观看一幅图画时那么高——不太注意形象,而更注意表情;不太注意细节纹理,而更注意整体轮廓。也就是说,在视频通信中,用户大脑感兴趣的有效信息并不多。通过提取用户的表情轮廓和线条等简单信息,就可以有效表达一帧视频的大部分内容。如果只压缩和传输这些信息,将会大大降低计算和通信的负荷。这是沈向洋和李江在美国的高速公路上飚车时沟通的结果。
回到中国后,他们决定试验一下这个想法是否有效。于是,李江用Photoshop的一个功能,提取了一些照片的关键表情和轮廓线。当时这些照片就放在网站上,有研究院院长张亚勤和沈向洋。李江做好了这几个人的“白描”后,发给研究院的同事们,让他们辨认谁是谁。辨认结果的准确率是100%,当时张亚勤就拍板决定做这个项目,李江就成了该项目的负责人。
不过,李江很快就发现:事情并不像他们当初想像得那么简单。尽管一幅静态“白描”看上去很形象很逼真,但如果要它们由静而动,就会出现很多问题。
首先是两帧视频之间的过渡不平稳、闪烁不定,不如动画片里面物体的轮廓那样清楚和稳定。其次,通话者的头发仅仅用轮廓线表示而没有黑色填充显得很不自然。李江最后用“二值视频”技术解决了这两个问题:确定一个亮度阈值,高于该值则为白,低于该值则为黑,非黑即白。
提取轮廓线技术的学术名称为“边缘检测”,这项技术和“二值视频”相结合,组成了肖像视频最初的技术框架。这两项技术大大降低了视频的原始数据量,但是,在压缩这些精简了的数据时,李江又遇到了麻烦:通过“边缘检测”获得的“二值视频”,在压缩过程中很容易产生单点噪声,而“二值视频”本身已经包含了“边缘检测”的结果。于是,李江放弃了“边缘检测”,只留下“二值视频”。结果,不仅没有了噪声,同时还降低了数据量。
李江认为,“二值视频”在学术上有望成为一个新突破。在视频和图像压缩技术领域,目前存在三个标准:用于彩色图像的JPEG标准,用于彩色视频的MPEG标准,用于二值图像的JBIG标准。如果“二值视频”技术成熟的话,有望成为第四个压缩标准。