首席科学家：世界移动音视频技术的前沿在中国！

公司新闻

2016-10-07

9月24日下午，国家会议中心，由CSDN、创新工场联合主办的“MDCC2016中国移动开发者大会”，小鱼儿科技首席科学家李勤解析移动互联网下音视频通信行业的挑战和技术前沿，满满的都是干货！

李勤，小鱼儿科技联合创始人兼首席科学家。音频处理及网络通信领域专家。北京大学地球物理系学士学位，美国华盛顿大学（University of Washington）电子工程硕士学位。在攻读博士学位期间退学加入美国微软，在微软从事音频算法及网络通信技术的深入研究和开发近10年，在音视频通信领域有丰富的研究和工程开发的经验。

一、视频行业的驱动力量

基础网络的快速发展，给视频行业带来了新的机会。

● 4G移动网络和宽带的普及：视频应用，特别是高清视频，对带宽的要求相当高，移动网络的普及和发展，给视频行业提供了一个最基础的保障。

● 移动应用呈爆发性的增长：各行各业的需求都体现到移动应用上，社交、O2O服务，还有一些娱乐方面，像直播、网红等对视频的要求和需求非常高。

● 企业级协作需求增加：传统企业音视频会议局限于会议室场景。随着互联网的发展，很多企业的观点也开始改变，移动接入、企业培训、远程服务等需求逐渐增强。企业音视频需求开始走出会议室，蕴藏着巨大的发展潜力。

● 政策支持：政府大力推进远程教育、分级诊疗等，以解决教育和医疗资源不均衡的问题。

二、技术优势：智能硬件+SaaS云服务

小鱼儿科技希望能紧紧把握住最先进的技术，把技术运用到我们的应用场景，通过“SaaS云服务+智能硬件”的云+端模式，为用户提供极佳的音视频应用体验。

● 创新的软硬一体化设计

对于音视频通信，硬件是服务的依托，只有设计出好的硬件，才能给用户提供最佳的音视频体验。

做硬件很难，设计周期长、前期投入高、风险大，但我们毅然决然地从公司成立之初就决定要设计生产自己的硬件。小鱼办公这款设备从外观到结构、从系统定制到前端软件，完全是我们自己设计开发的。关键的元器件，如摄像头、感光元件、麦克风、喇叭等，都是我们反复测试挑选的。

同时高清晰度的视频编解码，在硬件能力上有很高的要求。一些通用硬件平台以纯软的方式做视频编解码是很困难的，只能通过硬件来做。这就要求我们必须掌握硬件编码，修改跟硬件相关的驱动设置。

● 基于互联网的音视频通信云服务

我们的另外一个技术优势就是在互联网下的音视频通信云服务，我们是如何处理互联网，特别是移动互联网之下的音视频通信挑战及其处理的对策，接下来会有详细介绍。

三、音视频通信的挑战

在互联网上做音视频通信有巨大的挑战，一个最基本的问题就是带宽无法保证。因为一般情况下都会有很多人在共享网络，有人做视频传输，有人可能在下载，带宽是大家共享的，对每个人来说，带宽都是难以保证的。而且整个网络的情况也很复杂，丢包、延时、拥塞，这些都会对音视频的传输带来很大的影响。

现在，移动互联网应用越来越多，每人都有手机，手机到哪儿都要连WIFI。WIFI主要有两个频段，一个是2.4GHz，一个是5GHz，2.4G是目前大部分手机支持的频段，支持5G的设备还很少。2.4G只有三个独立的信道，一般在一个空间里面有很多无线接入点，有很多移动设备同时接入，信道之间的干扰是相当大的，像办公室里的无线连接往往效果特别差。手机移动网络，虽然4G发展很快，但它会受到场地信号强弱的影响，大家都共享4G基站的时候，速度会变慢。

在中国，我们还存在特有的网络问题：不同运营商之间的互通，以及跨国网络质量差。跨国网络主要是因为通过国家防火墙的时候，常常会碰到各种各样的问题，最常见的就是丢包，特别严重的情况可以达到60%、70%的丢包，这对音视频传输是一个很大的挑战。

另外一个挑战是和用户的使用场景相关的，多人会议中碰到的问题，是每个终端的能力和网络状况很不一样，这就涉及到一个网络传输的策略问题。

最后一点，在互联网上做音视频，做的不只是软件，而是服务，需要考虑用户的规模和服务的可用性的，对服务器的部署、运维、监控都有很高的要求。

四、应对挑战：需要进行系统性的优化

如何应付音视频通信行业的这些挑战呢？我们认为这需要整个通信系统的优化，而不是某一点。从最前端的音视频采集、处理、回放，到音视频的编解码（包括硬件编解码加速），音视频传输协议，网络传输优化，服务软件构架设计、服务器的部署和连接、链路优化等等各方面，整个音视频通信系统要作整体考虑，统一优化。

坦率地说，目前音视频行业的门槛降低了很多，特别谷歌把WebRTC开源之后，做一个音视频通信软件就比较容易了。但是WebRTC在技术方面提供的是音视频编解码及点对点的网络传输技术，缺少对多点及后台服务网络的支持。利用WebRTC的技术做点对点的通信软件很容易，但是两点之间的网络连接，完全没法控制，也没法优化。国内也有一些公司，他们在网络传输方面做得特别好，耕耘很深，但是在整体软件服务构造方面，做得不够好。

小鱼儿科技的优势在于对整个音视频通信系统的了解非常深入。公司成立时间不长，但我们的核心技术团队在音视频方面的积累非常深厚。我们对音视频通信系统中的各个模块都有深入研究，了解其原理，能够为其做优化。我们进入市场很晚，至今不到两年，但我们设计出了业界最优的基于互联网的音视频通信整体构架，然后为这个构架去优化每一个模块。在国内做音视频的所有厂商中，小鱼儿科技在整体优化方面是做得最好的。

五、五个方面打造行业领先

● 音视频编码

我们选择的音频编码是Opus，它最大的特点是适应范围特别广，从特别低码流的窄带语音到宽带语音，超宽带语音，甚至到高保真的立体声音乐全部都可以支持。这样一个编码器就可以适用几乎所有在互联网上音频的需求，而且可以根据网络状况动态调整，不需要再次协商，只要带宽估计准确，发过去的码流肯定能被正确解码，特别适用移动互联网的音频传输。这是我们选择Opus的主要原因。另外经过我们的改造，Opus还可以支持分层编码（Scalable Audio Codec），这是我们的非标准私有扩展。

对于视频编码，我们采用的是基于H.264的分层编码（Scalable Video Codec），中文叫“可伸缩视频编码”。它的特点是编码的时候可以在帧率，分辨率，质量上进行划分，一次编码可以输出多层码流，分为基本层和增强层，适用不同的终端，接收端可以根据网络状况去选择接收。基本层占用比较少的带宽资源，保证基本的音视频质量。基本层加上增强层后就可以得到更好的帧率，分辨率或质量。我们目前支持帧率分层和分辨率分层。

另外，我们还还对编码器做了深度优化，还可以实现场景自适应，选取最佳编码参数。这是什么意思呢？这个编码其实和场景是有关系的，比如说在一个会议场景，人的位置、姿势变化不是很大，这个时候人的主观感觉对帧率不太敏感，但是对分辨率很敏感。而对于运动场景，比如踢足球、小孩玩耍的时候，画面运动特别厉害，人的主观感受对帧率特别敏感，但是对分辨率不敏感。所以不同的场景实际上需要不同的编码参数。我们在通话中实时自动检测场景状态，自适应调整参数，在一定的带宽限制下选择最佳的分辨率和帧率。

● 软件服务架构

软件服务架构包括媒体服务器和信令服务器。

媒体服务器，也叫多点控制单元（MCU）。点对点呼叫场景中，有时候因为码流无法穿越防火墙，需要有服务器来做中转；在多人会议的场景下，则必须有中间服务器，否则要把所有人的码流传给其它所有人，带宽将无法控制。传统MCU做的是“全编全解”，把所有人的码流在服务器上解码，再编码合成一个码流，传给其他人。在互联网应用环境下，传统全编全解构架不是一个好的选择。我们采取的事基于音视频分层编码的架构，服务器不做编解码，只做码流的中转。各个终端根据自己的能力和网络状况，经过服务器中转向发送端请求合适的码流。比如，在一个会议中有三个人，发送端A的带宽很好，他会发送多层码流，有基本层，有增强层；B的带宽很低，只请求基本层，能看见一个流畅的图像；C的带宽很好，可以请求基本层，还有两个增强层，可以看到一个很好的质量。这样做的最大好处就是服务器容量高，可扩展性强，对基于互联网的服务来说，是一个最优的架构。还有分层编码更加适合有丢包情况下的纠错和补偿，这一点后面还会提到。

信令服务器主要负责的是维护每个终端的状态，发起建立呼叫，协商终端的各种能力，起到一个中间层的作用，将所有终端拉到一起。信令的特点是对延时的要求没有音视频那么高，单点服务器容量大，对稳定性、可靠性的要求高，需要多点热备。在软件构架方面，我们的设计让信令和媒体之间耦合很轻，可以把信令和媒体服务器分离部署，并且根据需求各自管理自己的热备和扩展，而不影响整体业务。

● 网络传输

网络传输要解决的就是音视频的数据如何从一个点可靠地传到另一个点。重要的一点是在通话过程中能对网络状态自动检测，包括带宽、丢包、延时和抖动，把这些信息反馈到发送方并实时调整编解码参数。

我们的音频处理策略，一是采取动态码率调整，这是最基本的，根据带宽我们选择最合适的码率；对于丢包的情况，我们采取的是动态前向纠错（冗余保护），根据丢包的比例、分布，来确定最佳的丢包参数；我们丢包补偿算法可以根据语音的结构，进行平滑的插值，让人耳听起来还是一个连续的语音，同时不影响语义理解；Opus的标准是不支持多层编码的，但我们修改了底层的编码方式，可以生成两层码流，一个低码率的，一个高码率的，低码率可以用来做纠错，这是我们特有的能力，可以对核心的音视频编解码进行修改。我们经过这些处理后，80%丢包的情况下可以正常通话，对声音语义的理解是没有问题的。

视频处理策略方面，第一个也是动态分辨率、码率选择调整，根据动态的带宽检测来做动态调整；在丢包方面，我们采取的是动态丢包重传和前向纠错相结合的方式，丢包重传效率比较高、但延时比较大，前向纠错的效率相对低一些、但是能够较好的控制延时。我们把两个方法结合，根据丢包状况、网络延时，选择最佳方式；对于SVC编码，丢包重传只传基本层，这样会造成分辨率的下降，但能保证比较流畅的视频，不会花屏。如果只采取丢包重传的处理，30%丢包的情况下视频仍然流畅；如果采取丢包重传加前向纠错的处理，70%丢包的情况下视频依然是可用的。这对互联网应用十分重要，高丢包的情况下，还能保持基本的音视频体验。

● 网络部署

在网络部署方面，我们采取的是分布式的部署方式。在不同的区域，根据用户的分布和使用状况，我们可以灵活部署多个媒体服务器，终端就近接入最近的服务器，音视频就近中转，多服务器协作，动态调整，互相备份，降低延时，减少网络流量，提高服务的可靠性；多服务器之间支持自动路由算法，选择最佳中转路由，任何一个媒体服务器出现故障，会议无中断自动迁移到附近的服务器；媒体服务器支持水平扩展和级连，单点服务器支持四百方互动会议，级联可支持万方同时入会。在互联网上为大量的用户提供服务，网络部署非常重要，分布式的媒体服务器是非常高效的。