WebRTC 音视频同步原理与实现
所有的基于网络传输的音视频采集播放系统都会存在音视频同步的问题,作为现代互联网实时音视频通信系统的代表,WebRTC 也不例外。本文将对音视频同步的原理以及 WebRTC 的实现做深入分析。作者:良逸、审核:泰一
时间戳 (timestamp)
时间戳的生成
音频帧时间戳的生成
![](https://filescdn.proginn.com/b4717e2c80509589491b99eb4894037f/0c6a379c233176c9153b231940c20b38.webp)
视频帧时间戳的生成
timestamp_us_
,然后算出此系统时间对应的 ntp_time_ms_
,再根据此 ntp 时间算出原始视频帧的时间戳 timestamp_rtp_
,参看下面的代码,计算逻辑也在 OnFrame
这个函数中。![](https://filescdn.proginn.com/1f70bf025cf6c1fc7588612c188a5f80/22ee186924ec70a14accf90195c093e3.webp)
![](https://filescdn.proginn.com/9fb09bb00ef2a5dd3d849db64c7ba1cb/47720ae1a4d123a450cf651175b9e108.webp)
音视频同步核心依据
![](https://filescdn.proginn.com/fd73251fa9bd120c422bb78f3eab97cb/17460b7430472b805a612d531fa8f902.webp)
SR 包的生成
RTCPSender::BuildSR(const RtcpContext& ctx)
函数里面,老版本里面有 bug,写死了采样率为 8K,新版本已经修复,下面截图是老版本的代码:![](https://filescdn.proginn.com/dce7d685a33da84084080abc63d498da/eae8ba96be74bb8b7c803587910bbdda.webp)
![](https://filescdn.proginn.com/378a9cb10fc29c978158a342bd5aa109/c972b84825aa2c1ff57054dba98d161d.webp)
last_rtp_timestamp_
和它的采集时刻的系统时间 last_frame_capture_time_ms_
,和当前媒体流的时间戳的每 ms 增长速率 rtp_rate
,以及从 last_frame_capture_time_ms_
到当前时刻的时间流逝,就可以算出来。注意,last_rtp_timestamp_
是媒体流的原始时间戳,不是经过随机偏移的 RTP 包时间戳,所以最后又累加了偏移量 timestamp_offset_
。其中最后一个发送的 RTP 包的时间信息是通过下面的函数进行更新的:![](https://filescdn.proginn.com/7aeecb70c944dddd184d15d95d1c3b17/4732c4a603eb3d9bc7e4fa69140a7e34.webp)
音视频同步的计算
![](https://filescdn.proginn.com/d20ad6952f3dd06d9cf3d552f44aa9db/dc612a116ed48167e4e4d308f5d56c64.webp)
![](https://filescdn.proginn.com/cf7d9c7b9187d75e2d4cdf28828933f7/36dc26da25d099badb3041a98d841e70.webp)
StreamSynchronization::ComputeRelativeDelay()
函数中,之后又经过了 StreamSynchronization::ComputeDelays()
函数对其进行了指数平滑等一系列的处理和判断,得出最终控制音频和视频的最小延时时间,分别通过 syncable_audio_->SetMinimumPlayoutDelay(target_audio_delay_ms)
和 syncable_video_->SetMinimumPlayoutDelay(target_video_delay_ms)
应用到了音视频的播放缓冲区。RtpStreamsSynchronizer::Process()
函数来处理的。![](https://filescdn.proginn.com/f90d269b5bdef8d30987afde720bc65e/c08aab262ddda54409841252a5848046.webp)
WebRTC 中实现音视频同步的手段就是 SR 包,核心的依据就是 SR 包中的 NTP 时间和 RTP 时间戳。最后的两张 NTP 时间-RTP 时间戳
坐标图如果你能看明白(其实很简单,就是求解出直线方程来计算 NTP),那么也就真正的理解了 WebRTC 中音视频同步的原理。如果有什么遗漏或者错误,欢迎大家一起交流!
END
评论