数十亿短视频特征、千亿模型参数,快手推荐系统如何应用异构存储


作为2亿日活、日均千万级短视频上传、强调社区普惠的短视频APP,快手推荐系统所需解决的技术挑战是世界级的。近日,快手在国内率先应用持久内存重新设计了基于异构存储结构的推荐系统。在快手推荐系统高吞吐量大数据量请求的场景下,使用持久内存可以降低存储成本,减少故障恢复时间,提高系统可靠性。故障恢复时间从小时级别降低到分钟级,也为改善大规模深度机器学习系统在改进千亿级别数据量的处理能力上开辟了新的探索方向。

如何在承载高峰期每秒数十万并发调用量的同时,从上百亿级别的短视频库中,通过千亿参数级别的深度模型将内容展现给用户?快手推荐团队设计了基于异构设备的先进推荐系统。

目前快手推荐系统采用的是计算与存储分离的架构模式(如下图所示)。推荐系统中的存储型服务主要是用来存储和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。计算型服务主要进行的是视频召回检索、推荐模型预估和推荐策略计算。

【基于持久性内存索引系统的压力测试结果】

?基于异构存储的索引系统几乎达到纯DRAM的索引系统相同的性能指标,但成本降低30%。同时异构存储的索引系统能够提供分钟级别的故障恢复速度,比之前小时级别的恢复提升了百倍恢复速度。

通过工程、算法结合,数据驱动的手段,让快手推荐系统更高效、更精准、更稳定地为快手数亿用户服务,记录每一个人的生活点滴,并让每一个人的记录都能引起共鸣。推荐架构团队的成员都来自国内知名大学、甚至国际知名大学,如CMU、清华、北大、中科大等著名院校的毕业生。团队每个成员都追求技术极致,具备一流的分布式高并发服务的开发能力,比如在线分布式索引支持每天千亿级别的视频请求、机器学习平台支持千亿级别的推荐模型在线学习和在线预估、在线服务为数亿用户提供99.99%的可用性。

达到当天最大量