随着数据规模爆发式增长,数据特征的维度往往能够达到十亿甚至百亿的规模。而在训练高维机器学习模型的过程中,各个计算节点需要互相通信以完成分布式的训练。这个过程往往意味着巨大的存储和通信开销,远远超过了单个机器的能力。
通过分布式训练系统架构,机器学习算法并行方案设计,梯度通信以及一致性同步协议优化,探索更高效的分布式拓展方案。
广泛应用于工业界互联网公司的广告精准推荐、用户兴趣挖掘等场景,在开源网站GitHub上获得来自国内外开发者的上千颗Star;相关工作得到国家重点研发计划支持。
通过结合参数服务器和机器学习算法二者的特点,开发了很多高效、易用的机器学习算法 ,并与大数据处理引擎Spark、深度学习系统PyTorch构建良好的生态,广泛适用于不同场景的机器学习应用。