软件所提出流式机器学习新框架实现动态数据高效分析
文章来源: | 发布时间:2025-04-29 | 【打印】 【关闭】
近日,中国科学院软件研究所软件工程技术研究开发中心分布式计算与系统工程研究团队提出了一种新的流式机器学习框架FreewayML,为复杂场景数据流的高效分析提供了创新解决方案。相关成果论文FreewayML: An Adaptive and Stable Streaming Learning Framework for Dynamic Data Streams被数据库领域顶级学术会议ICDE 2025接收,第一作者为博士生秦政,通讯作者为许利杰副研究员。
现有典型流式学习框架如Flink ML、River、Alink、StreamDM等存在稳定性和通用性不足两个难题。在稳定性方面,现有框架一般采用简单直接的模型更新方法,没有充分考虑数据动态变化对训练和预测的影响,导致实时正确率波动较大。在通用性方面,这些框架大多只能支持少量传统机器学习算法,如流式Logistic Regression、流式K-Means聚类等,难以支持流式深度学习等复杂数据分析算法。
针对上述问题,研究团队提出了一种新的流式机器学习框架FreewayML。团队首先通过实证研究深入分析数据动态变化(非独立同分布)对流式学习稳定性的影响,定义了三种典型的数据偏移模式——轻微偏移、严重偏移和重现型偏移,并相应提出三重自适应调节机制,即多时间粒度模型组合机制、协同经验聚类机制和历史知识重用机制,通过优化框架处理流程,实现模型准确率与稳定性的协同提升。FreewayML还设计了数据训练流和预测流,可以同时支持传统机器学习算法和深度学习算法,突破了现有框架通用性上的局限。
FreewayML三重自适应调节机制
FreewayML框架能广泛适用于现有流式机器学习模型,相关成果已经在南方电网合作项目开展实际应用。在电力、交通、网络安全等典型流式数据集上的实验表明,相较现有框架,FreewayML的平均准确率提升3%至7%,实时准确率最高提升45%。
FreewayML与现有框架实时准确率对比
FreewayML论文地址:
https://jerrylead.github.io/papers/FreewayML-ICDE-2025.pdf
FreewayML开源代码:
https://github.com/TCSE-BigData/FreewayML