近日,数学学院沈栋教授作为通讯作者合作完成的论文《User Preferences-Based Incompatible Multiobjective Iterative Learning Tracking Control》被自动控制领域顶级期刊《IEEE Transactions on Automatic Control》接收为长文(Full Paper)发表。论文第一作者为数学学院博士生张振法。本研究针对基于用户偏好的不相容多目标跟踪问题创新性地提出了两种算法(IS-PMGDA和IS-SMGDA)来快速且精准地收敛到满足用户偏好的Pareto最优解,该算法也可以迁移应用到多目标优化以及多任务学习等领域。

本研究将不相容多目标跟踪问题转化为一个多目标优化问题并且引入Pareto最优解的概念,进而将用户偏好定义为目标之间需要满足一定的比例关系。这种方法相比于线性加权,可以更加直观地反映目标之间的重要性,其在化工生产、无人驾驶自定位等领域有着重要应用。满足这种用户偏好的Pareto最优解在多目标优化领域也被称为特定Pareto最优解(EPOS)。基于多目标优化的相关结论,文章证明了EPOS的唯一性以及寻找EPOS等价于优化切比雪夫函数(图1)。

(图1:不同空间的EPOS的描述。(a)输入空间,(b)目标空间)
切比雪夫函数是一个非光滑函数,使用传统的次梯度方法寻找EPOS通常会出现震荡现象从而导致收敛速度变慢。传统的多重梯度下降算法(MGDA)是一种多目标优化方法,它可以同时优化所有目标从而收敛到Pareto稳定解。但由于缺乏考虑用户偏好,无法收敛到EPOS。与之相对地,本研究提出的两种算法可以实现快速且精准地收敛到EPOS(图2),这更加符合实际应用中的跟踪控制需求。

(图2:不同方法的比较:(a)传统的次梯度方法,(b)MGDA,(c)IS-PMGDA,(d)IS-SMGDA)
本研究利用偏好向量对目标进行实时排序,然后设计多个指标集合函数。对于每次迭代学习更新,按照并行和串行两种方式进行虚拟更新(图3-4)。每次虚拟更新是对特定的指标集合里面的目标使用MGDA。对于每种算法,本文均给出了对应的线搜索步长和最优步长两种步长选择方式。通过发展新的多目标理论分析方法证明了两种算法的收敛性。

(图3:IS-PMGDA流程图)

(图4:IS-SMGDA流程图)
本研究得到了国家自然科学基金和北京市自然科学基金的资助。
文章链接:User Preferences-Based Incompatible Multiobjective Iterative Learning Tracking Control