容错控制系统概述

“容错”, 顾名思义, 就是“容忍错误”的意思。它是计算机系统设计技术中的一个概念, 而对控制系统来讲, 则是针对高可靠性控制系统的一种综合策略。容错控制系统是一个不仅在正常情况下, 而且在某些元部件发生故障的情况下, 都能够保证系统稳定性, 并具有恰当性能指标的控制系统。容错控制系统的研究可以提高系统的安全可靠性、可维修性和使用寿命, 具有重要的实际意义和理论价值。

一、背景

如果将一个系统比作一个人的话, 则控制器可以视为人的大脑, 发布控制指令；执行器可以看作人的手和脚, 执行大脑的各项指令；传感器便是人的眼、鼻、耳、口、舌等感观部分, 收集和发布当前信息；而人体内的经络、血管等则对应于系统的关联链接, 负责各部分的信息关联。由此可见, 在众多系统部件中, 执行机构担负着整个系统的驱动功能, 所有运行状态的变化都需要通过执行器的运作调整得以实现。因此系统的执行器负荷最大, 结构最为复杂, 也是最容易发生故障的机构, 并且执行器故障对系统的可靠性、安全性和有效性影响最大。而传感器作为为系统、控制器、滤波器等机构接收并发送所需正确信息的部件, 故障的存在也直接影响到系统的有效运行及安全可靠性。在多个系统组成的复杂系统中, 关联链接和耦合网络的连接作用对整个系统的稳定性和跟踪同步性能而言不可忽视。因此, 关联部件的故障也能造成整个耦合系统的崩溃。另一方面,随着系统外部环境的变化、运行时间的延续和其他不可预测外力的影响,系统对象本身也会出现故障性变化, 如零件老化受损或脱落、机体发生化学反应及出现裂缝等, 使得原有系统模型失效, 导致系统不稳定。对一个控制系统而言, 控制器的正常工作是一个系统正常运行的最基本条件。因此, 控制器发生故障而给系统其他机构发送错误指令, 对整个系统安全性来讲会产生灾难性的后果。另外, 系统的其他部件, 如接口、回路和一些软件的故障也会对系统运行产生较大影响。总体来说, 这些故障都会直接影响到系统的安全可靠运行。在众多相关实际工程领域, 曾经发生过许多造成重大人员伤亡和严重经济损失的悲惨事件。这些事件都是由于机构设计不能抵制外部扰动或者系统部件发生故障等原因导致系统安全性的下降, 直至毁坏设备而发生的。

在航空航天领域, 1985年日本JAL-747飞机因局部结构断裂而撞山坠毁, 机上524名人员中只有4人幸免。1986年美国挑战者号航天飞机上的一个密封圈失效, 导致价值12 亿美元的飞行器爆炸, 7 名宇航员全部遇难。1996年6月4日, Ariane5号火箭在升空37秒后爆炸, 主要原因在于惯性参考单元 (IRU) 的软件反对, 导致提供姿态和轨道信息到控制系统,使正常的姿态信息被一些控制系统无法辨别的诊断信息取代。

❖

1996年土耳其波音757-200飞机因空速表故障而坠毁, 13名机组成员和176名旅客全部遇难。2000年法国协和客机在起飞过程中机翼起火爆炸, 造成机上109人全部死亡, 地面死亡5人。

❖

2001年我国两架某型飞机在训练时因尾翼积冰相继坠毁, 16名机组人员全部遇难。2003年2月, 美国哥伦比亚号航天飞机因左翼出现裂纹而发生爆炸坠毁, 机上7人全部罹难。2009年6 月,法国空客A330可能因遭遇强对流天气无法控制而坠毁, 机上228 人全部遇难。

❖

2010年6月, 韩国首枚运载火箭“罗老号”因整流罩出错导致发射失败。2013年7月7日, 韩亚航空一架波音777客机在美国旧金山机场着陆时失事, 导致2名中国公民不幸遇难, 事故原因初步鉴定为油箱破裂导致韩亚航班坠机着火。在核工业领域, 1979年3月, 美国宾夕法尼亚州三里岛核电站制冷系统出现故障, 造成美国最严重的一次核泄漏事故, 至少15万居民被迫撤离。1986年4月26日, 切尔诺贝利核电站发生核泄漏事故, 其主要原因在于有缺陷的过时技术和故障处理机构的缺失。1993年4月, 俄罗斯西伯利亚托姆斯克市托姆斯克化工厂的一个装满放射性溶液的容器发生爆炸, 附近的几个村庄被迫整体迁移。2011 年3 月, 日本发生9.0级地震, 福岛第一核电站发生泄漏, 辐射半径10 公里范围内的约45 000人被迫撤离。此外, 矿物开采、卫星导航、石油化工生产等领域, 多种故障的发生均导致了人员伤亡、财产损失和生产停滞。因此, 为了更好地保障人们的人身安全和生存环境, 同时提高生产运行效率和经济效益,系统的可靠性和安全性问题亟待解决。

正是在这样一种系统部件故障不可避免并不可忽视的背景下, 容错控制技术的研究被推到了科学研究的前沿位置, 并得到了飞速的发展。现代控制系统通过容错控制技术设计提高系统的可靠性和自动应变能力已经十分普遍, 它作为提高系统安全性、可靠性的一种重要手段, 被广泛应用到工业控制系统的许多领域。并且随着实际系统背景的演化, 容错控制技术必将进一步深入发展。

二、动机

一般控制系统能否进行容错控制, 关键看系统是否有富余的机构或者信息来消除补偿故障所带来的影响。这种富余称为冗余。值得一提的是,在航空航天领域, 有很多实际系统, 如飞行器、火箭、卫星等都能提供冗余信息。这些冗余信息的存在, 保证了容错控制系统设计的可实现性。需要指出的是系统冗余有多种形式, 主要包括硬件冗余和解析冗余。硬件冗余仅仅依赖现有系统的冗余度来容忍性能退化, 是指给一个运行机构备份多个与之功能相同的机构, 机构发生故障则由备份机构取代执行。显然硬件冗余虽然可以精确提高系统可靠性, 但成本代价十分昂贵, 一般工业系统的执行机构很难做到。现实系统应用比较多的硬件冗余方式是传感器备份、设置多台计算机等。另一类冗余方式是利用系统中不同部件在功能上的冗余性来实现的, 这类冗余被称为解析冗余。基于解析冗余的容错控制在多个控制领域得到了应用, 如多翼多舵面的航天飞行器。这些功能冗余信息对容错控制器的设计与实现有着重大意义。

目前容错控制领域研究最多的是对系统执行器和传感器故障的容错控制。实际系统中, 执行器和传感器的故障模式包括部分失效、中断、偏移和卡死。其中最为严重的故障为卡死故障。它还可以细分为常值卡死和时变卡死。其中时变卡死还可以分为参数化卡死和非参数化卡死。非参数化卡死是一类不能用方程描述的未知卡死故障, 它包含了常值卡死和参数化卡死。因此, 容错控制问题如果解决了非参数化卡死故障, 则其他故障也能顺其自然地被解决。另外, 容错控制系统设计中需要考虑两大问题, 即性能优化和动态补偿。这两大问题相互对立, 故障的动态补偿会使系统的性能下降, 因此, 如何协调系统性能和故障补偿是一个值得深究的问题。针对系统可能发生的故障模式, 通过合理设计控制器同时补偿时变失效、中断、偏移和非参数化卡死故障问题, 以及系统的干扰抑制问题和优化不同模式下的性能问题, 将对系统容错控制的解决有较大的实际意义。

另一方面, 随着控制系统日趋复杂和网络技术的不断发展, 实际工作控制系统中出现了各种子系统关联的大系统。这些系统由大量空间分布的关联单元组成, 每个单元都有自己的传感器和执行器输入/输出信号。因此, 此类大系统中有大量的传感器和执行器输入/输出信号, 如造纸工业、微机电系统、自动高速公路系统、飞行器编队系统和流量控制系统等。由于子系统关联通道传递着各个子系统的信息, 对整个复杂系统的安全性起到至关重要的作用, 因此对关联链接的容错也极其有意义。加之复杂系统中执行器的大量分布, 执行器故障不可避免, 容错系统的设计就更加重要。研究表明, 关联网络与系统的稳定性、同步性和收敛性有着密切关系。在网络化复杂系统情况下, 整个网络的一致同步由网络拓扑结构和耦合强度保证, 如果网络处于非理性状态甚至发生网络恶化情况, 整个动态网络极有可能失去一致同步性。因此对动态网络的容错也是研究重点之一。容错控制在网络化复杂系统中正在发生深刻的变化。

综上所述, 当前容错控制系统的研究目的在于利用系统的冗余条件,设计合适的控制机构, 解决系统执行器、传感器、系统本身和关联链接等机构的各类故障的自动补偿和抑制, 以及不同故障模式下的性能优化问题。

三、概述

随着科技的发展和人类各方面需求的不断提高,人们对控制系统运行的效率、精度、时间和强度要求越来越高。为了实现系统运行的高效性和多应用性,系统结构的设计越来越精妙和细致。而这带来的是复杂且繁多的系统元件组合,执行器、传感器和连接部件在空间上大量分布和应用。为了保证系统在长时间高强度运行下的精度和安全可靠性,容错控制（Fault-tolerantControl,FTC）策略的构造就成为复杂工程系统设计的重要部分。

容错控制系统的特点表现在当系统执行器、传感器、控制器、对象本身等系统各类组成元件发生故障时,系统的安全运行仍然得到保障并能保持满意性能。一方面,执行器和传感器作为系统运行驱动元件及信息获取和发送元件,故障的发生和解决已经得到人们的极大关注；另一方面,随着工业制造的复杂化和生产目标的多元化,各个子系统通过网络或关联链接互相传递信息,对关联链接安全可靠性的研究也随之进入容错控制领域。容错控制系统的研究也面临着新的挑战。

从20世纪70年代系统完整性被提出以来,容错控制的发展已经历了四十多年。在其理论研究中,容错控制系统设计方法分为基于鲁棒控制技术的被动容错控制方法和基于故障补偿技术的主动容错控制方法。两者重点描述容错控制系统的全局特征和实时动态特征。现有的针对预判故障的传统被动容错设计方法在维数较低、故障源较少的简单控制系统中有较好的应用。其具体的应用实例可以在液位系统、倒立摆系统、质量-弹簧-阻尼系统,以及经过解耦降维的飞控系统上实现。但对于系统维数高且故障源较多的结构复杂系统,被动容错方法设计的容错控制策略较为保守,并不能保证系统在合理性能下运行,甚至会由于遗漏可能发生的故障模式而计算得到错误控制策略,导致系统发生故障时崩溃。更需要指出的是,被动容错控制方法仅仅对有限的故障模型,如中断、部分失效等有较好效果,它并不具备补偿严重故障（如偏移、卡死等故障）的能力。因此,不需要预判故障,而通过在线调节控制器参数或重构控制器的主动容错控制就成为人们重点研究的方法。

主动容错控制中基于故障检测与分离（FaultDetectionandIsolation, FDI）技术的控制方法和基于自适应技术的控制方法是研究最为广泛的方法。其中基于FDI方法的容错控制策略由于其高效性和较高的应用价值,近年来备受学者的青睐。它的设计依赖于故障诊断机构的诊断结果,其更为重要的意义在于设计故障诊断机构正确及时地诊断出故障信号。因此,在这类主动容错控制中,控制器的重组（Reconfiguration）或控制系统的重构（Reconstruction）需要FDI子系统提供精确及时的故障信息,从而构造有效的容错控制策略。但故障诊断机构的诊断会受到外部扰动、时滞、系统模型不精确性及其他环境因素的影响,给出不够精确甚至错误的故障诊断信号。显然,应用误诊的故障信号重组或重构容错策略控制系统会给系统带来灾难性的破坏。所以,另一类不需要精确故障信息的主动容错控制方法——自适应方法迅速成为学者们研究的热点。自适应技术可以获取未知参数每个时刻的估计信息,且控制增益可以响应参数的变化而实时变化。根据此特点,在故障未知的情况下,利用自适应技术估计故障信号代替故障诊断机构的诊断信号,再应用估计信号作为间接信号辅助构造容错控制策略。因此,与基于FDI技术的容错控制方法不同,基于自适应技术的容错控制策略不需要估计准确的故障信息,对容错控制系统也更能保证它的可靠性。

四、发展概况

容错控制问题的提出由来已久, 而随着计算机技术的发展和控制理论的成熟, 容错控制的发展在四十多年来有目共睹。学者Niederlinski 早在1971年即提出完整性控制 (Integral Control) 的概念, 将容错控制思想引入控制系统中。接着Siljak于1980年发表了关于可靠镇定的文章，意味着容错控制发展成一种高可靠技术。1985年, Eterno等人将容错控制进行分类, 进一步完善容错控制体制。1986年9月, 美国国家科学基金会和美国电气和电子工程师协会 (IEEE) 控制系统学会在美国加州桑塔卡拉(Santa Clara) 大学联合召开了关于控制所面临的机遇与挑战的讨论会, 参加这次会议的有全世界最著名的52位控制理论与应用专家, 他们在一份提交给大会的报告中, 把容错控制列为当今和未来7 个挑战性课题之一。在1993年和1997年, Patton教授撰写了容错控制方面比较有代表性的综述文章, 全面阐述了容错控制所面临的问题和基本的解决方案。国际自动控制界对容错控制的发展给予了高度重视。在国际上, 1993年成立了IFAC技术过程故障诊断与安全性技术委员会。从1991年起IFAC每三年召开一次故障检测与诊断和容错控制方面的国际专题学术会议。近年来, 许多国际会议如2007年IEEE CCA等针对容错控制的应用设立了专题报告。最近, 一些综述文献全面解析了容错控制发展中所出现的方法, 并进行了相应的比较。我国在容错控制理论上的研究基本上与国外同步, 并且我国学者不论在容错控制领域的理论研究还是实际应用方面都有杰出的贡献。张翰英教授在1986年就发表论文提出必须加速发展实用性容错系统研究。1987年叶银忠等就发表了容错控制的论文, 并于次年发表了这方面的第一篇综述文章。此后, 我国学者周东华、程一、葛建华、胡寿松等又将容错技术用于动态系统及传感器失效研究。1994年葛建华等出版了我国第一部容错控制的学术专著。近二十年来, 国内陆续出版了多本关于故障诊断和容错控制的专著还发表了大量的综述性文章。

在容错控制的发展历程中, Eterno等人在1985年将容错控制分为主动容错控制 (Active FTC) 和被动容错控制 (Passive FTC), 如今这已成为现代容错控制研究方法分类的依据。被动容错控制基于鲁棒控制技术, 不需要任何在线的故障信息, 只针对预知的故障设计一个固定控制器来确保闭环系统对故障不敏感, 保持系统的稳定和性能。而主动容错控制一方面可以直接利用在线的故障诊断信息, 通过诊断信号在线选择或重构/重组控制器以保证故障发生后系统的稳定性和性能指标；另一方面, 也可以利用间接的故障估计信号或者故障所产生的系统变化, 在线调节控制信号, 保持系统稳定性。被动容错控制和主动容错控制各有其特点, 前者重点描述系统的全局特征并优化系统性能, 而后者则侧重于描述系统的实时动态特征, 补偿故障影响。两者在实际系统中都有相关的应用。

长按二维码识别关注我们

查看全文

您现在的位置是：首页 > 技术阅读 > 容错控制系统概述