编辑 | 南柯归洵

序言

人工智能最终形态?多目标实时灵活调解未来的智能车间有多牛?_目的_算法 智能写作

智能制造是新科学革命的核心,它可以通过利用信息技能来实现生产力的快速发展,来办理能源花费等社会问题。

数字化、网络化、智能化制造则是我们未来的发展方向,实在质上是基于信息物理生产系统(CPPS)的“智能车间”。

就像制造业从业者们常说的,机床是装备制造业的“母舰”,没有机床的智能化就不可能实现智能制造。

智能化的机床在未来真的会如此主要吗?未来的人工智能机床又会是什么样?

智能工厂

当代工厂已经与基于企业资源方案(ERP)、制造实行系统(MES)和过程掌握系统(PCS)的构做作为原型和制造运营管理(MOM)的构造紧密结合,个中也包括生产,掩护,质量,库存等。

并且随着云打算、物联网、大数据、机器学习和其他前辈技能的发展,机床车间变得越来越灵巧和智能。

不过由于机器人、数控机床、堆垛机和传感器等自动化硬件与智能MOM、可视化系统(WVS)和物流管理系统(WMS)软件的广泛组合和深度渗透,终极肯定会导致制造车间具有自主感知、剖析、决策和处理的能力。

参照2019年的标准中提到数字化车间系统构造,我们构建了集物理生产、数据采集、配方掌握、实行流程为一体的智能车间系统。

智能齿轮车间的模型架构。

由于车间实现柔性生产所需的生产办法动态配置,智能制造的核心MES是智能化转型的焦点,其他功能需求可以在此根本上扩展,我们将基于MES中柔性作业车间调度问题(FJSP)的决策来活动。

在剖析了当前调度算法面临的寻衅,并供应了理论和实践办理方案之后,我们便准备以实时智能匹配车间分散的资源(人力、材料、加工设备等),以知足多样化的需求。

与经典的作业车间调度问题(JSP)比较,FJSP打破了生产资源的唯一性限定,其通过通过实时监控、数据采集、机床加工以及快速变革的智能车间生产状态,优化提高了生产效率的同时还降落了本钱。

FJSP呈现出以下特点,首先便是生产动态:在发生各种不愿定事宜,如随机作业到达、机器故障和交货日期变革,之后所有这些都须要重新安排以适应生产环境中的动态变革。

其次便是人机交互约束,在办理生产调度时,决策者对订单安排和生产目标有偏好,没有全息建模,突发事宜的处理仍旧须要决策者的主不雅观见地和判断。

目前求解动态FJSP(DFJSP)的传统方法紧张是启示式和元启示式算法,启示式方法虽然大略高效,但只适用于不同类型的调度问题和生产目标的调度规则不同。

而遗传算法(GA)和粒子群算法等元启示式方法,则通过并行搜索和迭代搜索提高了求解质量,不过其时间繁芜度较差,不具备智能车间实时调度优化所需的特性。

随着人工智能和机器学习的进步,有学者提出利用韶光差分算法办理了JSP,这是强化学习(RL)首次运用于调度领域,利用RL办理调度问题的核心思想是将动态调度过程转换为马尔可夫决策过程(MDP)。

当工序完成或发生随机事宜时,根据生产状态确定调度规则,由于不同的生产目标对应不同的褒奖函数和调度规则。

而传统的强化学习无法同时优化所有目标来办理多目标DFJSP(MODFJSP),分层强化学习(HRL)长期以来一贯有望学习这种繁芜的任务。

个中策略层次构造被演习为在不同时空抽象级别实行决策和掌握,调度代理利用两层策略进行演习,个中较高等别的掌握器在较永劫光范围内学习目标策略,而较低级别的实行器将原子操作运用于生产环境以知足临时目标。

以是HRL从长远来看可以最大化外部累积回报,同时考虑到多个生产目标,实现令人满意的折衷方案。

实际生产环境

在机床加工的实际生产环境中,产品的快速完成会导致更高的库存压力,而延迟完成事情会导致经济丢失,并且机器总负荷不仅影响财务本钱,还涉及节能减排。

针对智能车间多目标灵巧调度的实时优化与决策,有人提出一种HRL方法,求解考虑随机作业到达的MODFJSP,以只管即便减少对早到、迟到和机器总负荷的惩罚。

他人的办理方案

为了实时智能匹配智能车间分散的生产资源,越来越多的研究职员和从业者开始关注RL算法、软件和框架来办理生产调度问题。

有学者运用Q学习来研究流程作业车间调度问题(FSP)的最短完成韶光,他等人在纺织工业的背景下,利用多个深度Q网络(DQN)代理办理了动态FSP(DFSP)的最小本钱和能耗。

还有学者通过Q学习求解了动态JSP(DJSP),以最小化均匀流韶光,动态调度变量邻域搜索算法的参数。

同时也有学者提出了一个设计、实现和评估策略RL的框架,以办理具有订单动态到达的JSP,从而最大限度地提高机器利用率的同时,最小化订单交付韶光。

不过也有人选择利用双Q学习代理求解了具有随机汇编韶光的汇编JSP,以实现最小的总加权早序惩罚和完成韶光,个中顶层代理专注于调度策略,底层代理优化全局目标。

而另一部分学者则选择智能软件产品来办理具有新作业插入的部分FJSP,他们通过利用Q学习算法来最小化制作跨度。

一部分学者提出了一种两层深度强化学习模型,个中高等DDQN确定优化目标,低级DDQN选择调度规则,以最小的总延迟和最大的均匀机器利用率求解FJSP。

而另一部分学者提出了一个多智能体系统,并运用多个独立的DDQN智能体来办理机器人装置生产单元中的FJSP,随机作业到达,以最小化制造韶光。

动态生产调度问题的现有强化学习方法

逼迫状态离散化

从这些人的成果来看,我们的目标紧张集中在利用RL求解单目标DFSP、DJSP和DFJSP,利用RL求解多目标DFJSPs尚未在研究中得到深入探索。

然而利用具有线性值函数近似的RL,会导致在处理连续状态问题时逼迫状态离散化,对环境的风雅感知导致离散状态数量的爆炸式增长,模型的打算哀求大幅增加,终极导致代理学习速率降落。

因此为了降落打算繁芜度,大略离散化会丢弃一些关于域构造状态的关键信息,终极影响代理决策的质量。

但是由于没有一个启示式规则能够在所有生产调度问题中表现良好,以是通过增加调度规则的数量来扩展动作空间,并运用DDQN和DDDQN分层强化学习相结合的办法求解MODFJSP,一样平常只能用来提高算法的学习效率和泛化。

我们对调度代理的演习过程、超参数的设置,以及多目标优化方面的三个性能指标进行了研究,然后比较了DDDQN和DDQN之间的学习率,以及所提出的HRL算法与每个动作调度规则的性能比较。

之后为了证明HRL算法的有效性、通用性和效率,我们将其与其他RL算法,元启示式算法和启示式算法进行了比较。

只管这些算法具有不同的生产配置,但为了进一步验证所提方法的泛化,我们还是在一组具有更大生产配置的新扩展实例上,测试了经由演习的操持代理。

末了我们得出了一个结论,FIFO和SSO虽然效率很高,但它们的求解质量和泛化性较差。

GA也不表现出实时特性,并且分层强化学习(HRL和DDHRL)和传统强化学习(DDDQN和SARSA)的韶光繁芜度大致相同,但所提出的HRL算法在有效性和泛化方面明显优于传统强化学习。

同时考虑到测试实例中的作业数量,HRL在低规格PC上的均匀调度韶光为0.66秒,在更大的打算能力的支持下,可以达到毫秒级乃至更短的水平,以是HRL展示了在智能车间中实时优化调度的能力。

因此总体来说,我们提出的HRL算法在有效性和泛化性方面明显优于其他6种方法,并具他还是一种具有实时性,HRL以半MDP的形式办理了多目标调度问题,个中高等策略根据生产状态确定临时目标。

低级策略根据状态和临时目标确定正在进行的动作,以是HRL演习的分层深度神经网络在重新调度点具有多目标学习和决策能力,更加有效、鲁棒、广义、高效。

结论

这次我们通过引入HRL方法,来求解智能机床加工车间随机作业到达的多目标动态FJSP,以知足最小化早到、迟到和机器总负荷的双重目标。

同时在建立数学模型的根本上,构建了MODFJSP的DDQN和DDDQN双层次组合架构,并据此设计了连续状态特色、大动作空间调度规则以及外部和内部褒奖。

而且由于决策者对生产目标的偏好,也可以通过人机交互作为状态特色集成到HRL算法中,以是通过自适应学习可以让目标高效探索调度规则空间。

这些都建立在HRL的代理不仅可以实时进行调度,而且可以长期考虑不同目标的根本上,以是才能达到令人满意的方案。

如果你喜好我的写的文章,麻烦请点个“关注”,欢迎在评论区与我一同磋商,感激。

END