持续学习：持续协调是终身学习的现实场景

博客小编 (84) 2024-08-08 19:01:01

题目：Continuous Coordination As a Realistic Scenario for Lifelong Learning

出处：International Conference on Machine Learning（ICML，2021），深度学习顶级会议。

摘要：当前的深度强化学习（RL）算法仍然具有高度的任务特异性，缺乏推广到新环境的能力。然而，终身学习（LLL）的目标是通过在任务之间有效地传递和使用知识，依次解决多个任务。尽管近年来对终身学习的兴趣激增，但由于缺乏现实的测试平台，难以对LLL算法进行稳健评估。另一方面，由于多智能体强化学习（MARL）的非平稳性，可以将其视为终身RL的自然场景，因为智能体的策略会随着时间的推移而变化。在这项工作中，我们介绍了一个多agent终身学习测试平台，它支持zero-shot和few-shot设置。我们的设置基于Hanabi，这是一种部分可观察、完全合作的多智能体游戏，已被证明对zero-shot协调具有挑战性。其巨大的战略空间使其成为终身RL任务的理想环境。我们评估了几种最新的MARL方法，并在有限的内存和计算机制中对最先进的LLL算法进行了基准测试，以阐明其优缺点。这种持续学习范式还为我们提供了一种超越集中式训练的实用方法，集中式训练是MARL中最常用的训练方法。我们的经验表明，在我们的设置中训练的智能体能够与看不见的智能体很好地协调，而无需之前的工作做出任何额外的假设。

1，引言

深度强化学习（RL）显示出在一些狭窄且定义明确的任务上实现超人绩效的巨大潜力（Mnih等人，2013年；Silver等人，2018年）。相反，人类可以快速、持续地学习新任务，同时保持解决以前学习过的任务的技能。人工智能系统随着时间的推移有效更新新信息的能力被称为终身学习（LLL）或持续学习，人们可以假设这是普通人工智能的基本要素之一。平衡从最近的经验中学习，同时不忘记从过去获得的知识，这是一个被广泛研究的问题，称为稳定性塑性困境（Carpenter&Grossberg，1987）。灾难性获取是一种用新信息训练模型会阻碍先前学习的知识的现象。这是训练神经网络以适应新任务或从非平稳数据流（即非iid）学习的常见故障（McCloskey&Cohen，1989）。在现实世界中，输入分布可能会发生变化，并且无法对过去的数据或从头开始进行再训练的情况下，消除灾难性遗忘对于实现这些应用至关重要。虽然数十年前，终身学习已被确定为一个重要且具有挑战性的问题（Thrun，1998；Ring，1998），但随着深度学习的成功，人们最近对它的兴趣激增（Lopez Paz&Ran-zato，2017；Chaudhry et al.，2018b；2019；Kirkpatrick et al.，2017；Aljundi et al.，2018）。

已经提出了一些标准基准来评估新的LLL方法，主要用于监督学习环境，如置换MNIST（Goodfello等人，2013年）、拆分MNIST/CUB/CIFAR（Zenke等人，2017年；Chaudhry等人，2018b）。使用MNIST等数据集作为数据源的一个基本问题是，缺乏由此产生的任务复杂性，尤其是在现代网络容量较大的情况下。当前大多数LLL基准的另一个问题是，任务之间的关系无法轻易量化。因此，大多数评估工作主要侧重于减轻灾难性遗忘，而理想的LLL系统还应衡量前向和后向迁移。最近的一些工作显示了LLL基准的界限（Antoniou等人，2020年；Roady等人，2020年）。例如，研究表明，经过持续训练后，仅使用情景记忆中的样本从零开始训练模型的性能与大多数基准的专门设计LLL解决方案相当（Prabhu et al.，2020）。通过提出更具挑战性的基准来解决这一问题，如CORe50（Lomonaco&Mal-toni，2017）、CRIB（Stojanov et al.，2019）、OpenLoris（Shi et al.，2020）、Stream51（Roady et al.，2020）和IIRC（Ab-delsalam et al.，2020）。

RL自然适合研究LLL，因为它提供了一种智能体-环境交互范式，其中智能体暴露于非固定数据流（Kaplanis et al.，2018；2019）。然而，缺乏成熟的基准来研究终身学习的进展。这些基准大多是针对标准RL环境的手工定制（Bellemare等人，2013；Brockman等人，2016），将合成非平稳性添加到环境中（Henderson等人，2017；al Shedivat等人，2017），或按顺序订购一些完全不相关的环境（Xu等人，2020），以促进LLL性能的评估（例如，在（Kirk-patrick等人，2017年）中使用的Atari随机序列）。为特定终身RL问题设计过度定制的实验可能会在研究中产生不必要的偏见（Khetapal等人，2020年）。

在这项工作中，我们提出了一种基于Hanabi（Bard et al.，2020）的新的终身RL设置，称为终身Hanabi。Hanabi是一个部分可观察、完全合作的多智能体游戏，由2-5名玩家组成。在我们的设置中，一个智能体（学习者）与一组伙伴（任务）按顺序进行训练。学员及其合作伙伴从大量预先训练的智能体中抽取（>100）。预训练池由使用不同MARL方法训练的智能体组成，如独立Q学习（IQL）（Tan，1993），价值分解网络（VDN）（Sunehag et al.，2017），简化动作解码器（SAD）（Hu&Foerster，2019），其他播放（OP）（Hu et al.，2020），每种方法都有不同的架构和种子，在Han-abi中表现良好。Bard等人（2020年）表明，即使使用相同的MARL训练，但不同的种子也无法在零射击场景中学习合作，因此表明这些智能体会收敛到不同的策略。Hanabi的这一巨大战略空间使其成为LLL的理想场景。可以通过交叉游戏（CP）矩阵（Bard et al.，2020）来测量智能体在战略空间中的距离，该矩阵包含通过智能体配对获得的游戏性得分。CP分数可以作为终身Hanabi中任务与设计任务相似性的智能体。

我们的贡献如下：

我们提出了一个新的终身强化学习基准，该基准具有以下可取的特性：（1）它对最先进的（SOTA）终身学习算法具有挑战性，（2）通过CP矩阵量化任务之间的关系很简单，（3）它很容易扩展到不同任务的长序列，而无需任何合成修改。

我们在此基准上评估了有限内存和计算机制下的最新LLL算法，并重点分析了它们的优势和局限性。

即使与使用不同于学习者的MARL方法训练的智能体进行协调，我们在Hanabi的零炮协调方面也取得了相当的表现，没有任何额外的假设，例如利用手工对称（Hu等人，2020年）或接触其他智能体的贪婪行为或策略（Hu&Foerster，2019年）。

2，相关工作

在本节中，我们将概述现有的终身RL基准。我们还将回顾最近的MARL算法，因为我们的基准是基于一个具有挑战性的MARL问题。

2.1，终身强化学习基准

关于终身RL基准，Henderson et al.（2017）通过修改环境或智能体的某些方面，如重力、智能体身体形态或目标位置，为OpenAI gym环境提出了50种新的变化。Al Shedivat et Al.（2017）介绍了RoboSumo——一种基于MuJoCo物理模拟器的3D环境，允许成对的智能体相互竞争。这些机器人在生理上有所不同：腿的数量、位置以及对大腿和膝关节的约束。Lomonaco等人（2020年）基于VizDoom（Kempka等人，2016年）设计了CRLMaze，这是一项物体拾取LLL任务，由4种难度递增的场景（光线、纹理、物体、全部）和总共12张地图组成。虽然这些都是有趣的基准，但它们仍然需要对环境或智能体进行综合修改，以便引入非平稳性。最近，Coinrun（Cobbe et al.，2019）被提出，这是一种程序生成的环境，具有不同的训练和测试集来衡量RL中的泛化。Jelly Bean World（JBW）（Pla-tanios et al.，2020）是一个用于开发具有永无止境学习能力的智能体的测试平台。它支持创建具有广泛任务（包括多任务和多模式设置）的非固定环境。

2.2，多智能体强化学习

近年来，以分散执行（自我游戏）为训练范式的集中训练为基础的新型MARL算法取得了快速进展（Sunehag et al.，2017；Foerster et al.，2017；Hong et al.，2017；Foerster et al.，2019；Hu&Foerster，2019）。Sunehag等人（2017年）使用价值分解网络（VDN）学习分解联合状态行动价值转化为基于每个智能体的局部观察的智能体的Q值。贝叶斯行动解码器（BAD）（Foerster et al.，2019）及其简化版（SAD）（Hu&Foerster，2019）提出了公众信念MDP，并使用近似贝叶斯更新来处理部分可观察任务。Hong等人（2017年）的目标是通过从其他智能体的原始观察中学习政策特征来学习对手的模型。另一方面，Omidshafiei et al.（2017）是为数不多的分散式多智能体学习模型之一，这表明乐观的学习者可以学习样本有效的MARL策略。在开发更复杂的泥灰岩挑战方面也取得了进展。Stone等人（2010年）首次将即席团队工作挑战作为一项多智能体任务引入，其中，自主智能体需要与之前未知的队友合作，完成他们各自都能够作为团队成员做出贡献的任务，以及优秀即席球员的特征。最近，在Hanabi挑战赛（Bard et al.，2020）中，作者介绍了一种特殊场景，目的是让RL智能体适应与未知合作伙伴甚至人类的有效游戏。然而，SP智能体学会了在这种情况下无法合作的脆弱政策（Bard et al.，2020）。协作设置更能反映真实场景，如自动驾驶，对人工智能协作至关重要（Crandall et al.，2018）。从零射击协调的角度来看，与我们最接近的工作是其他游戏（Hu et al.，2020），它利用环境中的对称性，通过训练一个具有无序观察空间的自我游戏智能体。这一简单但很好的想法与添加辅助任务相结合，已被证明在训练能够与使用相同MARL方法训练的其他智能体协调的智能体时是有效的。然而，其他游戏仍然是一种自我游戏策略，需要事先了解游戏的对称性。在这项工作中，我们的目标是超越这些限制性假设，培养一个终身学习者，能够与看不见的智能体进行协调，同时不会忘记与以前的合作伙伴进行良好的合作。

3，多智能体强化学习和终身学习

MARL for LLL：许多机器学习算法都假设数据集中的观测值是相互依赖且独立同分布的（i.i.d）。然而，在许多实际场景中，由于底层数据分布是非平稳的，因此违反了这一假设。终身学习试图解决这个问题，其中数据的非平稳性通常被描述为一系列不同的任务。另一方面，由于环境中其他介质的行为发生变化，MARL本质上是不稳定的。因此，MARL是LLL的现实场景。当智能体在其生命周期内必须与不同智能体交互时，即使其他智能体是固定的，MARL中的另一个非平稳性来源也会出现。例如，在Hanabi游戏中，我们感兴趣的是设计一个单独的智能体，该智能体可以学习如何在其生命周期内与一系列智能体很好地协调。这是一个终身学习的问题。

LLL for MARL：标准MARL方法通常侧重于集中训练和分散执行设置，其中智能体可以在训练期间访问其他智能体的策略和观察结果（Zhang等人，2019）。自我游戏（SP）（Tesauro，1995）是最常见的集中训练环境，它包括训练一个单独的智能体对抗自己，而不需要任何额外的监督。虽然这一策略在竞争环境（如玩围棋）中效果很好（Silver等人，2016），但在合作环境中，它可以产生建立高度专业化惯例的智能体，而不会延续到他们没有接受过训练的新合作伙伴（Bard等人，2020）。特别是，Bard等人（2020年）表明，尽管RL智能体在SP环境下训练后取得了不错的成绩，但在零炮协同场景中，他们的表现急剧下降，一些智能体的得分基本为零。因此，SP智能体无法学习促进与其他智能体合作的稳健策略。终身学习提供了一个自然的框架，将知识从以前的经验转移到未来的情形。因此，在本文中，我们将终身学习视为MARL中自我游戏的一种替代方法，希望终身学习算法能够学会与看不见的智能体很好地协调。

4，终身Hanabi：终身强化学习的基准

在本节中，我们将介绍基于Hanabi的终身强化学习基准。Hanabi（Bard et al.，2020）是一款部分可观察、完全合作的多智能体游戏，由2-5名玩家组成。每个玩家都可以观察其他玩家的手，除了他/她自己的手，这是一个部分可观察的游戏。游戏的目标是形成各自颜色的有序牌堆（烟花）。玩家可以通过动作隐式沟通，也可以通过数量有限的提示显式沟通。因此，Hanabi是一个具有挑战性的游戏，需要智能体具备心理理论（Premack&Woodruff，1978；Rabinowitz et al.，2018），以便有效合作。心灵理论是一个主体通过其他主体的视角看世界的能力。我们的目标是设计一种训练范式，可以学习零射和少射与隐形智能体的协调。为此，我们从最近的不变风险最小化（IRM）（Arjovsky et al.，2019）中得到启发，该算法通过在多个环境中训练算法来改进分布外（OOD）泛化。MARL自然地提供了这样一个环境，而不需要手工设计不同的特性来产生一组不同的环境。

如图1所示，在我们的终身RL设置中，学员（“ptrain”）按顺序接受一组任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第1张$ 的训练从Hanabi中表现良好的各种策略的分布P训练中抽取样本。学习者的目标是在持续训练期间学会与合作伙伴良好协调，最终目标是在训练结束时学会与看不见的智能体良好协调。在测试阶段，为了衡量泛化表现，对学习者进行评估，包括从ptest中随机抽取一些智能体。虽然我们在这项工作中考虑了完全合作博弈，但我们提出的终身RL设置可以很容易地扩展到其他多智能体场景（例如完全竞争、混合合作竞争等）。我们建议的设置包括三个阶段：（1）预训练，（2）持续训练和（3）测试。各阶段的详细说明如下：

图1：我们的终身Hanabi设置包括三个阶段：1-预训练（可选）：在此阶段，通过SP对一组智能体进行训练，2-持续训练：从学员库（“ptrain”）中挑选学员，与一些合作伙伴（“ptrain”）按顺序进行训练，并定期对所有合作伙伴进行评估，3-测试：使用一组随机智能体（不包括其合作伙伴）（“ptest”）对学习者进行评估，以衡量泛化程度。

预训练：在这一阶段，通过SP训练智能体玩Hanabi游戏。我们考虑了几种最新的MARL方法，用于跨不同的种子和体系结构训练智能体（IQL/VDN/OP/SAD及其组合），从而形成一个具有不同策略的智能体库。

持续训练：从池中抽样的一个智能体被选为学习者，并与一组智能体（合作伙伴）按顺序进行训练，每个合作伙伴进行固定数量的游戏。在零炮和少炮两种设置下，学习者也会与其所有伙伴定期进行评估。为了实现基于内存的LLL算法（ER、A-GEM等），我们还包括一个情景内存，用于存储每个任务的一些转换，然后可以用于在未来的任务中重播。

测试：为了衡量泛化性能，学习者使用从池中抽取的K个随机智能体（不包括其伙伴）进行评估。

4.1，进化方法

在我们的设置中，我们考虑两种评估模式：（a）zero-shot和（b）few-shot。在zero-shot设置中，学习者 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第3张$ 与另一个智能体进行评估，而不提供机会与另一个智能体的交互来更新自己的策略。另一方面，在few-shot设置中，学习者在被评估之前与另一个智能体玩一些游戏，从而通过交互调整其策略。我们认为，在这两种评估设置下表现良好的智能体对于开发人工智能系统至关重要，该系统不仅可以很好地适应Hanabi的未知合作伙伴，还可以促进与人类的有效合作。少数镜头评估设置也为探索Meta-RL算法的最新进展打开了一扇门，以实现快速自适应。

4.2，指标

我们使用LLL理论中的一些标准指标，如平均分数（A）、遗忘（F）和前向转移（FT），来衡量学员在持续训练期间的表现（Lopez Paz&Ranzato，2017；Chaudhry et al.，2018a）。受Zhang等人（2018）的启发，我们还在我们的设置中定义了一个衡量OOD一般化的指标，称为一般化改进分数（GIS）。为了计算这些指标，我们将游戏结束时的Hanabi得分从[0，25]映射到[0，1]，以获得与文献更一致的值。

平均得分 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第4张$ ：在与第 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第5张$ 个合作伙伴进行顺序训练后，让 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第6张$ 为学习者与第 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第3张$ 个合作伙伴的得分。学习者在任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第8张$ 中的平均得分定义为：

$持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第9张$

遗忘 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第10张$ ：让 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第11张$ 表示学习者在任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第12张$ 训练后对任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第3张$ 的遗忘表示为：

$持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第14张$

未来平均得分 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第15张$ ：在与第 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第5张$ 个合作伙伴进行顺序训练后，让 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第6张$ 为学习者与第 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第3张$ 个合作伙伴的得分。学习者在任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第19张$ 中的未来平均得分（或前向迁移）定义为：

$持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第20张$

概括改进得分 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第21张$ ：将任务内泛化定义为同一模拟器生成的一组训练和测试轨迹之间的RL算法性能差异。在这种情况下，唯一的变异来源是通过随机种子。然而，在我们的工作中，我们更感兴趣的是任务外泛化，可以定义如下。让 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第22张$ 和 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第23张$ 分别是学习者在LLL开始之前和连续训练结束时对从池中抽取的第 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第24张$ 个随机智能体（不同于其伙伴）的得分（T是LLL中的任务数）。GIS计算如下：

$持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第25张$ ，其中 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第26张$ 是不可见智能体的总数。

5，实验

图2：持续训练前（左）和持续训练后（右）的CP分数，jqth元素是智能体 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第5张$ 和 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第3张$ 配对的平均分数。[A-C]是持续训练前—（A）学习者与其合作伙伴的初始分数，（B）合作伙伴之间的交叉游戏分数，低分数表明他们在策略空间中相距甚远，（C）与一些看不见的agent的初始概括分数。然后，按照箭头指示的顺序，与合作伙伴一起对学员进行持续训练。【D-E】是在持续训练之后—（D）与原始学习者及其合作伙伴的得分，（E）与相同的看不见的智能体的概括得分。

图2展示了持续训练如何提高分数和更好的zero-shot协调。IQL智能体（通过自我游戏预先训练）与5个合作伙伴按顺序进行训练（图2中箭头所示的顺序），然后与连续训练中看到的两个合作伙伴以及一些看不见的智能体（SAD+AUX+OP，VDN+AUX）进行评估。图2中的（C）和（E）节分别显示了IQL智能体在持续训练前后对未看到智能体的性能，清楚地表明了OOD的泛化。同样，第（A）节和第（D）节分别显示了其合作伙伴在持续训练中训练前后的表现。

如第4节所述，我们首先对一组智能体进行预训练，以通过SP玩Hanabi游戏。我们的RL智能体基于R2D2架构（Kapturowski et al.，2018），即基于RNN的DQN智能体。这些SP智能体学习的策略的多样性是通过改变种子、用于训练的MARL方法（IQL/VDN/OP/SAD及其组合）、复发类型（LSTM/GRU）、复发层数和维度、复发前前馈层数和维度来控制。附录B中描述了具体的体系结构细节。通过这种方式创建了一个由100多个SP智能体组成的池。使用这10种MARL方法中的每种方法中的100个智能体和10个智能体的子集来生成交叉游戏（CP）矩阵，如附录A所示。该矩阵中的条目（对角线条目表示自我游戏分数）是通过智能体在5k游戏中的相互游戏获得的，然后对分数进行平均。

根据这些分数，我们提出了两个难度不同的任务级别：简单和困难。在这两种设置中，其中一个智能体用作学习者，其余智能体用作其合作伙伴，这些合作伙伴在持续训练期间固定不变，即他们代表不同的任务，因为这些智能体具有不同的策略。学习者及其合作伙伴都是通过预先训练的智能体的权重来初始化的，因为我们发现预先训练对于学习Hanabi的一些基本知识至关重要。这些任务的名称是不言而喻的，因为硬版本的学习者必须从一个低得多的交叉游戏分数开始，并学习获得一个好的最终分数（25分）。在持续训练期间，学员将与每个合作伙伴一起接受固定次数的连续训练，并与所有合作伙伴一起定期评估在零炮和少炮设置下。在零炮设置中，学习者与其所有伙伴直接进行评估，而在少拍设置中，学习者与其伙伴微调几个梯度步骤，然后再与同一伙伴进行评估。在这两种设置中，分数都是根据超过5公里的平均游戏量来报告的。

虽然硬设置和简单设置由五项任务组成，但通过从预训练池中选择不同数量的合作伙伴，我们的设置可以轻松扩展到任意数量的任务，预训练池可以通过SP训练更多智能体来扩展。例如，我们在第5.3节和附录C中报告了10项任务的结果。请注意，为了选择合作伙伴，我们将所有使用SAD或AUX的智能体从预先训练的人才库中排除，因为我们希望在零射击协调方面将持续训练的学员与他们进行比较。我们还希望选择CP分数较低的合作伙伴，以便任务多样化。

R2D2智能体将最近的游戏转换保存在固定大小的优先重播缓冲区中（Schaul等人，2015）。在每个任务结束时，重播缓冲区被切片并存储在情节内存中，然后在我们的基准测试中考虑的基于不同内存的LLL算法中用于重播。学习者也可以从随机参数开始（即无需预先训练），尽管这种设置对于Hanabi游戏来说非常困难。

我们旨在通过实验回答以下问题：（1）标准LLL算法在我们的设置中表现如何（第5.1节），（2）这些LLL算法在受限内存和计算设置下表现如何（第5.2节），（3）终身RL方法在我们的设置中表现如何（第5.3节），（4）与OP等其他最新方法相比，在我们的设置中训练的智能体在Hanabi的零炮和少炮协调场景中表现如何（第5.4节）（Hu等人，2020）。

5.1，终身学习基准

我们实现了一些基于回放和正则化的标准LLL算法。

Navie：这是最简单的算法，在该算法中，学习者在后续任务中按顺序进行训练，从前一个任务结束时的学习参数开始，没有任何情节记忆或规则化。

Experience Replay (ER)：我们遵循（Chaudhry et al.，2019）中描述的程序来实施ER。我们从当前任务中抽取一个小批量Bk样本（学习者在其中与合作伙伴k一起玩），并抽取一个小批量Bm样本，该小批量Bm样本由之前所有任务中相同数量的样本共同组成。这些小批次被堆叠起来，并使用单个渐变步骤来更新学习者。我们的实施与（Chaudhry et al.，2019）中描述的环形缓冲区策略非常相似，因为在对Bm进行采样时，所有之前的任务都有相同的表示，尽管每个任务中的样本本身都有优先级。

Averaged Gradient Episodic Memory (A-GEM)：按照（Chaudhry等人，2018b）中的描述对小批量 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第30张$ 和 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第31张$ 进行取样，类似于ER。首先计算这些小批次对应的梯度，分别用 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第32张$ 和 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第33张$ 表示。如果 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第34张$ ，则直接使用当前任务 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第32张$ 的梯度来更新学习者的参数，而如果 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第36张$ ，则首先对 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第32张$ 进行投影，以便在更新学习者之前使 $持续学习：持续协调是终身学习的现实场景 (https://mushiming.com/) 第38张$ 。此投影确保了之前任务的平均损失不会增加。

Elastic Weight Consolidation (EWC)：EWC是一种基于正则化的技术，旨在通过有选择地降低权重的可塑性来缓解应激性遗忘，其灵感来自贝叶斯方法（Kirk-patrick et al.，2017）。EWC使用Fisher信息矩阵作为学习权重重要性的替代，并将其用于梯度更新。离线EWC对每个任务使用一个Fisher矩阵，因此正则化项的数量随任务数量线性增加，而在线EWC（Schwarz et al.，2018）仅使用一个基于所有先前任务计算的Fisher矩阵。我们在基准测试中考虑了这两种变体。

Stable naive/ER/A-GEM/EWC：Mirzadeh等人（2020）表明，灾难性遗忘可以通过精心设计训练机制来缓解，如学习率下降、批量大小、辍学率和优化器，可以扩大任务的局部极小值。具有这些最佳选择的结果模型称为“稳定”。特别是，我们认为如果使用更大的批次，指数学习率衰减、退出（R2D2中的前馈层或递归层）和SGD优化器有助于改进持续训练，从而提高最终性能，并推广到看不见的代理。

Multi-Task Learning (MTL)：在此设置中，有一个通用的重播缓冲区，其中包含学习者与其所有伙伴交互的体验。从该常见重播缓冲区采集的小批量样本用于训练学习者。这是我们基准中可实现性能的上限。

我们可以从图3和表1中观察到，在LLL算法中，使用Adam的在线EWC在零炮和少炮两种情况下的平均得分都最好，而使用SGD的ER的遗忘得分最低。表1还显示了优化器对不同LLL算法的影响。平均而言，带有SGD的LLL算法往往具有相对较少的遗忘和更好的零炮性能。我们可以从图4中推断，使用Adam有助于快速适应当前任务，尽管代价是更大的遗忘。

图3：使用Adam optimizer的不同LLL算法在硬任务上的零炮（顶行）和少炮（底行）性能。从左至右分别为当前得分（高）、平均得分（高）、遗忘（低）和未来平均得分（高）。（高=越高越好，低=越低越好）。

表1：对Hanabi的LLL方法进行基准测试。在5000场比赛中，平均5次以上的硬任务中LLL算法的平均准确率和遗忘率。（高=越高越好，低=越低越好）

这种影响也可以在较高的平均少数投篮得分中看到（表1）。正如人们所料，MTL和Adam在zero-shot和few-shot两种情况下都取得了最高的平均得分。

从图3的最后一列中，我们可以观察到，当学习者开始与新伙伴玩耍时，未来的平均分数会增加，这表明它已经从以前的任务中学习了一些有用的技能，这些技能可以转移到其他伙伴。然而，随着更多的训练，学习者可能会过度适应当前的伴侣，导致未来的平均分数下降。

为了探讨不同训练模式对连续训练的影响，我们研究了较大批次（128对32）、学习率随高初始率衰减（0.2/0.02）和辍学的影响。我们的实验表明，使用大批量的Hanabi不会给终生带来很大的好处，因为分数的增加可以忽略不计。这一观察结果与“稳定”网络（Mirzadeh et al.，2020）一致，该网络建议使用小批量。在EWC的情况下，我们发现不同λ值（分配给Fischer项的权重）的性能存在明显差异。我们的实验表明，较大的λ是有益的。附录C包含了LLL算法在其他设置下的训练曲线——SGD的硬任务以及Adam和SGD的简单任务。

5.2，受限内存和计算条件下的终身学习

情节记忆大小：为了了解情节记忆对基于记忆的LLL算法性能的影响，我们在ER同时使用SGD和Adam的情况下改变了情节记忆大小（{2k，8k，32k}ˆ任务数），如图4所示。在这两种情况下，情节记忆的大小越大，最终性能越好。

图4：更多实验：在持续训练期间，在每个任务结束时，与CP智能体之间的泛化得分。与Adam相比，使用SGD作为优化器的LLL算法具有更好的泛化性能。ER SGD的GIS最高。

少次评估的梯度更新：为了更好地了解接受不同LLL算法训练的学习者快速适应其所有合作伙伴的能力，我们会在几次评估方案中使用用于更新学习者的梯度步骤的数量。从图4可以看出，10和50之间最终性能的梯度更新有很大的差异，而超过50次更新所带来的好处微乎其微。

5.3，终身RL方法

（Isele&Cosgun，2018）提出了一些在重播缓冲区中存储体验的策略，这些策略已被证明可以减少RL中的灾难性遗忘。我们所有的方法都使用了优先级重播缓冲区，类似于出人意料的策略（Isele&Cosgun，2018）。此外，我们还将其与FIFO和奖励策略进行了比较。对于FIFO，我们将优先级指数α设置为0（Schaul等人，2015），这相当于均匀采样。在奖励的情况下，我们会根据奖励的绝对值，而不是默认情况下的TD错误，进行优先取样，以支持体验。如图5所示，与奖励和先进先出策略相比，优先抽样的ER在平均得分和平均遗忘方面表现最好。实施其他抽样策略，如全球分布匹配和覆盖率最大化，留待今后的工作。

图5：具有不同类型情景记忆的ER方法在10项任务中的零发（顶行）和少发（底行）性能，设计用于终身RL（Isele&Cosgun，2018），Adam Optimizer。

5.4，zero-shot协作

我们将我们表现最好的LLL算法与在Hanabi上表现出良好性能的再次MARL方法进行了比较（表2）。除了报告自我游戏评估分数外，我们还使用两组看不见的合作伙伴在零投篮协调场景下评估每种训练方法：（1）内部CP-一组由使用与训练方法相同的MARL方法训练的代理组成。例如，SAD+OP代理仅与其他SAD+OP代理一起评估，但使用不同的体系结构和种子。同样，为了评估在我们的设置中接受过训练的代理，我们使用与学习者相同的MARL方法训练的其他代理对其进行评估，（2）Inter CP-一组包含20个代理的所有MARL方法。

如表2所示，虽然最近的MARL方法在SP和CP内评估中取得了良好的分数，但在CP间高分方面却没有取得高分，这说明在零炮场景中无法与其他MARL方法有效协调。我们可以观察到，与持续学习开始时的代理相比，在我们的设置中训练的代理在CP间和CP内都有显著的改善，但是，他们的SP分数低于开始时。括号中显示了持续训练导致的分数差异。同样值得一提的是，IQL+AUX+ER实现了比其他MARL方法更好的内部CP得分，尽管这是以略微降低内部CP得分为代价的。

表2中的所有训练方法都有一些我们现在强调的局限性。在训练期间，SAD允许特工除了选择实际的探索性行动（GA）外，还可以访问队友的贪婪行动。AUX指的是有一个辅助任务，可以预测学习者自己的手，因此需要这方面的基本事实标签（L）。OP要求事先知道游戏的对称性（SYM）。IQL+ER和IQL+AUX+ER需要按顺序对LLL（P）进行预训练的智能体，而IQL+多任务需要同时访问所有预训练的智能体（UP）。图4显示了在对几个LLL算法进行连续训练期间，每个任务完成后，泛化性能（Inter-CP）的进展情况。MTL（与Adam一起）和ER（与SGD一起）在持续训练结束时与CP经纪人之间的得分最高。然而，MTL需要同时与所有合作伙伴互动，这并不总是一个现实的假设。

表2：与其他MARL算法在自我游戏（SP）、方法内交叉游戏评估分数（CP内）和不同方法间（CP间）上的比较。C：集中训练，GA：智能体共享他们的贪婪行为和他们的标准行为，L：需要的牌的真实标签，SYM：游戏的对称性需要提前，P：需要按顺序访问一些预先训练的智能体，UP：同时访问所有固定的预先训练的智能体。（高/低=连续训练后的得分差异，红色：用MARL预训练，蓝色：用LLL法连续训练）

6，结论和未来工作

在这项工作中，我们提出终身Hanabi作为终身RL的一个新的挑战性基准。我们的基准中的非平稳性是通过具有不同策略的智能体引入的，而不是对环境或智能体进行综合修改，而交叉游戏分数是量化任务之间相似性的一个简单度量。我们在此基准上分析了一些著名的LLL算法的性能。我们还表明，在我们的设置中不断训练的IQL智能体可以有效地与看不见的智能体进行zero-shot协调。由于易于使用，我们希望终身RL社区将其作为评估算法进步的标准基准。

终身Hanabi旨在促进针对RL（即终身RL）的终身学习新算法的开发。该框架还可以作为超越MARL集中训练的思考步骤。一些有趣的未来方向是，通过策略可视化来了解在我们的设置中训练的智能体所学习的策略类型，以了解出现了什么样的约定（如果有的话）。评估我们训练的智能体与人类的关系也很有价值，因为开发能够与人类有效协调的人工智能体是现代人工智能的一个重要长期目标。此外，利用Meta-RL的最新进展，例如（Zintgraf et al.，2019），在少数镜头评估设置中更快地适应，而不是天真地微调，可以使智能体在特定场景中适应良好。我们相信，研究学习者遇到的伙伴顺序的影响及其对最终表现的影响是一个有趣的下一步。目前，我们只利用不同策略之间的非平稳性来设计LLL任务。这已经为学习者带来了一个有趣的权衡，即在适应新伙伴和不忘记与以前的伙伴很好地协调之间进行权衡。我们的初步实验表明，对于目前的方法来说，将我们的框架扩展到学习伙伴是极其困难的，然而，这可能是一个令人兴奋的未来研究方向。

THE END

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

tiktok没网络怎么办_tiktok没网络怎么办

发表回复

请先登录账户再评论哦

持续学习：持续协调是终身学习的现实场景

1，引言

2，相关工作

2.1，终身强化学习基准

2.2，多智能体强化学习

3，多智能体强化学习和终身学习

4，终身Hanabi：终身强化学习的基准

4.1，进化方法

4.2，指标

5，实验

5.1，终身学习基准

5.2，受限内存和计算条件下的终身学习

5.3，终身RL方法

5.4，zero-shot协作

6，结论和未来工作

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

tiktok没网络怎么办_tiktok没网络怎么办

推荐文章

css3的面试题_go面试题

发表回复

热门文章

推荐文章

持续学习：持续协调是终身学习的现实场景

1，引言

2，相关工作

2.1，终身强化学习基准

2.2，多智能体强化学习

3，多智能体强化学习和终身学习

4，终身Hanabi：终身强化学习的基准

4.1，进化方法

4.2，指标

5，实验

5.1，终身学习基准

5.2，受限内存和计算条件下的终身学习

5.3，终身RL方法

5.4，zero-shot协作

6，结论和未来工作

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

tiktok没网络怎么办_tiktok没网络怎么办

推 荐 文 章

css3的面试题_go面试题

发表回复

热门文章

推荐文章

推荐文章