论文阅读：《Optimizing Computational Resources for Edge Intelligence Through Model Cascade Strategies》

发表于 2025-01-25 分类于 academic ， paper_reading 本文字数： 6.5k 阅读时长 ≈ 23 分钟

本文章内容改编自笔者于2024年11月6日、在本学期选修课程《边缘智能前沿与应用》中做的论文汇报。

将本文章上传至博客的目的是测试Hexo对Markdown格式内容的支持程度，利用撰写、上传、校对这篇博文的过程，给后续工作踩坑。

论文信息

汇报所述论文是由西班牙得乌斯托大学和英国剑桥大学的教授，发表在CCF-C类国际学术期刊IOT上的一篇文章。

DOI：10.1109/JIOT.2021.3118845

问题背景

边缘计算，作为云端计算的一种替代方案，让数据在更加靠近数据产生的地方进行处理，也为我们提出了新的要求。比如，边缘设备在可用的计算资源等方面是受限的，如何用这些受限的资源去完成复杂的计算任务，是本论文关注的问题。

论文认为，为了减少边缘设备运算的资源花费，可以从降低AI模型的复杂度入手。所以，本文提出了一种简化对边缘监督学习复杂度的方法，在物联网架构中节省资源需求方面具有很大的潜力。

模型级联优化算法（Model Cascade Optimization Approach）

接下来介绍论文提出的模型级联优化方法。这是一种针对特定受限场景的集成学习方法，旨在通过级联结构提升预测性能并降低计算复杂度。

图1展示了论文提出的模型级联方法，它由一系列连续的个判别模型构成，其中最上层的模型（也就是样本数据最先经过的模型）是所有模型中最简单的，越往下，模型的特征数量越多，复杂度越高。样本的预测结果不仅依赖于特征的复杂度，还与模型的复杂度紧密相关。

样本首先进入最初的模型，得到一个预测结果。如果这个预测结果的置信度高于我们事先预设的阈值，则我们就直接把这个模型的预测结果作为最终的预测结果；否则，样本将传递给下一个级别的模型再进行预测。最后一个模型负责处理前个模型未能成功预测的样本。

论文给出了预测结果的置信度的计算公式，也就是公式1，它反映了模型输出的预测结果的可靠程度有多少。公式中M指样本标签的种类数量，指模型对样本在这个标签下预测的结果（要么是0要么是1），指这次对标签的预测的概率分布。
公式的主要思想是让样本属于各个种类的概率向量和被预测样本的label做对比，计算各个类别的log loss，即使样本真正属于的种类是未知的，我们也能用这个公式去衡量模型分类的可靠性。

这种模型级联的设计，使得前面的简单模型起到过滤样本的作用，减少了如果一个样本在前面简单的模型里就得到了可靠的分类预测结果，那么它就不会进入后面更复杂的模型，设备在计算上消耗的资源就降低了。

（论文还提到一些优化这个结构的方法，比如，在信号数据处理和特征提取阶段进行了优化。一个样本也许能提取出很多特征，但是这些特征不一定全部参与到计算，在前面简单的模型里，参与计算的特征数量更少，其他特征在需要时会在后面更加复杂的模型中计算。这种设计可能使得新样本只需使用最初、最简单的分类器进行标签预测。）

在具体实现上，论文根据模型训练的方法，提出了三种不同的实现这个模型级联的方式，分别是并行实现、顺序实现和混合实现。这三种实现方式的区别在于训练每一层模型用的数据不一样。

首先是并行实现。在并行实现里每一层模型在输入和训练方面都是独立的，每一层模型都用数据集中所有可用的数据来作训练。

并行实现

再就是顺序实现。在顺序实现里，最初的模型使用整个训练集进行训练，而后续模型则只使用在上一层中置信值不高于阈值的数据进行训练。也就是说，如果一个样本能被前面的模型完成分类预测，那它就不会喂给后面的模型做训练。这样，后续模型将学习处理更难的分类任务，以弥补最初模型的缺陷。

顺序实现

最后是混合实现。在混合实现里，前个模型的训练方式和并行实现一样，但最后一个模型只用前个模型没有完成分类的那些样本来作训练（这种方法旨在平衡最初模型输出的泛用性和最后一个类别模型输出的特殊性）。

混合实现

实验设计与结果分析

论文的整个实验过程，用简单的话来概括就是，让几种不同的边缘设备搭载不同的模型，在相同的实验条件下进行人类活动识别分类任务，并最终从分类准确性、分类效率、计算消耗三个方面来进行对比，得到实验结果。

实验设计

首先介绍论文实验使用的数据集。论文一共用了五个数据集，其中有四个是公开的数据集，它们包含了用动作传感器收集人类活动识别数据。具体包括：

ADL数据集，使用腕带式加速度计收集；
HAR数据集，基于智能手机收集；
办公室活动识别数据集；
日常与运动活动数据集，仅使用躯干和右臂的传感器。

除了公开数据集，论文团队还创建了一个名为 OHM(Office Hydration Monitoring) 的数据集，用于监控办公室员工的喝水方式。该数据集通过放置在不同容器的加速度计和陀螺仪进行收集，包含1000个实例，涉及10个测试人员和25种不同的交互方式。（为模拟真实场景，志愿者的动作指引较为模糊，且使用自己的喝水容器，传感器位置也不固定，从而营造较大数据方差。

数据集

接下来，论文规定了实验所用的模型的算法。论文团队选用了一系列经典的机器学习分类器，（这些分类器在资源受限的环境下对来自物联网传感器的连续数据序列进行分类时具有较高的效率。）具体包括逻辑回归（LG）、随机森林（RF）、KNN、高斯贝叶斯（NB）、线性SVM和MLP。（需要注意的是，并非所有算法都是基于概率的算法，像是KNN和SVM，它们的预测置信值是用其他参数计算得到的。）

模型算法

之后，论文还规定了实验所用的设备。论文团队评估了四种不同平台的性能，并与笔记本电脑作为参考设备进行了比较。它们在处理器性能、内存等方面具有一定的差异。

边缘设备选取

图5是论文在模型级联方面做的一些参数设置，实验中，每一台边缘设备都会搭载如图5所示的级联模型。我们从图中主要关注两个要点，第1，整个模型集群一共只有3个模型，而且这三个模型做分类任务所用的特征数量，从上到下是逐渐增加的。第2，给前两个模型设置的置信阈值的值是不同的。

Fig.5-模型级联配置

除了上述实验设计，论文中还规定了实验的其他条件，比如，输入数据预处理方面，有哪些步骤，模型怎么进行特征选择，分类任务用什么框架，运行时间怎么测量，等等：

采用了中值数据过滤、数据分割、特征计算、归一化和推理任务等步骤；
每个模型采用Chi2过滤法进行特征选择，尽可能让模型做预测用到的特征都是对预测来说最有用的特征；
在所有实验均在相同的软件环境和条件下进行；
用Scikit-Learn框架实现分类任务；
使用Python的库Timeit来测量运行时间；
所有实验在CPU下进行。

实验执行与结果分析

论文主要从三个方面分析了实验结果：

分类准确性的评估；
模型级联三个不同实现方式的对比；
不同平台在执行分类任务时的计算成本。

1. 分析不同模型的分类准确性

论文每个实验组10次运行的预测结果取平均，并且用macro F1分数衡量模型预测的准确性。

同时，除了并行、顺序、混合三种不同的模型级联方式之外，论文还加入了一个参考模型和用stacking技术构造的模型，对比了这五种不同模型组合方式的预测准确性。级联模型的每一层还用了分层五重交叉验证程序来确保实验的可靠性。

表3展示了六种不同模型、五种不同的模型组合方式在五个不同的数据集上做预测得到的macro F1分数。红色代表这个分数比较低，蓝色代表这个分数比较高。

表4展示了六种不同模型、三种模型级联方式在五个不同的数据集上做预测时，只用前两个模型就完成了分类的样本占比。红色代表占比较低，蓝色表示占比较高。

论文通过这两个表得到了如下结论：

LG、RF和SVM模型在所有数据集的预测中表现最稳定，它们的macro F1分数基本一致。
论文提出的模型级联方法，以及Stacking方法，如果用MLP和KNN模型去做分类，那么它们预测的准确性普遍比参考模型要差。
采用NB算法的模型预测准确性最差，论文认为这个原因需要结合表4来看。可以看到，如果用NB算法，那么绝大部分的样本都在级联模型的前两个模型被分类完毕了，几乎所有样本都没有经过最后一个能力更强的模型。于是论文觉得置信阈值t在这里调得不好，所以产生了这个结果。
论文提出的模型级联方法取得了和Stacking技术相似甚至更好的分类结果。

论文还做了两张表（表5和表7），比较了五种不同模型组合方法的预测准确性。

、

表中的含义是模型级联方法和Stacking方法和参考模型相比，它们的预测得到的F1分数要低百分之多少。计算公式如下：

从这两张表我们可以看到，论文提出的模型级联方法，以及Stacking方法预测的准确性平均来说还不如参考模型，模型级联方法的分数比参考模型平均低3.42%，Stacking比参考模型平均低4.69%。

论文说，虽然我们提出的方法在分类准确性上比参考模型低一些，但我们方法的优势不在提高准确率，而是在于样本用更简单的模型就能完成分类。论文中的表6展示了三种模型级联方法下，只用前两个简单模型就完成分类的样本占比。

可以看到，论文提出的这个方法，让80%左右的样本只用比参考模型简单的多的模型就完成了分类，而这个降低模型复杂度的代价仅仅是让预测准确性有一个4%左右的降幅。

2. 模型级联三个不同实现方式的对比

看完了分类结果，接下来论文从第二个方面来分析实验，就是对比模型级联三种不同的实现方式，希望从中找到一个最好的。选择最好的方法主要考虑两个因素：一是分类的结果要好，二是分类的效率要高，在这里认为，级联的模型中最初始的简单模型分类的样本数量越多。分类的效率就越高。

根据刚才我们展示的表5和表6，论文得到了一些初步结论：

混合方法相比顺序方法和并行方法来说没有表现出优势。
并行方法和顺序方法总体上获得了更好的分类结果。
并行方法和混合方法中不同级别的模型分类的样本占比是一样的，毕竟它们在前面两个模型上的结构是一样的。

论文想要在最好的分类结果和最高的分类效率中找一个平衡，于是论文做了一个Pareto多目标分析。

图6展示了论文团队自创的OHM数据集和实验中用到的所有数据集中，分类准确率和被简单模型分类的样本占比的关系。最右边这张图是中间的这张图右上角一部分放大后的图。图里面的虚线就是Pareto frontier，中文翻译叫帕累托前沿，它反映了分类准确率和分类效率最大化之中寻找到的最佳解决方案，每个方案都包含方法名称、对应的F1分数，以及初始模型分类样本的占比。把这些用帕累托分析得到的最优解整理出来就得到下面这张表8。

根据表8的数据，论文认为顺序方法和并行方法在这三种模型级联方法中占据主导地位，并且并行方法是最容易成为最优解的方法。

3. 衡量计算成本

论文之后还通过测量边缘设备在分类任务上花费的时间，来阐明论文提出的模型级联方法在分类任务中节省时间和资源的潜力。

刚才我们讲到，论文通过帕累托优化过程，认为并行方法在分类表现和分类效率上权衡得比较好，于是论文团队在这里拿并行实现的模型级联方法和参考模型，在团队自创的OHM数据集上比较计算成本，这个计算成本是用处理和分类新的数据样本需要的实际时间来衡量。

论文在这里把数据集中的1000个样本按照80%-20%的比例分成训练集和测试集，对比二者对测试集里200个样本进行分类所花费的时间。
为了确保实验结果的可靠性，论文让每个实验组总共运行了30次，计算平均消耗时间。

表9列出了两种方法在5个不同的边缘设备在OHM数据集上运行的时间。

从表中可以看到，相比参考模型，论文提出的模型级联方法在数据集上的运行时间明显更短。

论文还做了一张表10来展示模型级联方法的运行时间相比参考模型，具体节省了百分之多少。运行时间的节省幅度也和之前的表一样用颜色标识，红色代表节省幅度相对较低，蓝色代表节省幅度相对较高。

可以看到，模型级联方法在大部分情况下，相比参考模型，能节省超过50%的时间。结合前面展示过的表来看，在级联模型中，被前面简单模型分类的样本占比越高，运行时间节省的就越多。

论文还对所有算法的运行时间做了平均之后，得到了模型级联方法在各个不同边缘设备上相比参考模型节省的运行时间。（论文没有把这部分数据写在表格里）。论文认为，这些结果表明了，使用他们提出的模型级联方法之后，边缘设备处理人类活动识别的分类任务的数据处理速度得到了显著的提升，而且论文方法最大限度地降低了边缘智能系统的复杂性，提高了系统的可扩展性，让我们能在边缘设备上部署一些原本无法高效执行的复杂应用程序。

4. 实验局限性

论文最后阐述了上文实验的局限性:

模型级联的层级数量、每个模型的特征数量、每个模型分类结果的置信阈值都会对结果有重要的影响，论文只是把这些因素都固定下来，没有在这些方面选不同的方案做更多实验。
因为实验没有涵盖模型级联各个因素的变化，没有充分发挥各种模型在分类任务上的潜力，导致实验结果可能不是最好的。
在衡量计算成本时，是用计算时间来衡量的，而这个结果可能受到边缘设备内部的进行等因素影响。

总结与后续展望

论文在最后总结了前文提出的方法与实验。

在论文工作中，论文团队提出了一种在资源受限的边缘设备中，通过模型级联技术，优化和提高分类任务性能的方法。也就是说，论文主要解决的问题是，如何提高边缘智能解决方案在嵌入式人工智能不同应用场景中的可用性和效率。为此，论文分析了判别模型级联方法的三种实现方式的适用性，并通过实验分析，比较了所提出的方法和参考模型、Stacking方法在人类活动识别任务应用中的性能。

实验结果表明，论文提出的模型级联方法的结果优于Stacking方法。与参考模型相比，论文提出的模型级联方法大幅减少了运算时间，同时让检测准确率保持在一个可接受的范围。论文认为团队提出的方法为低延迟、高能效的应用铺平了道路，使边缘技术真正实现了智能化。

在后续工作中，论文团队希望进一步探索异构边缘节点的层次结构是否适合容纳每个级联层次，并确定最理想的通信机制。此外，团队还计划将计算要求较低的模型从边缘节点移植到终端设备，并在那里分配级联系统的一部分。团队希望在真实世界的在线分类场景中研究拟议解决方案的部署情况，以扩展其及时满足边缘要求的潜力。