我们生活在一个通常有大量与我们的流程相关的数据的世界。我们的数据超载。对于许多制造工艺来说尤其如此。假设您负责一个想要保持一定温度范围的过程。而且您喜欢控制图!您认为控制图是监控过程变化的最佳方式 – 寻找特殊原因的信号。
你们的数据收集系统很棒。它每秒将数据记录到数据库中。这意味着每分钟有 60 个温度读数,每小时有 3,600 个温度读数,每天有 86,400 个温度读数。如果您想使用控制图,如何处理这样的数据?
本出版物探讨了即使在数据过载的情况下如何使用控制图。您需要回答的第一个问题是控制图是否适用于该参数。并非所有获取数据的内容都需要控制图。如果您可以使用控制图,那么当数据过载时如何处理这种情况。
在这个问题上:
请随时在本文末尾发表评论。您可以通过此链接下载该出版物的 pdf 版本。
在控制图上测量什么
收集数据的机会因流程类型的不同而有很大差异。例如,如果您的流程本质上是服务性的,那么数据将比制造流程中的数据少——在大多数情况下要少得多。由于本出版物是关于控制图和数据过载的,因此我们将重点关注制造过程。在制造中,存在三种类型的参数:过程变量、过程响应和产品响应。
由于没有意识到并非每个地方都使用控制图,我们可能会担心数据过载和控制图。制造工厂中有很多过程变量。这些是可以直接控制的工艺参数。从统计学角度来说,这些是自变量。它们是用于控制或调整过程的“旋钮”。例如温度、速度和压力,其值由控制器确定。这些过程变量不是响应。它们不具有使用控制图所需的随机变化。因此,过程变量不需要控制图。这消除了我们数据过载的许多事情。
过程响应是主要在线确定的与所生产产品的质量相关的测量结果。从统计学角度来说,过程响应是因变量。它们受到过程变量设置、使用的原材料、环境等的影响。过程响应只能间接控制。控制图可用于过程响应。
产品响应是为了控制过程或控制要运输的产品而对产品进行的测量。这些测量通常是离线测量的,例如在实验室中。示例包括纯度、颜色、堆积密度等。应使用控制图来监控重要的产品响应。但对这些的测量是有限的——我们并不是每秒都在测量事物。
因此,流程响应实际上是可能出现数据过载的潜在响应。
历史数据收集
多年来,数据收集发生了变化。过去数据相对有限,主要关注产品。今天,这通常仍然是正确的。例如,假设您的流程将沙子放入 50 磅的袋子中。装满一袋沙子大约需要1分钟。您可以使用多种抽样计划来监控袋子的重量。例如,您可以测量每小时开始时生产的前四个袋子的重量,并使用X -R 图来监控结果。或者,每 15 分钟称重一个袋子,每小时从这 4 个袋子中形成一个小组,并使用X -R 图来监控结果。您可以每 15 分钟测量一次袋子,并使用 X-mR(单值图表)来监控结果。许多可能性取决于您如何合理地对数据进行分组。在控制图方面,过去的重点主要集中在产品上。
今天的数据收集
今天,情况有所不同。如今的数据收集系统收集一切数据——不仅是产品特性,还包括速度、温度、压力等过程响应。不仅是在更多事物上收集数据,而且正在收集更多的数据——在许多情况下每秒甚至更少。
考虑从间歇反应器生产树脂的间歇过程。反应完成需要5小时。过程响应和过程变量(例如温度、转速和压力)每秒记录在数据库中。这意味着每分钟有 60 个读数,每小时有 3600 个读数,5 小时反应有 18,000 个读数。
您希望使用控制图来帮助监控某些特殊原因引起的过程响应。如果您需要复习控制图的目的以及变异的常见和特殊原因,请参阅我们的 SPC 知识库文章“控制图的目的”。
您喜欢单值控制图,并希望使用一个来/knowledge/control-chart-basics/ Purpose-control-charts/ m/knowledge/control-chart-basics/ Purpose-control-charts/监视温度的变化。温度不是直接控制的。您开始绘制每个单独的温度读数–每秒一个。您可能会得到如下所示的 X-mR(单值)控制图。
图 1:1 秒间隔温度的 X-mR 控制图
单值控制图是两个图表。各个值绘制在 X 图表上,而连续值之间的极差绘制在移动极差 (mR) 图表上。各个值的平均值绘制在 X 图表上,而平均移动极差绘制在 mR 图表上。控制限定义了常见变异原因的范围,绘制在图表上。UCL 是控制上限,LCL 是控制下限。超出控制限的点或高于平均值的连续 8 个模式代表变异的特殊原因。您可以在 X 图表上看到,只有两个值。MR 图上也是如此。这些图表对你来说没有多大用处——短时间内有太多数据。
绘制更多数据是否有助于使控制图更有用?图 1 上绘制了 60 个点,每秒一个。假设我们绘制 5 分钟的数据图表。这会有帮助吗?有300分吗?图 2 是每秒获取五分钟温度读数的 X 图表。我们没有包含 mR 图。
图 2:5 分钟、1 秒间隔的温度 X 图表
图 2 告诉你什么?仍然有很多具有相同值的运行。对我们来说没有多大用处。它显示了一些失控点。我们可以继续向图表中添加数据点,但您可以看到图 2 中很难看到各个点。一小时后,当您绘制了 3,600 个数据点时呢?或者在绘制 18,000 个点后经过 5 小时的反应。
显然,当数据过载时绘制所有数据是行不通的。即使随着时间的推移,您只是在图表上显示一定数量的点,控制限通常在数据过载时无效。这些数据采样过于频繁。如此频繁的采样没有时间让所有变异源都出现。
自相关数据
数据过载的一个问题是数据点通常是自相关的。这意味着数据库中存储的值与下一个数据点非常相似(或者经常是相同)。这意味着连续点之间的变化非常有限。查看图 1 和 2 中的 X 图表。看看同一点如何在图表中一遍又一遍地重复。同样,当数据采样过于频繁时,就没有时间发生过程变化(控制图监控)。
这对 X 控制图上的控制限有何影响?X 控制图的控制限由下式给出:
LCL = Xbar – 2.66 Rbar
UCL = Xbar + 2.66 Rbar
其中Xbar 是各个值的平均值,Rbar是平均移动极差,LCL 和 UCL 分别是控制下限和控制上限。
当相同的值不断重复时会发生什么。请记住,mR 是连续点之间的极差。因此,移动范围通常为 0,这会导致控制限制小且严格,因为它被用于在 X 图表上设置 LCL 和 UCL。
如何解决自相关问题?我们将忽略它。我们将不再将变化定义为连续点之间的移动极差。相反,我们想要形成子组,计算子组的平均温度和标准偏差,然后将结果绘制在控制图上。这有点不同–我们将在单值控制图上绘制平均温度和标准差作为单值统计数据。让我们看看它是如何工作的。
基于一分钟平均值和标准差的控制图
这种方法使用所有数据–甚至是自相关数据。第一种方法是在一分钟内获取 60 个读数(每秒一个)并计算这些读数的平均值和标准偏差。您可以在此链接下载此分析中使用的数据。第一分钟的平均值为 122.483,标准差为 0.504。我们每分钟都会进行这样的计算。然后我们根据每分钟的平均温度和温度标准差构建个人图表。我们在这里只看 X 图表。每分钟平均温度的 X 图表如图 3 所示。
图 3:每分钟平均温度的 X 图表
请记住,图表上的每个点都是该分钟 60 个读数的平均值。每个样本编号实际上都是分钟编号。请注意,图 3 看起来与图 1 和图 2 有很大不同。我们继续使用所有数据。图表上存在失控点。图表早期有一个点超出 UCL,并且运行高于平均线。从低于平均值的运行可以看出,控制图最后部分的平均温度有所下降。但很明显,该图表比图 1 和图 2 中的图表有用得多。
图 4 显示了每分钟标准差的 X 图表。
图 4:每分钟标准差的 X 图表
请记住,图 4 中绘制了每分钟 60 个读数中每个读数的标准差。您可以看到标准差在接近图表末尾时有所增加。有超出控制限的点以及高于平均水平的点。
这代表了数据过多时可以使用的一种方法。图表上 60 个点并不算太多,您可以将大多数软件设置为仅显示最后 60 个点。我们的 SPC for Excel 软件可以做到这一点。它被用来制作本出版物中的所有控制图。有关 Excel SPC 的更多信息,请选择此链接。
但如果您想减少点,则可以增加时间段。如下所示。
增加统计计算的时间段
如果你想要更少的点,你可以每 5 分钟计算一次平均温度和标准差。同样,您包含所有数据点 – 忽略自相关。图 5 和图 6 显示了每 5 分钟的平均温度和标准偏差的结果。
图 5:每五分钟平均温度 X 图表
图 6:每五分钟标准差的 X 图表
请注意,这些图表即使间隔 5 分钟,仍然显示出平均温度的下降和温度标准差的增加。如果您继续增加作为小组使用的时间,您将达到掩盖控制点的程度。寻找使用的时间段确实是反复试验的过程。您不需要太多点,但也不想掩盖信号。
概括
本文章研究了如何在数据过载的情况下处理控制图。首先,确保要监控的变量具有控制图所需的随机变化。为了处理数据过载,请使用所有数据计算设定时间段(每分钟、每五分钟)的平均值和标准偏差,并使用 X-mR 图监控平均值和标准偏差的结果。寻找最佳使用时间段是一个反复试验的过程。