综合交通运输大数据应用技术交通运输行业重点实验室

英文题目： Short-Term Inbound and Outbound Passenger Flow Prediction for New Metro Stations Based on Clustering and Deep Learning

中文题目： 基于聚类和深度学习的新建地铁站短期进出站客流预测

论文作者： 王梓赫，张永生，姚恩建，王月，李俊铖，何建涛

论文期刊： Journal Of Advanced Transportation

论文网址： https：//www.hindawi.com/journals/jat/2023/6659916

摘要：地铁网络快速扩张，例如在中国的许多城市，每年都在不断地引入新的车站运营。由于历史数据的缺乏和运营初期短期客流的复杂变化，难以准确预测新建车站短期的进出站客流，而这正是新建车站运营前列车调度、运营中新车站动态容量优化、新车站附近共享单车需求的短期预测等的基础。传统的方法往往不能准确反映复杂的规律，或者如果没有新站历史数据时就无法使用。针对上述问题，本文结合k均值聚类算法、改进时空长短期记忆模型(SpLSTM)和实时反馈误差模型(mean absolute error, MAE)，综合考虑了客流的时空特征和土地利用相关性，提出了一种新建地铁站运营初期的短期进出客流预测模型。以广州地铁21号线作为新线的应用表明，与传统方法相比，所提出的K-Sp-LSTM模型具有最好的预测精度。

1. 引言

随着国家优先发展公共交通的战略，公共交通已经成为大城市的居民的主要出行方式。城市轨道交通具有及时性、快速性和舒适性，是居民在城市内出行的首选公共交通方式。特别是在中国，每年都有新的线路投入运营。由于地铁客流时空分布的日益复杂，准确的客流预测对于地铁的精准运营和管理变得越来越重要。特别是对于新建站点，由于历史数据的缺乏和运营初期短期客流变化的复杂性，准确预测新建地铁站的短期进出站客流是很困难的，而这些数据将用于新建车站运营前的列车调度、运营中新车站的动态容量优化、新车站附近共享单车需求的短期预测等。因此，在运营初期（包括运营前预测的实施）对新建地铁车站短期进出站客流进行准确的预测（如以15分钟为间隔）成为一项必要的研究。

在对新建地铁车站运营初期短期进出站客流的预测存在以下三大挑战：首先是缺乏运营前的历史数据。即使在运营过程中，样本量也不足以反映初期复杂的客流规律。对于新站点，如何在没有数据或足够数据的情况下开发深度学习方法变得更加困难。二是运营初期进出站客流复杂的时空特征。从时间上看，客流处于增长阶段。从空间上看，不同站点之间存在潜在的关联，因为进站乘客最终会成为出站乘客。进站和出站客流的复杂规律则需要深度学习方法。第三个问题是如何利用越来越多的实时采集数据逐步更新输入。传统的方法往往不能准确反映复杂的规则，或者在没有新站历史数据的情况下无法使用。第三个问题是如何利用越来越多的实时采集数据逐步更新输入。传统的方法往往不能准确反映复杂的规则，或者在没有新站历史数据的情况下无法使用。

为此，本文结合k均值聚类算法、改进的时空长短期记忆模型(Sp-LSTM)和实时反馈误差模型(mean absolute error, MAE)，提出了一种基于深度学习的新建地铁站点运营初期短期进出站客流量预测模型。通过考虑客流规律与车站周边土地利用之间的关系，引入k均值聚类方法解决了第一个问题，即数据缺乏。针对进站和出站客流复杂的时空特征，引入了Sp-LSTM模型。实时反馈误差模型提供了输入更新机制。本文将在接下来的部分详细讨论所提出的用于新建地铁站点短期进出站客流量预测的K-Sp-LSTM-MAE模型，该方法可实现新建地铁站的短期客流预测，为新建地铁线路的列车运营方案提供重要参考。

2. 问题描述

2.1 新建地铁站的客流特征

新建地铁站的客流量在运营初期将迅速增加。运行一段时间后，新站工作日客流变化将逐渐趋于稳定，如图1所示。但其客流波动相对于其他地铁站仍较大，如图2所示。根据客运量变化数据，新地铁站的客运量将在短时间内突然变化，而周末的客运量在较长时间内保持波动。新站点运营初期复杂的客流量规律使得短期客运预测变得非常困难，需要一种能够表示复杂客流规律的深度学习方法。

图1 新建地铁站日均客流量变化

图2 新地铁站在最初工作日的客流变化

然而，新站刚运行时缺乏历史客流数据，这使得需要大量历史数据进行训练和优化的深度学习方法的应用变得具有挑战性。即使对于传统方法，如果没有足够的历史数据，短期客运量预测也很难实现。本文试图根据客运规则与土地利用的内在关系，构建一个基于现有地铁站历史客运量的数据库。数据库由具有相似土地利用的站点聚类生成，然后新站将能够通过模式匹配利用数据库中的历史数据。通过这种方式，将有足够的数据来预测新地铁站在运营初期的客流量。

2.2 短期地铁站客流预测

地铁的AFC系统可以实时记录进出站的乘客数量。为简便起见，本文采用15分钟的时间间隔来记录和预测各车站的进出站客流。研究数据包括日期、时间段、地铁站点15分钟交通数据和站点类型。地铁车站交通特征具有明显的时序性，因此输入到LSTM的基本序列数据是按时间段划分的交通数据。地铁站进出站客流可以用下式表示：

为时间间隔t内i站的进出流量，c为地铁站类别。

地铁车站客流不仅与时段和周边土地利用关系有关，还与空间位置有关。例如，虽然两个地铁站具有相同的土地利用类型，但同一时间段的客流可能会有很大的不同。

除了突发事件的影响外，影响客流量的主要原因是这两个地铁站位于铁路网的不同位置。此外，站点之间的空间关系也是影响客运量预测的潜在因素。地铁站之间的空间影响不是通过简单的欧式距离来衡量的，而是主要通过两个车站之间的换乘次数和列车运行时间来进行参数化。结合上述因素可生成更全面的基础数据矩阵，如下式所示：

新建地铁站的一个重要特征是客流的变化是逐渐稳定的，即客流的波动性随着时间的推移而减小。这意味着短期数据对于模型参数的更新至关重要。因此，本文使用MAE作为短期参数调整的损失函数。通过这种方法，可以更好地捕捉短期数据的变化，为短期的地铁车站客流预测提供依据，特别是当地铁网络发生突发事件时。

总之，新建地铁站短期客流预测模型既要考虑长期客流特征，又要考虑短期客流变化。本文构建了一种改进的综合客流预测模型K-Sp-LSTM-MAE，该模型考虑了地铁站周边的土地利用关系、地铁网络的空间关系以及历史进出站客流数据，实现对新建地铁站短期进出站客流的预测。本文提出的模型框架如图3所示。

图3 模型框架图

3. 方法论

3.1 基于k均值的地铁车站聚类

为了为新建的地铁车站构建合适的历史数据，本文提出在现有车站历史客流数据的基础上，根据不同的土地用途对车站进行分组。由于早晚高峰时进出站客流系数在很大程度上反映了车站周边的土地利用性质，而日进出站客流量则反映了车站周边的土地利用规模，因此采用这6个变量作为聚类指标。本文采用k均值聚类算法对地铁车站进行聚类。由于这种情况下不同类型的客流数据具有截然不同的特征，因此k均值聚类可以产生更好的结果。k均值聚类算法基于一种典型的距离分段技术，旨在发现用户指定数量的聚类。

基于周围土地利用属性，本研究根据早晚高峰进出站客流系数，将地铁站划分为住宅、办公、办公为主、住宅为主、交通枢纽、商业和综合用途等类型。不同的车站在工作日和周末可能属于不同的类型。例如，一些车站在工作日属于办公类，而在周末属于商业类。每种类型的车站都有不同的交通模式，如图4所示，这意味着新站点的客流预测首先要根据其土地利用特征进行分类。图中以15分钟为一个时间间隔，进站客流为正，出站客流为负。基于土地利用特性聚类结果，将车站日进出站客流量作为下一步土地利用规模聚类的指标。最后，将具有相似土地利用特性和规模的站点放入同一组中，从而生成数据库，其中土地利用特性和规模对应于基于历史 15 分钟时间间隔的进出站客流。本文采用了K-means方法进行了上述两步聚类。

图4 不同类型地铁站的客流特征

在基于k均值的聚类中，两个样本之间的距离越大，相似度越低，两个样本之间的距离越小，相似度越高。样本数据不仅需要考虑车站的土地利用类型，还需要考虑地铁站的客流规模。因此，本文使用欧几里得距离计算二维空间距离，如下式所示：

式中，表示第i时间段新建地铁站的客流。表示第i时间段现有地铁站的客流。

首先，对于有n个数据点的数据集，随机选取k个点作为初始聚类中心，然后通过欧几里德距离计算对每个聚类中心附近的数据进行分类，采用迭代的方法，并在此过程中不断更新聚类中心点；直到整体达到稳定状态，得到聚类中心C。

k均值聚类算法计算的基本步骤如下：

步骤1：输入一个数据集，确定聚类中心个数K。

步骤2：在数据集中随机生成K个初始聚类中心。

步骤3：计算聚类中心与其他数据点的距离，取距离的最小值。

步骤4：计算同一中所有对象的平均值并计数，更新并替换计算结果为新的聚类中心。

步骤5：重复上述步骤，直到结果稳定且聚类中心不再变化，输出聚类结果。

上述步骤中的稳定状态需要设置量化目标函数，然后根据该函数的结果重新计算每个聚类的质心。考虑到欧氏距离的数据，本文使用误差平方和(SSE)作为聚类的目标函数，如下式，通过两次运行k均值生成两组不同的聚类。在更新聚类中心时，我们选择SSE较小的聚类中心。

式中，K为聚类中心，c_i为第i个数的中心，d为欧氏距离函数。

3.2 结合时空特征的客流预测模型

LSTM具有较强的学习稳定时间序列数据变化规律的能力，因此本研究将神经网络应用于历史客流规律的研究方法中。LSTM中的门结构可以很好地过滤出突发客流数据。这种方法适用于通过模式匹配的方法为新建站点生成伪历史数据后，进行新建站点的客流量预测。

LSTM将状态c添加到RNN网络中，以保持长时状态。如图5所示，在此过程中，除了h随时间变化，单元状态c也随时间变化，单元状态c代表长时记忆。

图5 LSTM网络结构

LSTM的内部结构如图6所示，其中遗忘门决定了前一时刻的单元状态有多少保留到当前时刻；输入门决定在当前时刻有多少网络的输入被保存到单元状态；输出门控制有多少单元状态输出到LSTM的当前输出值。

图6 LSTM内部结构

首先，将时刻t-1的网络输入与该步骤的网络输入相结合，在进行线性变换后，结果被映射到0到1的范围内，作为的s型激活函数后的存储器衰减系数，记为。

sigmoid函数，称为输入门，确定要更新哪些值，tanh层创建一个新的候选向量被添加到状态中。

当前时刻的单元状态是通过将之前的单元状态乘以遗忘门的原始元素，将当前输入单元状态乘以输入门，然后加上其他两个因素。

输出门控制长期记忆对当前输出的影响，这是由输出门和单元状态决定的。

LSTM学习一维序列数据的能力很强。在铁路客流预测领域，LSTM可以准确地学习输入客流在各个时段之间的内在联系。我们可以很容易发现，LSTM学习并预测了车站的客流特征。然而，在地铁网络中，地铁站的进出站客流是紧密联系的。地铁站之间的相互作用对客流预测具有重要意义，特别是当突发事件导致客流发生非常规变化时，依靠地铁站的空间影响关系进行短期客流量预测比传统的时序预测更为灵敏。因此，LSTM缺乏多维输入，导致其无法兼顾多因素。Yang等人考虑了地铁站之间的空间影响，提出了一种改进的Sp-LSTM。本文根据新建地铁车站的客流特点对参数进行了调整。

时空长短期记忆网络(Sp-LSTM)考虑了进站到出站客流的时间延迟，它能够捕捉进站量对出站量的空间影响。在此基础上，建立多维序列作为特征序列，实现出站量的短期智能预测。

在地铁客流预测中，每个客流指标都被看作是一个随时间变化的数据序列，它与过去的客流量有一定的关系。通过对实时采集的客流数据进行分析，利用客流本身的规律性对客流特征进行挖掘和提取，实现对客流的短期智能预测。

我们设置两个参数m和n来衡量两个地铁站进出站客流之间的关系。假设目标地铁站k与其他地铁站i之间的客流为f_i,k，目标地铁站k的出站客流为f_k。m_i表示站I对站k的出站客流量贡献，如式(9)。

我们假设目标地铁站的的进站客流量为f_k。Ni表示I站对k站的进站客流贡献，如下式所示：

式中，为哈达玛积，Z_k为地铁k站的影响系数矩阵，以及其他地铁站的影响系数矩阵。

3.3 短期更新机制

本文采用K-Sp-LSTM模型对新建地铁车站短期进出站客流进行预测。新建地铁车站客流波动较大，因此当天的短期客流数据更有价值。本文最终采用MSE作为损失函数，学习短期客流的短期变化特征，如式(13)所示。MAE能更好地反映变化的绝对值，更适合于客流变化分析。对应于地铁站客流相对较小时，MAPE等指标变化过大。将短期客流和预测结果输入到损失函数中，迭代训练权重参数w和偏差参数b，将误差结果返回到深度学习模型中进行短期客流变化特征学习。

式中，L为损失函数；W表示权重参数；b为偏移量参数。为目标车站i的真实客流；是目标车站i的预测客流；n是新站的总数；i是目标车站。

4.实例研究

4.1 数据分析

本文选用的数据是广州铁路网各地铁车站的AFC系统记录的智能卡数据。客流时间段为6：00 - 23：30，时间间隔为15分钟。本次研究选择的新地铁站为广州地铁21号线的8个地铁站(镇龙溪站至增城广场站)。广州地铁21号线是广州地铁建设和运营的第14条线路，于2018年12月28日开通运营，是该项目一期工程。这条线的第一段只有一个地铁换乘站。该线位于广州市东北部，如图7所示，呈“L”形。这条线路全长62.6公里，涵盖了住宅、商业和工业区等多个功能区，促进了城市东部和周边郊区的发展。

图7 广州地铁网络

本文研究的时间范围为2018年11月1日至2019年4月30日各地铁站每日进出站客流。其中，广州地铁21号线一段地铁站自2018年12月28日起启用智能卡数据。

4.2 聚类结果

本研究采用k均值聚类方法对广州市所有地铁站进行聚类，如表1所示。聚类的指标是高峰时段系数和入站和出站总数。高峰时段系数可以反映地铁站周围的土地利用关系。全天进出站的乘客数量反映了地铁客流量的规模。早高峰时间为7：00 - 9：00，晚高峰时间为17：00 - 19：00。将两个时段的客流量与日平均总客流量之比作为早晚高峰系数。根据新建地铁站周边的土地利用关系，本文对新建地铁站进行了分类，如表2所示。本文对各类既有地铁站与新建站之间的客流相关性分析如表3所示。通过几种常见的相关检验，可以得出聚类效果良好的结论。

表1 地铁车站聚类结果

表2 新建地铁站点的聚类结果

表3 新站与既有站客流相关分析

表4 新站与现有地铁站之间的MAPE

从表中的相关系数结果可以看出，本研究对新建地铁站和现有地铁站的类型进行了准确匹配。本研究将新建地铁车站的客流与历史数据库中各类地铁车站的客流进行MAPE对比，如表4所示。同时，本文将新建地铁站的客流与各地铁站的客流进行对比，如图8所示。红线表示现有住宅型地铁站的进出站客流；绿线代表新建住宅型地铁站的进出站客流；黄线表示住宅型地铁站进出站客流。

图8 新车站与两类车站的客流对比

4.3 模型预测精度分析

本文以广州地铁21号线五个地铁站的客流量作为训练集，其余三个地铁站的客流量作为测试集。

文主要选取以下三个评价指标进行误差分析：平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和加权平均绝对百分比误差(WMAPE)。方程如下：

其中MAPE为平均绝对百分比误差；MAE为平均绝对误差；WMAPE为加权平均绝对百分比误差；MSE是均方误差。是车站i实时客流；是车站i的预测客流量；n是车站总数；i是目标车站。

对于K-Sp-LSTM-MAE模型，我们需要调整训练轮次和隐藏单元个数两个参数，以使模型得到最好的预测结果。参数调整结果如表5所示。从表中我们可以看到，当训练轮次为1000，隐藏单元个数为500时，模型实现了最好的预测。此外，本文还对CNN、LSTM、Sp-LSTM等其他预测模型进行了比较，K-Sp-LSTM-MAE的预测结果更为准确，如表6所示。

表5 模型参数值及误差结果

表6 误差分析与传统模型的比较

从聚类预测结果来看，工作日客流预测优于周末客流预测，本文对工作日和周末地铁站客流进行预测，分别如图9和图10所示。地铁站客流预测的主要作用是为了提前规划地铁车站的服务资源，提供充足的容量资源。因此，本文重点学习和预测早高峰时段的客流模式，如图11和图12所示。

图9 工作日预测值与真实值的比较

图10 周末预测值和真实值的比较

图11 工作日早高峰预测值与实际值对比

图12 周末早晨高峰预报与真实值的对比

从以上结果可以看出，KSp-LSTM-MAE模型可以准确地对新建地铁站进行分类，并根据地铁站的类型进行客流预测。新地铁站在开通初期将处于客流增长阶段。因此，在开始运营的前四周内，本模型的损失函数值也会较大，如图13所示。随着广州地铁21号线运营时间的增加，各地铁站的客流模式将逐渐趋于稳定，模型的预测精度也将得到提高。

图13 损失函数变化图

5.结论

本文的目的是对新建地铁车站在运营初期的短期进出站客流进行预测。本文结合地铁网络中各地铁站点的空间关系、地铁客流的时间特性以及地铁站点周边的土地利用关系，创新性地提出了K-Sp-LSTM-MAE模型。该模型以地铁站历史进出站客流为主要输入，分析新建地铁站客流的时空特征。最后，以广州地铁21号线为例对模型进行了验证。结果表明，K-Sp-LSTM-MAE模型的预测效果优于传统的CNN、LSTM和Sp-LSTM。

本文提出的短期客流预测方法不仅适用于新建地铁车站的进出站客流预测，也适用于新建地铁线路的客流预测。该方法结合了聚类分析、神经网络和地铁客流特征。同时，本文还引入了短期调整机制，使模型在地铁客流发生非常规变化时仍能保持较高的预测精度。新建地铁站点客流预测可以为地铁站点资源配置和列车运行图的编制提供重要依据。

在新建地铁站点运营初期进行短期进出站客流预测，对地铁站点的组织和管理、列车运行图的准备以及设置在地铁站周围投放共享单车的数量具有重要意义。由于新建地铁站缺乏历史客流数据，且运营初期客流变化规律不稳定，短期进出站客流预测需要考虑更多因素。本文采用聚类方法，学习不同土地利用类型地铁站点在工作日和周末的客流模式，然后利用神经网络考虑车站间空间关系对客流进行初步预测。考虑到新建地铁站客流的波动性，本文还引入了一种即时客流误差调整机制。最后，本文建立了一个完整的地铁新建车站短期客流预测系统。

本文提出的模型还存在一些不足。该模型缺乏对乘客出行需求的调查，没有充分利用地铁站进出站客流与车站间OD客流之间的关系。未来应将乘客出行选择的调查数据引入新建地铁站的短期客流预测中，有助于预测模型进一步提高预测精度。