您目前的位置: 首页» 科研及成果» 研究进展» Decentralized human-like control strategy of mixed-flow multi-vehicle interactions at uncontrolled intersections A game-theoretic approach

Decentralized human-like control strategy of mixed-flow multi-vehicle interactions at uncontrolled intersections A game-theoretic approach

英文题目:Decentralized human-like control strategy of mixed-flow multi-vehicle interactions at uncontrolled intersections: A game-theoretic approach

中文题目:基于博弈论的混合交通流无控制交叉口场景分布式车辆类人控制策略研究

论文作者:景典,姚恩建,陈荣升

论文期刊:Transportation Research Part C: Emerging Technologies

论文网址:https://doi.org/10.1016/j.trc.2024.104835

摘要:未来自主式交通系统面临的一个关键挑战是提高应对复杂的交互场景(如无控制交叉口)的能力。在不久的将来,由人类驾驶的车辆(HDV)和网联自动驾驶车辆(CAV)组成的混合交通流将长期存在于交通网络中,这促使我们去研究HDVCAV之间的交互机理,以提高交通系统的交通效率和安全性。为了帮助CAV更好地与HDV互动并适应混流环境,我们为CAV提出了一种类人的分布式控制策略。首先,我们提出了一个博弈论框架来模拟混流环境中的多车互动(包括HDV-CAVCAV-CAV等互动);通过证明模型解的存在性,确保所提出博弈论模型的可行性。接下来,本文在所提出的模型中嵌入驾驶风格识别算法,以帮助CAV理解和预测人类驾驶员的行为。随后本文通过真实的数据集对所提出的模型进行校准,并利用多个测试场景进行模型校准精度的评估。在仿真实验中,真实的车辆轨迹被用来验证模拟生成车辆轨迹的准确性。最后,实验结果表明:1)与保守的驾驶策略相比,CAV在与HDV争夺路权时,使用所提出的方法可以确保安全的同时,采取更合理的行动来决定是否让行;2)较高的CAV普及率,能显著提高出行效率,同时还能降低在无控制交叉口发生碰撞的风险。

关键词:互联与自动驾驶汽车;分布式控制策略;博弈论;驾驶风格;多智能体系统


1. 介绍

交叉口是导致城市交通网络发生严重事故和产生交通拥堵的主要瓶颈之一。根据死亡分析报告系统(FARS)可知,在2020年,美国一共发生了54272起致命车祸,这其中28.9%与交叉路口有关。此外频繁的交叉口拥堵会导致经济损失和环境污染。因此许多研究提供了减少路口交通冲突和实现更好交互的解决方案。按照交通控制类型,路口可以被分为(1)信号控制,(2)交通标识控制和(3)非控制。在信号控制的交叉路口,交通信号相位和配时(SPaT)主要用于现实控制,以匹配动态的交通需求,例如SCATSSCOOTRHODESOPAC等。在标识控制的交叉路口,通过设置“停止”或“让行”标志,可以使得驾驶员安全通过。在信号灯控制的交叉路口,通过为不同行驶方向的车辆分配优先通行权,可以减少时空冲突。而另一种类型的交叉路口是无交通信号灯或标识的无控制交叉路口,它们广泛分布于交通系统中;同时,对于人类驾驶员和自动驾驶车辆而言,它们是高度复杂的场景,比有控制交叉路口具有更多的潜在冲突。

随着自动驾驶技术的蓬勃发展,为提高交通效率和安全性,自动驾驶在智能交通系统中越来越受到关注。在非控制路口控制车辆有两种现有途径;(1)车路协同自动驾驶(VICAD)(2)自动驾驶系统(ADS)VICAD是一个带有旨在实现联网和自动驾驶车辆(CAV)集中控制的计算中心的道路管理系统。它通过车联网(V2X)技术增强对周围环境的感知,以帮助CAV更好地与驾驶员、车辆和道路进行交互。最常用的方法是自动交叉路口管理(AIM),这是一种最初为CAV量身定制的集中式交叉路口控制策略。另一方面,ADS是用于CAV的分布式单车辆控制系统,它需要传感设备或V2V(车辆与车辆间)通信来收集实时数据然后再采用准确的车辆操作。随着CAV数量的增加,再由于目前大量使用HDVCAVHDV的混合交通流在可预见的未来将长期存在。在混合流环境中,集中控制(AIM)并不适用于HDV,这是因为HDV无法完全遵守路口管理者发出的指令。相反,分布式式控制不需要集中控制设施,还可以将复杂的优化过程分解为多个并行的简单决策,从而缩短了计算时间,提高了在非控制交叉路口下解决多车辆冲突的实用性。由于本研究的场景是HDVCAV的混合流环境,因此我们主要关注分布式式方法,以对单车的驾驶行为进行建模,并为单个车辆开发控制策略。

在混合流环境中,车辆之间的交互是不可避免的,在设计分布式控制算法之前应该对此进行研究。自动驾驶车辆不仅应该感知周围环境,还应该理解人类交互机制,以做出社会兼容决策,并形成交互密集型多智能体系统,从而有助于提高交通系统的效率和安全性。由于无法获得周围车辆的决策,且其行为不受控制,因此CAVHDV之间很难实现有效的合作。因此,最佳的驾驶决策通常是混合流交互中的用户均衡,即每辆车通过预测对手的未来决策来最大化个人利益,从而独立做出决策。现在已经有许多方法和模型来解释和模拟交互行为,例如在线验证方法、基于学习的方法和博弈论的方法。数据驱动方法(例如在线验证、深度学习和强化学习)通常用于在训练后生成端到端的轨迹规划。然而数据驱动的方法缺乏可解释性,并且不能轻松地适应新的驾驶场景。另一方面,博弈论作为一种基于机制的方法,可以将其他交通参与者视为相互依赖的智能体,并从个体角度做出决策,这种方法被广泛用于分析多智能体系统中的战略推理,并且可以为模拟人类互动提供可解释的显式解决方案。这项研究旨在模拟多车交互,并在HDV-CAV混合流环境中的无控制交叉口开发类人的分布式控制策略,其中“类人”是指生成类似于人类驾驶员的合理驾驶行为;为了实现这一目标,我们提出了一种博弈理论框架来模拟CAV的交互并提供控制策略。这项研究的主要贡献总结如下:

(1)开发了一种不完全信息博弈模型以更好地适应某些信息可能不可用的混合流环境。驾驶风格识别算法被嵌入到提出的博弈理论模型中CAV的交互提供决策依据。

(2) 提出的模型可以解释多车交互的机制并可以应用于未来ADS中的决策算法,以处理复杂的混合流场景。此外解决方案的存在已被证明可以确保应用的可行性。

(3) 模拟测试了所提方法的性能和有效性。模拟结果表明,CAV在交通中表现出合理的预期行为并可以再现现实世界的驾驶行为。

本文的其余部分安排如下:第2节解释了所提出的博弈论框架,并提出了无控制交叉口的多车辆交互模型;第3节在单个无控制交叉口进行了仿真实验并分析了结果;第4节总结了一些结论和建议。


2. 数学模型

本研究的主要目的是模拟多车交互机理,并针对CAVHDV混合流环境中无控制交叉路口中的CAV开发最优控制策略。在混合流场景中,可能发生三种不同类型的潜在冲突:(1)两辆CAV之间;(2)一辆CAV和一辆HDV之间;(3)两辆HDV之间,如图1所示。

1. 三种交互的示意图(CAV-CAVHDV-CAVHDV-HDV)

因此,本研究针对不同的交互环境开发了三种模型。虽然状态信息(如速度、位置等)可以通过传感设备感知或检测,但由于时间延迟或信息保密性,其他车辆无法了解单个车辆的未来决策。换句话说,每个智能体(HDVCAV)在考虑多车交互中对方可能做出的决策时,都会决定最大化单方利益,这可以被视为非合作博弈。此外在无控制路口的车辆应确定优先权,以减少死锁和碰撞。因此,我们首先设计了一个交互机制来模拟这一过程。如图2所示,所提出的博弈论方法分为三个阶段:

(1) 主导-跟随关系识别阶段:在交互阶段,主导和跟随车的角色首先在主导者和跟随者的博弈中确定。

(2) 交互决策阶段:交互决策阶段包括CAV-CAVHDV-CAVHDV-HDV交互;在决策阶段,CAV可以根据交互过程中收集的信息动态识别HDV的驾驶风格。

(3) 控制阶段:控制变量是加速度。

2. 所提出的博弈论框架流程图

在本模型中,需要满足一些基本假设:

(1) 在所提出的模型中,出于简单考虑,自动驾驶水平较低的CAV和联网车辆(CV)被视为HDV,因为低水平的CAV难以处理复杂的交互;而CV即使在无控制的交叉路口配备了通信设备,也仍然完全由人类驾驶员控制。

(2)本研究假设每辆车都追求交通效率,并在多车冲突发生时避免碰撞或死锁。因此,我们通过博弈论方法对互动进行建模,优化复杂动态互动中的个体决策。

(3)本研究假设重型车辆是保守的,并追求最大个人利益,同时考虑最坏的情况。

(4)本研究假设CAV的驾驶风格可以由乘客手动调整,而HDV具有固有的驾驶风格。两者都可以通过模拟中的均匀分布生成。

(5)本研究假设交叉路口内车辆的行驶路径是根据交叉路口的几何形状和车辆的转向方向预先确定的。

2.1 主导者-跟随者识别

本节介绍了一种主导-跟随者的识别算法,用于模拟多车交互中的超车优先级。人类驾驶员通常通过“先来后到”策略来确定超车优先级,以解决交叉路口的潜在冲突。受FCFS策略的启发,这项研究为CAV开发了一种主导-跟随车辆识别算法,用于确定博弈中成对车辆的主导关系。每个CAV都可以收集其他车辆状态的信息,并通过车载设备同时执行主导-跟随者识别算法。

定义一对车辆(i,j),如果车辆i比车辆j更靠近冲突区域,则前者是主导者,后者是跟随者(记为ai?j)。在多车交互场景中,一辆车可能同时是几对关系中的主导者和追随者;因此,在多车交互中,应首先确定全局主导者和追随者的关系,以避免碰撞或死锁。例如,三辆车ijk以及两辆车之间的主导者和追随者关系分别为i>jj>kk>i,形成循环序列。循环序列表示死锁,应被消除以生成非循环序列。因此,我们设计了一个算法,以达成多车共识,确定所有车辆的主导-跟随关系,如图3所示。

3. (a) 生成交叉路口车辆领导-跟随关系的伪代码 (b) 分类算法示例

每个车辆的主导-跟随角色在全局系统中重新排列。这意味着主导-跟随关系中的主导者可能是另一个跟随者,并且必须采取服从主导者的行动。例如,存在三对相互作用:A>BB>CA>C,关系为A>B>C。对于B来说,存在两个冲突A>BB>CB考虑了两局中的决策,并选择行动以确保在A>B中扮演追随者的角色。

在图3(a)中,L表示每对主导者和追随者中的所有主导者集合,F表示每对主导者和追随者中的所有追随者集合,R表示全局主导者和追随者的关系,而r表示每次迭代中的临时领导者和追随者的关系。伪代码的主要思想如下:首先,将每对主导者和追随者中的所有主导者提取到集合L,再将所有跟随者放入集合F。如果领导者li在集合L中,且不在集合F中,则将其添加到r中。如果成对的跟随者fi不在集合L中,也不在集合r中,则将其添加到r中。如果集合为空,表示每辆车的通过优先级相同,则将随机选择的主导者-跟随者对(li,fi)添加到r中。从Q中删除所有主导-跟随对。最后将R中的所有领导-跟随关系相加。重复该过程,直到Q为空。图3(b)显示了主导-跟随排序算法的一个简单示例。初始主导-跟随对集为{(1,3),(2,3),(2,1)},所以L{1,2}

2.2 交互机制

本节解释车辆间的交互机制,包括HDV-CAVCAV-CAV交互。以下各节解释了交互机制模型中的三个组成部分:运动学模型(2.3)、收益函数(2.4)和驾驶风格识别算法(2.5)

2.2.1 HDV-CAV交互

HDV-CAV交互中的收益函数(表示驾驶员目标的数学表达式)和驾驶风格并不明确因为CAVHDV之间没有通信。因此,HDV-CAV交互可以被视为一个不完全信息博弈。CAV做出的最佳决策是在不完全信息下解决领导者-追随者博弈(斯塔克尔伯格均衡)的答案。

我们假设HDV通过最大化最坏情况下的回报来做出决策,这被称为最大化战略。设i∈N为车辆的索引,-i为不包括i的其他所有车辆。设aiAi为车辆i的行为(Ai是车辆所有可能行为的一个集合)s∈S为两辆车的当前状态。HDV的决策可以被建模为方程(1)-(3)

其中,ui是车辆i在预测最坏情况下的效用函数,B-i(s)是竞争对手-i的最佳反应集。由于反应延迟或其他原因,车辆无法立即响应对手的行为。因此,我们假设车辆会考虑对手为了确保效用而采取的最坏情况(即最大最小策略)

同样,HDVHDV-HDV交互中的行为也遵循等式(1)-(3)中的规则。

CAVHDV-CAV交互中的决策可以被模拟为一场不完全信息博弈。设Θi(Θ(-i))为车辆i(或竞争车辆-i)的类型集合,包括两种驾驶风格(激进或谨慎)。设p(i)为驾驶风格的联合概率分布。ui:S×Θ→R是驾驶员i在不同驾驶风格下的所有策略的罕见回报函数。在信息不完全的博弈中,由于HDV的侵略性未知,CAV通过观察HDV在上一决策周期中的行为来修正对手类型的概率。设K为车辆通过互动所需的时间范围;时间范围可以被离散化为一组相等的时间间隔:01、……、K,而决策集被定义为K=(0、……、k、……、K)。设pii(-i))为当前信念中除i外的所有驾驶员的优先联合概率分布,a_(-i)^(k-1)为驾驶员i在上一决策集k1中采取的行动。(|)表示驾驶员根据信息认为其他驾驶员属于类型的概率分布。因此,不完全信息博弈的最佳解可以用方程(4)-(5)表示:

如图4所示我们采用哈萨尼转换将不完整信息博弈转化为完整但不完全信息博弈。在哈萨尼转换中一个名为“自然”的玩家被引入不完整信息博弈去做出选择驾驶员类型的第一步,但并非所有人都观察到自然玩家的举动。由于HDV的驾驶风格对CAV来说显而易见,博弈中可能出现两种HDV风格。因此,选择攻击性风格的概率为p,而谨慎风格概率则是是1-p。假设驾驶员对概率有相同的看法,且只有HDV会观察到“自然”的行为。CAV应该对两种类型的HDV做出不同的反应,并采取最佳行动。

4. 信息不完整时的扩展博弈

根据以下提出的假设,可以确保所提模型中存在解决方案,详细证明见附录部分。

假设1:非合作博弈中,纯策略纳什均衡(NE)总是存在的。

假设2:若玩家类型数量有限,则分布式策略的不完全信息博弈总是存在解的。

2.2.2 CAV-CAV交互

本研究提出了一种完整的信息博弈模型,用于模拟CAV-CAV之间的交互,其收益函数是明确的,且信息在相互连接的自动驾驶汽车(CAV)之间共享。我们使用斯塔克尔伯格博弈来描述这种交互,该博弈假定博弈中存在等级结构,跟随者根据主导者的行动确定最佳响应,以优化效用,然后主导者根据跟随者的预期行为调整行动,以最大化效用。

我们假设领导者会考虑到追随者的理性反应,从而采取最佳行动。这个斯塔克尔伯格均衡的的解可以表示为等式(6)-(8)

上述表达式中,是追随者i的最佳响应集。追随者可以采取行动,使领导者可能采取的行动的效用最大化。

以下假设应得到证实,以证明所提模型中解决方案的存在。

假设3:如果满足以下条件,那么斯塔克尔伯格均衡(SE)的解决方案就是纯策略纳什均衡(NE)的解决方案:主导者总是采取加速行动(除非达到速度极限),而追随者则采取服从领导者决定的最佳行动。

2.3 运动学模型

本节解释了控制现实世界车辆运动的运动学模型,包括车辆通过路口时的速度、加速度和角度。

根据现实世界的交通规则和定律,一旦车辆在一条车道上行驶,其运动是固定的。例如,一号车道的HDVs会左转,但不会变道。CAV可以确定HDV的运动并发现潜在的冲突点。由于车辆在固定的路径上行驶,决策变量是每个决策周期k∈K的加速度。在本研究中,我们以一个由左转弯车道和直行车道组成的双车道且无控制的交叉口为例来应用本文所提出的方法,如图6所示。

6:交叉口的两种冲突示意图:LT冲突和LL冲突

a∈A={1,0,-1}为动作,分别表示加速、不采取动作和减速。速度更新公式如式(9)所示:

在此基础上,本模型还引入了一个指标来估计第k个周期的决策的平均旅行速度,如式(10)-(11)

5. 潜在冲突区域两辆驶近车辆的示意图

在上述的情况中,交叉口存在三种类型的转弯冲突点:(1)直行与直行的冲突(简称TT冲突,如图5所示)(2)左转与直行的冲突(简称LT冲突)(3)左转与左转的冲突(简称LL冲突)。转弯轨迹为图6中的一个象限,车辆i离冲突点的间隙可计算为公式(12)

在图6LT冲突的情况下,θ0可以通过公式(13)计算:

其中,wiwj分别为车辆ij的宽度。

θ0 (ei,ej)为左转弯车辆i在其边缘ei与轨迹ei和轨迹ej形成的冲突点之间的最大角度。当j向东西方向移动时,θ0 (ei,ej)可以表示为公式(14)

j朝南北方向移动时,θ0 (ei,ej)可以表示为公式(15):

20241007172828079279805821.png为直行的运动车辆i在其边缘eieiej形成的冲突点的间隙。当i在东西方向移动时,冲突点间隙的计算式可以表达成公式(16)

其中,如果ei向东,则φ(ei)=1;否则,φ(ei)=-1;如果ej是东北方向或东南方向,则φ(ej)=1;;否则φ(ej)=-1

同样,当i向南北方向移动时,冲突点间隙可以将表达为公式(17)

其中,如果ei向北移动,则φ(ei)=1;否则,φ(ei)=-1。如果是ej东北或东南方向,则φ(ej)=1;否则,φ(ej)=-1

在图6LL冲突的情况下,最大角度可表示为公式(18)

2.4 收益函数

本节解释了设计的收益函数。司机和乘客关心的主要因素是收益函数中的效率和安全。因此,使用考虑效率和安全的加权和函数来评估每个行为的效益。

效率体现在车辆通过交叉路口时的平均速度上,速度越高表示效率越高。为了区分激进和谨慎的司机,我们假设激进的司机有一个凸效用函数,而谨慎的司机有一个凹效用函数。它可以得在相同的速度下,激进的司机效用会高于谨慎驾驶的司机。我们也在公式(19)中设置了不同的参数来区分两种风格。

其中,Uspeed是速度的效用,表示的是对速度的满意程度。image.png是衡量速度效用的预设灵敏度参数。本研究定义image.pngimage.png分别代表激进型和谨慎型风格。如果驾驶员比较激进,则image.png;反之,image.png。指数函数中image.png的项总是大于1,这样可以避免当image.png时,激进的驾驶员的效用小于谨慎驾驶员的情况。是image.png放大速度值的比例因子,反映了效益的偏好程度。image.png是一个预期速度。image.png是平均行驶速度,如公式(11)所示。

量化安全性的一个常用指标是碰撞时间(TTC)TTC代表碰撞迫在眉睫的危险水平,较高的TTC表示更安全的驾驶环境。在交叉口场景中,TTC是每辆车到潜在冲突点的时间。车辆i在第k时刻的TTC可按公式(20)计算:

其中image.png车辆i在决策周期k到冲突点的间隙image.png车辆i的宽度,image.png是领队j的速度,M是一个非常大的正值。ε是一个非常小的正值,以避免分母为0。公式(20)中上面的公式对应潜在冲突存在的情况,下面的公式对应没有冲突的情况。

我们设计了一个安全收益函数,使用指数函数捕捉灵敏度,如式(21)所示。

其中Usafe是安全的效用,表示的是安全的满意度。TTCmin为最小碰撞时间,表示安全阈值。如果TTCki小于TTCmin,则认为驾驶员存在“安全”的情况,否则,视为“不安全”情况。λ2是一个作为放大系数的负数,可以反映不同的驾驶风格,即激进司机的λ2高于谨慎的司机。本研究定义image.pngimage.png分别代表激进和谨慎的驾驶风格。如果驾驶员比较激进,则image.png;否则,image.png

我们使用一个权重来代表将效率和安全效用结合起来的驾驶风格。驾驶风格将显著影响驾驶决策和机动,同时也代表个人瞬时偏好或长期驾驶习惯。根据前面描述过的驾驶激进或谨慎,驾驶风格主要分为两种或三种类型:激进,谨慎和中性。本研究将驾驶风格分为两种类型:激进和谨慎。激进型驾驶员在十字路口行驶时更注重效率,而谨慎型驾驶员则更注重安全。

总效用函数表示为公式(22)

其中,image.png是衡量车辆i的两个指标(效率或安全)重要性的权重因子。ωi值较大的驾驶员更关心效率,可以认为更激进;反之,则可认为是谨慎的。

2.5 驾驶行为识别

2.5节介绍了一种驾驶风格识别算法,以帮助CAVHDV-CAV交互中推断对手可能的驾驶风格。CAV用在车辆中收集到的HDVs行为信息,使用驾驶风格识别算法来估计不同风格HDVs(即激进和谨慎)的概率。

速度和加速度等运动学特征可以反映人类的驾驶风格。本研究提出了一种基于实时收集的动作信息的博弈论模型来推断人类驾驶风格的方法。由于CAV的感知能力和计算能力通常强于人类驾驶员,因此我们假设CAV可以利用HDVs的实时动作来识别驾驶风格。相比之下,人类驾驶员则不具备这种能力。HDVs根据指定的权重计算效用,并采取总效用最高的操作。CAV基于HDV在前一个决策时期k?1的行为和HDV的效用函数来估计k时期的权重。估计过程基于提出的博弈论框架,表示为公式(23),可以描述如下。

(1)收集周围车辆的实时动作。

(2)利用收集到的信息推断出HDVs可能驾驶风格的上下界。

(3)利用贝叶斯理论修正加权因子。

其中image.png是基于行为在决策周期k-1下的效用函数,且image.png。通过比较不同的效用函数,驾驶员最终采取效用最大的行动。因此,的上限和下限可以用最大效用理论来推断。由于多个CAV可以同时从HDV信息,因此,通过共享信息image.png可以估算出CAV中的image.png,而ωi在决策周期k的上、下限可以通过公式(24)(25)进行更新。

式中inf{*}表示的是*的下限制值,sup{*}表示的是*的上限制值。image.png表示初始加权因子的取值范围。

然后,我们使用公式(5)来估计激进驾驶风格的概率。图7展示了三种行为(acc, dec, no actions)在所有可能的权重因子(0~1)下的效用函数。中性权重因子设为0.5ωi≦ω*表示驾驶风格为谨慎型,ωi≧ω*表示驾驶风格为激进型。如果CAV观察到HDV不采取任何行动,则HDV的权重因子必须在0.43~0.67之间。谨慎型的概率为0.5-0.43=0.07,激进的概率为0.67-0.5=0.17。主导者的先验概率分布设为0.5。因此,根据式(5),后验概率为0.17*0.5/(0.17*0.5+0.07*0.5)=0.71,这意味着CAV根据前一个决策周期的信息将HDV的激进概率从0.5修正为0.71

7. 主导者三种行为(加速、无动作、减速)在不同权重因子下的总效用(红色虚线表示在不同行为下的最高效用)


3. 实验与结果

在第3节中,我们首先校准了参数并设计了几个仿真测试来验证所提出模型的性能。接下来,本文将验证其复现真实世界车辆轨迹的可行性。最后,再通过几次仿真,以测试类人驾驶策略在混流环境中的性能。

模拟场景是一个孤立的双车道且无控制的交叉口,使用开源微观交通模拟软件SUMO对交通进行模拟。CAV控制区域是以交叉口几何中心为圆心的圆,其半径rc=20m,如图1所示。车辆的长度和宽度分别为6m1.6m。由于人类感知存在局限性,我们在本研究中将HDVs的感知范围设置为5m

3.1 参数校准

效益函数中的参数基于INTERACTION数据集进行校准,以捕捉人类特征并帮助自动驾驶汽车采取类似人类的行动。我们从原始数据集中提取了49,494条交互数据,包括速度、间隙和动作。使用贝叶斯优化(BO)方法估计参数,该方法使用通常用于设置超参数的概率代理模型来优化黑盒函数。它将问题视为公式(26)

其中f是对任意参数向量x∈x求值的函数,这导致了观测值被噪声破坏,可以被表示为公式(27)

式中image.png表明ε是服从于均值为0的高斯分布噪声。BOf上放置代理模型并生成获取函数。定义迭代t处的历史数据集为image.png。然后,在函数中选择一个新的解image.png带入到公式(28)中:

动作空间(acc, dec, no actions)被转换成概率分布向量image.png。如果人类驾驶员选择动作空间中的一个动作,则该动作的概率为1;否则,则为0。例如,如果驾驶员决定加速,则概率分布为p=(1,0,0)。估计参数的概率可以通过Logit模型计算,表示为公式(29)

具有估计参数的概率的精度可以计算为式(30)

其中η为估计参数下概率的精度,n为动作的指数,|A|为动作空间的大小。m为数据的索引,m为测试数据集的大小。image.png为一段时间的估计概率,image.png为数据m中的真实概率。

参数向量image.png基于BO法进行标定。每个的值x中的元素设置在一个合理的范围内。随机抽取80%的数据作为训练数据集,剩下的用来形成相应的测试数据集。总迭代次数设置为200次。最终的最优参数向量为(9.79, ?2.45, ?3.82, 1.77, 0.98, 1.03, 8.86)。此外,我们还记录了校准模型计算的每个时间步长的动作,并使用公式(30)计算了模拟中每个时间步长的动作与测试数据集之间的匹配率。平均精度为82.6%,验证了校正后的模型可以帮助自动驾驶汽车做出类似人类的动作。

3.2 仿真与分析

在仿真中,车辆被放置在路段的起始位置,初始速度设置为0m/s。然后,我们模拟了不同出行需求、自动驾驶汽车普及率和车道到达对称性下的交通流。与此同时,我们还测试了所提出的驾驶风格识别算法的性能。

3.2.1 再现真实世界的场景

我们验证校准的模型是否可以再现和模拟真实世界的人类驾驶行为。仿真车辆位置如图8所示,包括TT冲突(a1-a4)LT冲突(b1-b4)两种场景;也在此基础之上,还绘制了其在现实世界的运动轨迹:A1-A4表示TT冲突,B1-B4表示LT冲突。模拟中的关键特征与现实世界数据集中的特征一致。图8显示,车辆可以在多车交互中达成共识,并屈服于主导者。在TT冲突场景中,3号车准备穿过十字路口并快速移动。1号车和2号车以低速移动。然后3号车继续移动,1号车和2号车在入口处等着让3号车先通过。在LT场景中,2号车减速,让1号车先通过。在这个过程中没有发生碰撞或死锁,这表明当潜在的冲突发生时,车辆可以有效地互动。

8. 使用校准模型再现真实世界的多车辆在十字路口的相互作用子图a1-a4 (b1-b4)TT (LT)冲突场景中的模拟,子图A1-A4 (B1-B4)TT (LT)冲突场景中的真实轨迹

对比结果表明,校准后的模型可以在可接受的范围内再现现实世界交互中的类人行为。其匹配率可以用公式image.png计算,其中是Km一个指标(如果误差在仿真和真实世界数据低于5%,那么Km=1;否则Km=0,)。通过计算可知,其匹配率约为80%,验证了所提模型的有效性。因此,我们将校准后的模型应用于其他场景。

3.2.2 多车交互

接下来,我们测试了提出的算法在处理复杂的多车交互方面的性能。我们记录五辆车的运动状态,如图910所示。

9. 五车相互作用示意图

10. 五车交互时的速度和加速度

9(a)显示了十字路口的五个潜在冲突点。我们记录以车辆id对表示的冲突对:1-21-52-33-44-5。在多车系统中,2号车和5号车是leader,所以它们可以先通过十字路口。1号车、3号车、4号车要让位给2号车、5号车。图9(a)-(d)再现了这种相互作用。

2号车和5号车驶出路口时,1号车、3号车和4号车可以再次确定路权。由于4号车比3号车更接近冲突点,所以4号车是先行者,可以先通过。3号车放慢速度,等待4号车先通过。交互过程再现如图9(e)-(g)所示。

在图9(h)-(i)中,十字路口没有潜在的冲突点,因此汽车134可以自由行驶。

在图10中,上面的子图表示速度变化,下面的子图表示加速度变化对应图9中的决策。2号车和5号车是先导车,所以速度不受影响。3号车从130170个时间步继续减速,说明3号车是跟随者,速度受到其他车辆的影响。从图9和图10可以看出,本文提出的方法可以提高多车交互的交通效率并保证安全。

3.2.3 时空图

为了测试所提方法的安全性能,我们记录了车辆在3000个时间步长的两个冲突方向的间隙。在图11中,绿色实线表示4号车道车辆的轨迹,蓝色实线表示7号车道车辆的轨迹,阴影区域(宽度为3)表示2号点的冲突区域(如图7所示)

7号车道上到冲突点的初始距离为20米,4号车道上为20米。两条车道上的车辆将向冲突点移动(y=0),如果两辆车的轨迹交点在冲突区(阴影区),则会发生碰撞;反之,则不发生碰撞。在图11中,冲突区域内没有交点,即在冲突点处不会发生碰撞。基于提出的方法,自动驾驶汽车可以采取合理的动作来避免碰撞。

11. 两个潜在冲突方向上车辆的时空图

3.2.4 算法性能

(1) 驾驶风格识别性能

为了测试所提出的驾驶风格识别方法的性能,我们记录了CAV捕捉到的HDV的激进操作及其发生的概率,如图12所示。例如,图12(a)1号车和2号车都是谨慎的,1号车和2号车的真实激进性分别为0.450.251号车激进性的估计上界下降到0.5以下,下界上升到0.4以上。真正的激进性介于估计的上界和下界之间。激进风格的概率在第5个时间步下降到10%左右,这意味着目标车辆做出激进操作的概率在10%左右。同样,2号车的估计上界下降到0.5左右,激进操作的概率下降到30%左右。

12(b)展示了两个较激进HDV的例子。1号车和2号车的真实激进性分别为0.810.91号车侵略性的估计下界上升到0.8以上,2号车的激进性的估计下界上升到0.75以上。激进风格的概率上升到90%左右,也就是说激进风格的概率在90%左右。同样,汽车2的估计上界上升到0.75左右,激进风格的概率上升到90%左右。

结果表明,该方法可以识别驾驶风格,并能在多次交互后估计HDV的激进程度。

我们将人群中激进驾驶风格的概率设置为50%,并模拟一小时内的交通情况。图13显示了驾驶风格识别和动作预测的准确性。在图13最上面的子图中,我们将提出的识别方法的估计精度与不识别的估计精度进行了比较。如果激进风格的估计概率高于ω*且激进程度高于ω*,则判断为正确。结果表明,所提算法的准确率约为95%,而未识别的准确率约为50%。在最下面的子图中,动作预测的准确率约为90%,而没有识别的准确率为约60%

12. 激进概率估计和驾驶风格识别;12(a),保守型驾驶激进概率估计,12(b),激进型驾驶激进概率估计

13. 驾驶风格识别准确率和动作预测准确率

(2) 控制策略表现

本小节比较了不同场景下控制策略的性能:1)配备该控制策略的自动驾驶汽车,2)所有车辆遵循交通信号灯的控制,3)所有车辆遵循交通标志(无信号灯)的控制。将交通需求设置为300vph/车道(低需求)600vph/车道(高需求)。对于有交通信号的场景(场景2),交通信号的一个周期包括四个相位;对于南北走向:(1)直行和(2)左转;对于东西方向:(3)直行(4)左转。采用韦伯斯特的方法计算,信号灯周期时间为65112秒,在低需求或高需求的情况下,每个方向的绿灯时间为1425秒。有停车标志的场景(场景3)遵循亚干道(西-东方向)车辆向主干道(南北方向)车辆让路,CAVHDV车辆让路的规则。每次模拟运行的总模拟时间为15分钟,自动驾驶汽车的普及率率设为50%

记录平均行驶速度和吞吐量,如图14所示。在图14(a)中,采用本文提出的方法、标志控制和信号控制,交叉口车辆的平均速度分别约为10m/s5m/s3m/s。在图14(b)中,采用本文提出的方法、信号控制和标志控制时,交叉口车辆的平均速度分别约为5m/s2m/s2m/s。采用本文提出的方法、信号控制和标志控制,每分钟的吞吐量分别约为80veh50veh40veh

14. 所提出的方法、信号灯控制和标志控制的比较

结果表明:(1)自动驾驶汽车在相互作用中可以更有效地利用间距。(2)在低需求场景下,信号控制可能比标志控制带来更长的等待时间,导致交通容量的浪费。(3)由于在高需求场景下会发生很多冲突,标志控制无法处理大流量,更适合于低需求场景。

总体而言,提出的算法优于其他两种方法。对比结果表明,该方法可以改善多车交互,帮助自动驾驶汽车更合理地调整速度。

3.2.5 灵敏度分析

在本节中,我们将研究CAV的普及率、每条车道上的车辆到达以及车道到达对称性等可变参数如何影响宏观交通流。

在不同自动驾驶汽车普及的场景下,我们将车辆到达率设定为900vph/车道。在图15中,随着普及率的增加,速度和吞吐量增加,而延迟和队列长度减少。在CAV的普及率为100%的场景下,平均速度达到8m/s左右,吞吐量为120/分钟(7200vph),远高于其他场景;在另一方面,延迟和排队长度为零。结果表明,提高自动驾驶汽车的渗透率可以提高交通效率,并实现与HDV的有效交互。

15. 不同自动驾驶汽车普及率水平下的十字路口统计;15(a)车速和通过车辆数,15(b)延误和排队长度

在不同的交通需求场景下,自动驾驶汽车的普及率设定为50%。如图16所示,更高的流量需求导致速度和吞吐量下降,延迟和队列长度增加。在300vph/车道(2400vph)的需求场景下,平均速度约为10m/s,吞吐量为40/分钟。而在400vph/车道(3200vph)场景下,平均速度在10/秒到3/秒之间波动,说明现在发生了同步流。当需求高于400vph/车道时,平均速度保持在2.5 m/s左右,这表明十字路口发生了大规模拥堵。

16. 不同交通需求水平下的交叉口统计;16(a)车速和通过车辆数,16(b)延误和排队长度

进一步,我们还模拟了不同车道到达对称性下的交通情况。总流量到达为600vph/车道,且自动驾驶汽车的普及率为50%。仿真结果如图17所示。E25-S25-W25-N25表示每条入线车道上的到达占总到达的25%。我们还测试了E35-S15-W35-N15E50-S25-W15-N10场景。E50-S25-W15-N10场景下的交通效率高于其他场景,说明在无控制的交叉口,非对称到达可以减少延误和队列长度,提高交通效率。

17. 不同车道到达对称性下的交叉口统计;16(a)车速和通过车辆数,16(b)延误和排队长度

3.2.6. 安全性评估

本文定义了一个称为碰撞风险风险程度的定量指标来评估模拟中的安全性,如公式(31)所示。风险值越小,表示碰撞风险越低。

其中,如果车辆i在决策周期k有可能与其他车辆发生碰撞,则vi,k=1;否则vi,k=0Ktotal为模拟中所有车辆的决策周期的总数。

由图18可知,碰撞风险随着交通需求的减少和CAV渗透率的增加而降低,表明本文算法可以提高交叉口交互的安全性和性能。

18. 不同交通需求下的碰撞风险程度与CAV普及率的关系

4. 总结

本研究提出了一个非合作博弈框架来模拟单个无控制交叉口的多车辆交互行为。该模型可在决策过程中为自动驾驶汽车提供类人的分布式控制策略,以实现更好的交互并预测人类的驾驶行为,在未来混合交通流场景下的无控制交叉口管理中具有实用价值。与保守控制策略(CAVHDV让路)相比,本文提出的控制策略可以帮助CAV利用车辆间隙,采取与人类驾驶员类似的博弈决策行为,在保证安全的同时提高交通效率。

针对自动驾驶汽车,本研究提出了一种基于FCFS规则的主导者-追随者识别算法,用于分配以及分级传递优先级,防止死锁和碰撞。不同的相互作用机制(HDV-CAVCAV-CAVHDV-HDV相互作用)旨在提供控制策略,并且在混合流环境中更具适应性。将不完全信息框架下的非合作主导-追随者博弈应用于HDV-CAV交互中,以解决人类驾驶风格的不确定性,帮助CAV准确预测人类行为。本文还提出了一种基于交互过程中收集的运动学信息的驾驶风格识别方法来估计HDV的激进程度的算法。将CAV-CAV交互建模为完全信息下的非合作主导-追随者博弈,将HDV-HDV交互建模为Nash博弈。证明了NESE的存在性,保证了所提方法在现实应用中的可行性。

随后,本文建立了一个基于SUMO的仿真平台来验证和测试所提出模型的控制性能。参数在基于真实世界数据集的收益函数中进行校准,指导CAV采取类似人类的行动。本文在一个孤立的双车道交叉路口模拟交通,这是城市交通系统中的典型场景。模拟的轨迹接近真实轨迹,这表明所提出的模型可以再现现实世界的场景。然后,本文接着分析了自动驾驶汽车普及率、交通需求和车道到达对称性等参数的灵敏性。结果表明:(1)与保守策略相比,采用类人策略的自动驾驶汽车在与HDVs争夺路权时,能在保证安全的前提下更合理地做出退让决定;(2)自动驾驶汽车在非受控交叉口的渗透率更高,能提高交通效率和安全性;(3)非对称车道到达有助于车辆解决冲突。

在未来,我们将对当前的研究进行拓展,包括以下三个方面。(1)目前的仿真场景是一个孤立的双车道交叉口,只有独立的左转弯和直行车道,这限制了其现实应用。在未来的研究中,我们将更多地聚焦于模拟真实世界的场景来测试所提出模型的性能。(2)本文假设自动驾驶汽车之间的交互行为为非合作博弈,但随着无线通信和自动驾驶技术的发展,车间交互可以建模为合作博弈框架。(3)本研究仅提供了个体决策策略,未来的研究可以对自动驾驶车辆的群体决策进行研究。