最后一英里送货服务的分散优化与非合作有界理性客户外文翻译资料

2022-10-30 10:10

英语原文共 19 页，剩余内容已隐藏，支付完成后下载完整资料

窗体顶端

最后一英里送货服务的分散优化

与非合作有界理性客户

Yezekael Hayel · Dominique Quadri · Tania Jimeacute;nez ·
Luce Brotcorne
Published online: 7 June 2014
copy; Springer Science Business Media New York 2014

摘要: 本文的目的是在竞争中引入有界理性行为排队系统。此外，我们提出了两个最后一英里交货的现实排队模型消费者竞争的服务。这项工作来源于现实世界中电子商务应用。我们使用博弈理论观点研究问题：电子消费者正在通过最后一英里的交付服务系统进行交互，从而创造相互拥塞。具体来说，我们将分析集中在阻塞/路由博弈的几个均衡概念：Wardrop和Logit均衡。这些均衡概念的差异在于博弈者的合理性水平。我们能够证明两者平衡的存在与唯一性。我们通过一个称为理性价格的新度量来比较它们，我们还通过“无政府状态价格”将每一个与社会最优解进行比较。并且提出了一些数值结果，以说明获得的理论结果。

关键词: 排队系统博弈理论合理性

一、介绍

如今，互联网上的电商也被称为电子商务，已经变得越来越有吸引力，现在已被广泛应用。从摩根大通的年度互联网投资指南来看，电子商务销售年增长率约为20％，2013年达到9,630亿美元。这意味着重要的新物流中心成为管理网络上的所有购买的工具。

互联网销售商的一个关键问题是交付服务设计（Agatz et al。2008）。确实，送货服务的选择大大影响了顾客的满意度（Boyer和Hult，2005）。其中两个主要服务为送货上门和客户接送（Rabinovich和Bailey 2004）。送货服务包括将包裹直接送到客户的家中（我们称之为“送货上门（DaH）”），而客户的包裹则是在一个地点（也称为中转站）上接收包裹到消费者的家庭或工作[我们称这个服务：中继站服务（RSS）]。在这种情况下，最后一英里由消费者执行。选择RSS会受到包裹出口处数据包容量的限制：包裹出口已满时，必须拒绝包裹。这个最后一英里的送货服务选项通常是免费的，但最后一英里的送货服务时间比选项DaH长。选择DaH可以对大多数消费者来说更方便，因为包裹将在较短的时间内交付，但不是免费的。

在本文中，我们考虑使用DaH或RSS传递消费者的最后一英里交付问题。我们用两个理论框架来模拟这两个最后一班交付服务之间的权衡：

第一个是排队模型（Cooper 1981）。一方面，我们决定用有限的容量队列（称为Erlang-B模型）对RSS进行建模，这很适合这种情况。另一方面，送货上门（DaH）的交付通过M / D / 1队列进行建模，具有简单的先入先出规则和恒定的服务速率。事实上，DaH服务是为每单位时间提供给定数量的包裹。

本文使用的第二个框架来自博弈理论。每个消费者通过优化自己的目标功能来确定他最后一公里的送货服务。每个消费者的决定间接影响他人的决定，因为平均成本取决于需求。因此，我们考虑了一个非合作的框架与非常多的参与者。然后，我们使用Wardrop平衡（Wardrop 1952）的概念，与Nash（Fudenberg和Tirole，1991）的标准平衡概念相比，其适应性更好地适合路由博弈。与具有有限数量的参与者的标准非合作博弈的主要区别是个人对其他人的影响：在Wardrop背景下，独特个人对其他人的行为影响可以忽略不计。更具体地说，大量人的偏差对其他人的目标功能有影响。特别地，Wardrop平衡最初是在交通网络中提出的（参见“关于交通分配问题的书Patriksson 1994”），其中玩家是通过他们的旅行路径交互的车辆（参见Dafermos和麻雀1969）。 Wardrop的主要假设是，每个玩家（车辆）都是一个决策者，并最大限度地减少他的旅行费用。

Wardrop平衡基于以下两个原则：（1）“实际使用的所有路线的行车时间等于和小于任何未使用路线上的单个车辆将遇到的行驶时间”和（2）“在平衡平均旅行时间是最少的”（见Patriksson 1994）。

第一个意味着每个用户非合作地寻求使他的运输成本最小化。第二个原则意味着没有任何用户有个别偏离均衡的好处。

用户最佳情况是一种均衡的情况，即没有旅行者可以通过单方面选择另一条路线来减少旅行成本。然后，用户最优情况的特征在于实际使用的所有路线的平均旅行费用相同。但是，在这种情况下，总体旅行时间一般比集中式实体控制交通情况要差。后者导致系统最佳状况的概念，其中社会通过施加路线选择或对其进行收费来引导用户最佳地利用交通网络，即最小化总行驶时间。

在我们研究的第一部分，我们展示了我们的非合作交付博弈的Wardrop平衡的存在和唯一性。

包括Wardrop在内的非合作博弈模式的主要假设是考虑参与者是完全理性的。这意味着他们通过应用最好的反应，即通过选择优化自己的目标功能的动作来对其他人的行动作出反应。这种假设是非常强大的，在若干情况下并不现实。例如，它不考虑参与者的错误或非理性。这种理性特征决定了消费者根据系统信息做出决定。玩家观察到的主要信息是预期效用，被定义为其行为后果的有用性。与理论背道而驰的非理性的一个主要来源是预期效用的错误。

存在一个考虑用户预期效用的误差的均衡概念，它是量子响应平衡（QRE）（Palfrey和McKelvey，1995）。当使用这个概念时，我们考虑随机错误，我们假设参与者根据这种有偏见的预期效用来决定他们的行动，我们说参与者是有界的（Gigerenzer和Selten，2002）。最着名的QRE是Logit均衡，它是当错误遵循钟分布时定义的（Anderson et al。2002）。

在本文的第二部分，我们假设消费者可能会遇到可能由于外部因素导致的预期效用的错误，然后我们研究Logit均衡。我们还显示了这种Logit均衡的存在和唯一性。然后我们理论上比较两个均衡。此外，在路由博弈中，使用一个度量来显示系统性能相对于所使用的均衡是有意义的。通常，使用无政府状态的价格。然而，如本文后面所述，这个度量在我们的上下文中是不现实的。所以我们建议应用更为适应的指标：合理性价格，据我们所知，这个指标从未被应用于路由博弈。

本文的贡献如下：

- 一种基于排队理论和博弈理论的简单模型，将战略排队系统中有界理性行为

的概念引入。
- Wardrop平衡和Logit均衡的理论研究：存在和唯一性的证明。

- 作为Wardrop均衡的上述两个均衡的比较作为基准。
- 在使用Wardrop平衡或Logit均衡时，使用合理性的价格来衡量系统性能的

差距。
- 数字插图。

本文的组织结构如下：在第二部分，我们描述了我们用于建模最后一公里运送服务网络的问题和数学框架。然后，第三部分将Wardrop平衡的标准概念作为Sect的基准进行研究。此后，在第四部分我们通过Sect中的Logit均衡模型介绍用户的有界理性行为。在第五部分，我们通过引入理论价格理论（PoR）的概念来比较均衡。我们在第六部分提供一些数字插图。最后第七部分我们总结并给出我们在Sect的工作的一些观点。

二、问题陈述

我们认为最后一英里的送货服务网络问题。消费者决定如何在两个最后一公里的送货服务系统之间提供服务：第一个选择是让运输公司将包裹存放在包裹出口以一种传递的方式。然后，最终用户可以决定他何时自己拿包。我们以后将这个选项称为RSS。第二个选择是要求运输公司将包直接送到家中。这个第二个解决方案在延迟方面更有效率，但更昂贵。在提及此服务时，我们使用“送货上门”（DaH）。我们对系统建模如下：每个时间单位（天或周）的客户需求遵循具有速率lambda;的泊松分布。中继站通过M / M / K / K队列建模，其中K是每次传递的容量，即可以存储的等待由消费者拾取的数据包的数量。我们假设在随机持续时间内，每个数据包占据一个存储单元（在被消费者拾取之前），其遵循具有参数mu;的指数分布。所有这些持续时间是独立和相同分布的。我们不考虑将数据包传送到中继站所需的时间。我们认为，当他/她选择这个选项时，客户最重要的是在选定的传递点（通常靠近他/她的房屋或他/她的办公室）交付。如果消费者决定他/她的包裹必须送货上门，那么他/她必须支付q的固定费用。此外，运输公司可以处理每单位时间的最大数量的数据包1 / D。换句话说，D是运输公司为了交付一个包所花费的时间。我们认为这一次是不变的，因为它与运输公司使用的车辆的运输能力有关。我们可以认为，这个时间也取决于一些外部随机条件（交通密度，司机等），然后我们应该考虑一个M / G / 1队列。为了使分析尽可能简单和清晰，我们决定保留M / D / 1模型。顺便提一句，本文的主要思想和结果与战略排队系统中有界理性行为的引入有关。特别是对于与最后一公里运送服务有关的应用，我们有兴趣了解交通运输能力的影响公司对系统的性能。这就是为什么确定性的服务时间适应我们的模式。因此，第二个选项使用具有先进先出（FIFO）服务规则的M / D / 1队列进行建模。我们通过考虑每个用户的决策过程是随机的，也就是说，我们假设每个用户通过混合策略（弗登伯格和Tirole 1991）研究了非合作博弈。那么在这种情况下，我们寻求一个混合的均衡。实际上每个用户都面临着两种可能的行为：RSS和DaH。我们用p来表示每个最终用户决定使用RSS进行最后一公里传送服务的概率。注意，混合平衡p *，意味着每个人将以概率p *选择动作RSS，完全等同于其中个人比例p *使用动作RSS和所有其他DaH的系统。
然后，混合均衡了，因为它对应于确定性的决策过程中的现实意义。

然后，考虑到具有概率p的混合策略概念，RSS（或DaH）的传入速率遵循泊松过程，其速率为lambda;p[ lambda;（1-p）]。如果最终用户决定使用动作RSS，则由于队列的填满，如果该数据包被拒绝，则他/她必须支付的成本为C，否则成本为零。这种成本可能来自于将分组重新路由到远离客户位置的另一中继站的情况。在这种情况下，客户可能会产生差旅费用或令人沮丧的成本，我们通过阻塞成本C来衡量这一点。然后，对于选择动作RSS的用户，由Cr（p）表示的成本是离散随机变量设置{0，C}。我们有

当我们将中继站作为Erlang-B模型建模时，分组以概率Pi;（lambda;，p，K，mu;）被拒绝。那么最终用户选择动作RSS的平均成本Cmacr;r（p）是：

其中

是阻塞概率，也称为Erlang-B公式。然后，我们有

窗体顶端

如果最终用户决定选择DaH，则他/她必须支付固定费用q并且产生一个成本，该成本与其分组的传送等待时间W（p）成比例。那么这个行为的成本C1（p）为:

其中A是单位等待时间的固定费用。第二个行为是通过M / D / 1队列建模的，所以当队列稳定时（当lambda;（1-p）D lt;1）时，平均等待时间W（p）为：

最后，它产生以下平均成本的行为DaH：

那么，选择在概率p的中继站服务的消费者的平均成本由下式给出:

从集中的角度来看，可以控制系统，使得只有个人的比例p *选择向中继站的传送。值p *被定义为：

解决方案p *称为交通分配问题中的系统最优流（Patriksson，1994）。该解决方案通常不同于用户最优流程的均衡。考虑到这个系统的最优流程，系统不让每个人选择他的交付选项。

三、排队系统中的标准均衡概念：Wardrop平衡

在非合作环境中，我们寻求消费者之间的平衡。由于消费者的数量可能非常大，我们考虑了Wardrop平衡的概念（Dafermos和Sparrow 1969）。 Wardrop平衡是排队系统中的一种艺术概念。因此，我们开始研究Wardrop平衡，以提供基准。

根据Wardrop的第一个原则，单个用户的决策对玩家（客户）的总人数没有影响。此外，我们可以在这里定义决定在中继站服务的个人的平均成本，其概率为p。人口概况确定决定在中继站服务的玩家人数中的个人比例。这个平均成本是由

我们将最佳响应函数表示为：

此功能很重要，因为它可以确定我们的系统是否具有避免在竞争排队系统中重要的Crowd（AtC）或者遵循Crowd（FtC）属性。事实上，如果一个模型是AtC（或FtC），那么它最多有一个平衡（多个均衡）（Hassin和Haviv 2003）。系统具有AtC（或FtC）属性，最佳响应函数是单调递减（相应增加）。如果且仅当以下情况下，策略pw 是我们设置中的威望平衡：

考虑到平均成本的表达，当且仅当以下情况时，策略pw 是均衡的：

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[138368]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码