Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 185|回复: 0

铺砌的道路未铺砌的道路和

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2024-5-6 16:57:16 | 显示全部楼层 |阅读模式
地图中的路线选择仍然是我们最有用和最常用的功能之一。确定从到的最佳路线需要在各种因素之间进行复杂的权衡这些因素包括预计到达时间通行费直达度路面状况例如用户偏好这些因素因运输模式而异和当地的地理。通常我们对旅行者偏好最自然的了解是通过分析现实世界的旅行模式。从观察到的顺序决策行为中学习偏好是逆向强化学习的经典应用。给定马尔可夫决策过程——道路网络的形式化——和一组演示轨迹行驶路线的目标是恢复用户的潜在奖励函数。尽管过去的研究已经创建了越来越通用的解决方案但这些解决方案尚未成功扩展到世界规​​模的。扩展算法具有挑战性因为它们通常需要在每个更新步骤求解子例程。乍一看由于大量路段和有限的高带宽内存即使尝试将世界范围的放入内存中来计算单个梯度步骤似乎也是不可行的。当将应用于路由时需要考虑每个演示的起点和目的地之间的所有合理路线。这意味着任何将世界规模的分解为更小的组成部分的尝试都不能考虑比大都市区更小的组成部分。

为此在中的大规模可扩展逆强化学习中我们分享了和之间多年合作的成果以超越这种可扩展性限制。我们重新审视该领域的经典算法并介绍图压缩和并行化方面  沙特阿拉伯手机号码列表 的进步以及一种名为后退地平线逆规划的新算法该算法提供对性能权衡的细粒度控制。最终的策略在全局路线匹配率即与地图中建议路线完全匹配的去标识化行驶路线的百分比方面实现了的相对改进。据我们所知这是迄今为止现实世界中最大的实例。使用逆强化学习策略时谷歌地图相对于现有基线路线匹配率有所提高。的好处关于路由问题的一个微妙但至关重要的细节是它是目标条件的这意味着每个目标状态都会引发略有不同的具体来说目标是终端零奖励状态。方法非常适合此类问题因为学习到的奖励函数可以跨转移并且仅修改目标状态。这与直接学习策略的方法形成对比后者通常需要参数的额外因子其中是状态的数量。一旦通过学习了奖励函数我们就可以利用强大的推理时间技巧。





首先我们在离线批量设置中评估整个图的奖励一次。该计算完全在服务器上执行无法访问各个行程并且仅对图中的批量路段进行操作。然后我们将结果保存到内存数据库中并使用快速在线图搜索算法来找到在任何起点和目的地之间路由请求的最高奖励路径。这避免了对深度参数化模型或策略执行在线推理的需要并极大地改善了服务成本和延迟。使用批量推理和快速在线规划器奖励模型部署。后退地平线逆向规划为了将扩展到世界我们使用基于地理区域的稀疏专家混合压缩图并分片全局。然后我们应用经典的算法来求解本地估计损失并将梯度发送回。全球奖励图是通过解压最终的奖励模型来计算的。为了更好地控制性能特征我们引入了一种新的广义算法称为后退地平线逆规划。使用并行化图形压缩和进行奖励模型训练。的灵感来自于人们倾向于进行广泛的本地规划接下来的一小时我要做什么和近似的长期规划年后我的生活会是什么样子。为了利用这种洞察力在演示路径周围的局部区域使用稳健但昂贵的随机策略并在超出某个范围时改用更便宜的确定性规划器。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2024-11-25 09:27 , Processed in 0.036129 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表