trajectron++

(55) 2024-07-26 21:01:01

相关概念

spatiotemporal graph 时空图

时空图,又称闵可夫斯基图,用以表示闵可夫斯基时空的事件的坐标。它是一种理解狭义相对论现象的工具。

在四维的坐标系,以时间乘以光速(ct)为其中一轴,称之为时间轴;其他的x轴、y轴、z轴,称之为空间轴。在这四维时空上的每一点,都代表一个事件E。对应特定的惯性参考系,E发生的时间和地点(ct,x,y,z)。

每个质点在时空的活动都可以在时空图上以连续的曲线表示,称为世界线。

物理学中的空间和时间相结合就得到了时空,因为时间作为一个维度,空间作为三个维度,所以我们的时空是四维的。这个四维时空中的每一个点都叫做一个事件,一个事件可以被空间坐标和它的时间坐标所确定。

换句话说,所有的事件就构成了时空,时空中的点就叫做事件。

SLAM

SLAM是同步定位与地图构建(Simultaneous Localization And Mapping)的缩写,主要用于解决移动机器人在未知环境中运行时定位导航与地图构建的问题。
SLAM通常包括特征提取,数据关联,状态估计,状态更新以及特征更新等,既可以用于2D运动领域,也可以应用于3D运动领域。

语义地图

trajectron++ (https://mushiming.com/)  第1张
目前语义地图的构建方法一般是在SLAM构建地图的同时增加一个视觉神经网络来识别相机观察到的图片物体,最后把识别出来的标签映射到地图上。

智能型机器和工具型机器的区别在于:智能型的机器是机器人按照人类的方式和人类的意愿去完成任务的,比如聊天、陪伴、教育、导购,都是人类的生活方式。而工具型机器是必须人类按照机器的方式操作机器去完成任务,比如遥控器、编程、驾驶、键盘输入,都是机器的方式。

按照这种观点,我们颤巍巍给自主导航机器人标记一个目标点,这个行为明显就是人按照机器的方式,瞬间把机器人降级成工具型机器。如果按照人类的方式,就应该这样完成任务,直接说:“Turtlebot,帮我取一瓶啤酒“,而不是给个啤酒瓶子的坐标。
解决方法:
首先:从“语音”到“文字”(机器人语音交互目前已经及基本实现了)
然后:从“文字”到“地图坐标”

我们第一步构建的地图上面只有房间里的桌子、椅子、墙壁被识别出来的轮廓点点,在这个地图把它们统统当作了“障碍物”,而没有把地图中的点和环境中物体的名字联系起来,所以机器人就没有物体的概念。

所以激活成功教程之法就是,把地图上的点与场景中物体的标签关联起来。而在这一解决方案就叫“语义SLAM”。

顾名思义,就是在SLAM构建出的地图,既要包括障碍物信息,也要包含场景物体名称和对应左边信息。
trajectron++ (https://mushiming.com/)  第2张
比如,我想喝的啤酒,可能在点云地图中只是一个按照圆柱体分布的一个区域。同时,视觉神经网络识别后,会在啤酒瓶出现的地方,用一个色块标记出来,并注明标签为“啤酒”;最后通过多视图几何投影,把这个啤酒的色块儿对应的点云区域坐标映射,就获得了标签“啤酒”对应的地图坐标。

这样当机器人听到:我要一瓶啤酒的任务时,先把我说的话识别成文字“找”“啤酒”。在地图的所有标签中寻找“啤酒”,然后获得“啤酒”标签对应的点云区域坐标。最后再把这个“坐标”设定为导航目标点,并用自主导航的方法到达这个目标。配合机械臂手眼抓取完成任务,就实现了机器人自己按照人类的方式完成自主导航。

trajectron++

1. Incorporating System Dynamics into Generative Trajectory Forecasting

将系统动力学纳入生成轨迹预测

One of the main contributions of Trajectron++ is presenting a method for producing dynamically-feasible output trajectories. Most CVAE-based generative methods capture fine-grained uncertainty in their outputs by producing the parameters of a bivariate Gaussian distribution (i.e., its mean and covariance) and then sampling position waypoints from it. However, this direct modeling of position is ignorant of an agent’ governing dynamics and relies on the neural network architecture to learn dynamics.

Trajectron++ 的主要贡献之一是提出了一种生成动态可行输出轨迹的方法。大多数基于 CVAE 的生成方法通过生成二元高斯分布的参数(即其均值和协方差),然后从中采样位置航路点来捕获其输出中的细粒度不确定性。然而,这种直接的位置建模不知道代理的控制动态,并依赖神经网络架构来学习动态。

While neural networks can do this, we are already good at modeling the dynamics of many systems, including pedestrians (as single integrators) and vehicles (e.g., as dynamically-extended unicycles). Thus, Trajectron++ instead focuses on forecasting distributions of control sequences which are then integrated through the agent’s dynamics to produce positions. This ensures that the output trajectories are physically realizable as they have associated control strategies. Note that the full distribution itself is integrated through the dynamics. This can be done for each latent behavior mode via the Kalman Filter prediction equations (for linear dynamics models) or the Extended Kalman Filter prediction equations (for nonlinear dynamics models).

虽然神经网络可以做到这一点,但我们已经擅长对许多系统的动力学进行建模,包括行人(作为单个集成器)和车辆(例如,作为动态扩展的独轮车)。因此,Trajectron++ 专注于预测控制序列的分布,然后通过代理的动态整合以产生位置。这确保了输出轨迹在物理上是可实现的,因为它们具有相关的控制策略。请注意,完整的发行版本身是通过动态整合的。这可以通过卡尔曼滤波器预测方程(对于线性动力学模型)或扩展卡尔曼滤波器预测方程(对于非线性动力学模型)为每个潜在行为模式完成。

As a bonus, adding agent dynamics to the model yields noticeable performance improvements across all evaluation metrics. Broadly, this makes sense as the model’s loss function (the standard Evidence Lower Bound CVAE loss) can now be directly specified over the desired quantity (position) while still respecting dynamic constraints.

作为奖励,将代理动态添加到模型中会在所有评估指标中产生显着的性能改进。从广义上讲,这是有道理的,因为模型的损失函数(标准的证据下界 CVAE 损失)现在可以在所需的数量(位置)上直接指定,同时仍然遵守动态约束。

2.Leveraging Heterogeneous Data Sources

利用异构数据源

An additional feature of Trajectron++ is its ability to combine data from a variety of sources to produce forecasts. In particular, the presence of a single backbone representation vector, denoted e x e_x ex in the above architecture diagram, enables for the seamless addition of new data via concatenation. To illustrate this, we show the benefits of including high-definition maps in the figure below. In it, we can see that the model is able to improve its predictions in turns, better reflecting the local lane geometry.
trajectron++ (https://mushiming.com/)  第3张

Trajectron++ 的一个附加功能是它能够将来自各种来源的数据结合起来进行预测。

通过串联无缝添加新数据
为了说明这一点,我们在下图中展示了包含高清地图的好处。在其中,我们可以看到模型能够依次改进其预测,更好地反映局部车道几何形状。

3.Simultaneously Producing Both Generative and Deterministic Outputs

同时产生生成性和确定性输出

A key feature of the Trajectron and Trajectron++ models is their combination of a CVAE with a Gaussian output.

THE END

发表回复