2025-11-26 VLN Ubuntu 深蓝课程 RL LLM Navigation

VLN课程学习笔记

0 次浏览 · 约 4 分钟阅读 · 1940 字

详解DeepSeek-R1核心强化学习算法：GRPO https://zhuanlan.zhihu.com/p/21046265072

VLN课程学习笔记

#VLN课程学习笔记

第四章学习范式：IL&RL

部分可观测马尔可夫决策过程（POMDP）

Policy Learning

VLN的数学框架：本质上为一个在不确定性下的序列决策问题，用部分可观测马尔可夫决策过程决定（POMDP）

VLA

IL vs RL

模仿学习将策略问题转换为分类器/回归问题

VLN比较复杂，所以也很难学习到有效的策略

更高效的方法：模仿学习预训练，快速掌握基本知识 + 强化学习优化，更有鲁棒性

模仿学习

典型：seq2seq模型

(R2R) Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments

数据增强：Speaker-Follower模型

Speaker-Follower Models for Vision-and-Language Navigation

可以进行一定的增强，但是没办法超越“专家”

所以

强化学习

Q-learning 价值函数

奖励函数是强化学习里面唯一的学习信号

稀疏奖励：最直接，是否到达目标为正奖励，直接以目标为导向，但奖励信号但是困难且不一定能收敛

稠密/几何奖励：根据目标距离去给奖励，能加速学习，但是这样会忽略指令，会走捷径，如穿过某个东西后到达某地

内在/语义奖励：解决几何奖励的缺陷，是否遵循指令

典型：RCM模型，增强交叉模态匹配

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

内在奖励：语义（路径保真度，语义一致性挂钩）

我的路径与文字是否匹配，不展开介绍

外在奖励：实时导航奖 + 成功抵达奖

终极策略：

优势函数

损失函数最小化-总分最大化转化梯度-优化方向

混合方法：IL + RL

典型：VLN-R1

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

第五章视觉语言预训练模型

Vision Language Pretraining

泛化鸿沟

预训练范式

自监督学习

从数据本身自动生成标签

领域内与领域外预训练领域内：类导航数据，优点任务相关性强，直接服务导航，缺点，早期数据集规模小，成本高领域外：使用图文对（如网页图片）。优点数据规模大多样性高，缺点，与导航任务差异大，缺乏时序和动作信息。

经典的视觉语言任务

Masked Language Model

预训练经典架构

PREVALENT

最早提出预训练的 Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training

AirBert

Airbert: In-domain Pretraining for Vision-and-Language Navigation

Recurrent VLN-BERT

VLN-BERT: A Recurrent Vision-and-Language BERT for Navigation 可以用领域外的

预训练高级架构

BEVBERT

BEVBert: Multimodal Map Pre-training for Language-guided Navigation

微调

这种范式是基于learning的

第六章 LLM与VLN的融合

传统VLN性能瓶颈

预训练的模型也可能对常识无法理解

LLM的优势强大的知识库

从预测到推理的转变

IL&RL vs LLM

CLIP

LLM的优势

NavGPT 高级规划器

NavCoT NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

LLM

NavGPT

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

NavGPT-2

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

March in Chat (MiC)

March in Chat: Interactive Prompting for Remote Embodied Referring Expression

微调

微调策略

PEFT LoRA

Navid框架

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation 2024-05-28 端到端的

重点学习NaVid框架

数据集使用的是VLN-CE

LLM的挑战和总结

接地问题

抽象符号与物理数据感知非具身的

幻觉问题

Sim2Real Gap

缺乏世界模型，只有相关性没有因果性

未来应该探索世界模型，而不是仅仅增加数据和微调

第七章 Air VLN

空中的模型和思路会不一样

挑战

三维路径规划与自由度控制

感知

Sim2Real

架构与模型

UAV-VLN

UAV-VLN: End-to-End Vision Language guided Navigation for UAVs

端到端框架四个步骤预定义的离散的动作空间

VLFly

Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding

模块化的架构

OpenFly

OpenFly-Agent OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation 基于OpenVLA

Air VLN的生态

AirSim

AerialVLN

AerialVLN: Vision-and-Language Navigation for UAVs

OpenFly

OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation

不仅是数据集，还有生态

AerialVLN vs OpenFly

第八章机器人中的视觉语言导航应用

仿真到物理世界

显著的性能下降

鸿沟解构

分层，高层推理，底层执行

弥合鸿沟

前沿架构

主要框架案例

GVNav

物理高度导致的视点不匹配问题，引发连锁性的失败

核心模块

整体框架

局限

LLM有高层推理、规划和常识运用的能力

SmartWay

以前的缺乏高层推理能力，从错误中纠正的能力

增强路径点预测器 DINOv2

MLLM多模态

整体框架

局限巨大计算开销，推理延迟，推理速度不够快

Navid

Navid的核心思想是构建一个“基于视频的大型视觉语言模型（VLM）”，以解决VLN中长期存在的泛化难题，特别是Sim2Real的迁移问题。

是端到到的

Uni-Navid

序列到序列的生成任务

在线视觉令牌合并机制

分层

预见性的动作规划，异步

数据

局限和未来

课程总结

基础奠基：任务的诞生

Learning的角度

泛化能力突破：预训练

大模型时代 LLM

空中VLN

具身化：Sim2Real