环境是围绕代理的一切,但它不是代理本身的一部分。环境可以描述为存在代理的情况。操作为代理提供感知和行动的环境。
环境特征
根据Russell和Norvig的说法,从代理的角度来看,环境可以具有以下几种功能:
- 完全可观察与部分可观察
- 静态与动态
- 离散与连续
- 确定性与随机性
- 单一代理与多代理
- 情节与顺序
- 已知与未知
- 无障碍与无法访问
1. 完全可观察与部分可观察
- 如果代理传感器可以在每个时间点感知或访问环境的完整状态,那么它是完全可观察的环境,否则它是部分可观察的。
- 完全可观察的环境很容易,因为没有必要保持内部状态以跟踪世界历史。
- 在所有环境中都没有传感器的代理,那么这样的环境称为不可观察的。
2. 确定性与随机性:
- 如果代理的当前状态和所选动作可以完全确定环境的下一个状态,则这种环境称为确定性环境。
- 随机环境本质上是随机的,不能由代理完全确定。
- 在确定性的,完全可观察的环境中,代理不需要担心不确定性。
3. 情节与顺序
- 在情节环境中,存在一系列一次性动作,并且动作仅需要当前感知。
- 但是,在顺序环境中,代理需要记忆过去的操作以确定下一个最佳操作。
4. 单一代理与多代理
- 如果环境中只涉及一个代理,并且单独运行,那么这样的环境称为单个代理环境。
- 但是,如果多个代理在环境中运行,则此类环境称为多代理环境。
- 多代理环境中的代理设计问题与单代理环境不同。
5. 静态与动态
- 如果环境可以在代理审议时自行更改,则此类环境称为动态环境,否则称为静态环境。
- 静态环境很容易处理,因为代理在决定操作时不需要继续查看世界。
- 但是对于动态环境,代理需要在每个操作中继续关注世界。
- 出租车驾驶是动态环境的一个例子,而填字游戏是静态环境的一个例子。
6. 离散与连续
- 如果在一个环境中存在可以在其中执行的有限数量的感知和动作,那么这样的环境称为离散环境,否则它称为连续环境。
- 国际象棋游戏在离散环境下进行,因为可以执行有限数量的移动。
- 自动驾驶汽车是连续环境的一个例子。
7. 已知与未知
- 已知和未知实际上不是环境的一个特征,但它是代理执行操作的知识状态。
- 在已知环境中,代理已知所有操作的结果。在未知环境中,代理需要了解其工作方式才能执行操作。
- 很可能一个已知环境可以被部分观察到,并且一个未知环境可以被完全观察到。
8. 无障碍与无法访问
- 如果代理可以获得有关状态环境的完整且准确的信息,则此类环境称为可访问环境,否则称为无法访问。
- 可以通过其温度定义其状态的空房间是可访问环境的示例。
- 有关地球事件的信息是无法访问环境的例子。