当前位置: 首页 > news >正文

东莞网站建设做网站m 的手机网站怎么做

东莞网站建设做网站,m 的手机网站怎么做,诚信网站体系建设工作总结,陕西省建设网站 五大员过期1 引言 马尔可夫性#xff1a;无后效性#xff0c;指系统的下个状态只与当前状态信息有关#xff0c;而与更早之前的状态无关#xff1b; 马尔可夫链(Markov Chain, MC)#xff1a;系统的下一个状态只与当前状态相关#xff1b; 马尔可夫决策过程(Markov Decision Proce…1 引言 马尔可夫性无后效性指系统的下个状态只与当前状态信息有关而与更早之前的状态无关 马尔可夫链(Markov Chain, MC)系统的下一个状态只与当前状态相关 马尔可夫决策过程(Markov Decision Process, MDP)具有马尔可夫性与MC不同的是MDP还考虑了动作即系统下个状态不仅和当前的状态有关也和当前采取的动作有关。 以下棋为例我们在某个局面状态sis_isi​走了一步(动作aia_iai​)这时对手的选择导致下个状态si1s_{i1}si1​我们是不能确定的但是他的选择只和sis_isi​和aia_iai​有关而不用考虑更早之前的状态和动作。 2 马尔可夫决策过程 一个马尔可夫决策过程可以由一个四元组表示 M(S,A,Psa,R)(1)M (S, A, P_{sa}, R) \tag1M(S,A,Psa​,R)(1) S{s1,s2,…,sk}S \{s_1, s_2, \dots, s_k\}S{s1​,s2​,…,sk​}状态集(states)sis_isi​表示第iii步的状态;A{a1,a2,…,ak}A \{a_1, a_2, \dots, a_k\}A{a1​,a2​,…,ak​}一组动作(actions)aia_iai​表示第iii步的动作;PsaP_{sa}Psa​状态转移概率当前si∈Ss_i \in Ssi​∈S状态下经过ai∈Aa_i \in Aai​∈A作用后会转移到的其它状态的概率分布情况例如比如在状态si∈Ss_i \in Ssi​∈S下执行动作ai∈Aa_i \in Aai​∈A转移到si1∈Ss_{i1} \in Ssi1​∈S的概率可以表示为p(si1∣si,ai)p(s_{i1} \vert s_i, a_i)p(si1​∣si​,ai​);R:S×A↦RR: S \times A \mapsto \mathbb{R}R:S×A↦R回报函数(reward function)如果回报只与状态有关可以简化为R:S↦RR: S \mapsto \mathbb{R}R:S↦R。如果一组(si,ai)(s_{i},a_i)(si​,ai​)转移到了下个状态si1s_{i1}si1​那么回报函数可记为r(si1∣si,ai)r(s_{i1}|s_i, a_i)r(si1​∣si​,ai​)。如果(si,ai)(s_i,a_i)(si​,ai​)对应的下个状态si1s_{i1}si1​是唯一的那么回报函数也可以记为r(si,ai)r(s_i,a_i)r(si​,ai​)。 MDP 的动态过程如下 智能体(agent)的初始状态为s0s_0s0​;从 AAA 中挑选一个动作a0a_0a0​执行执行后agent 按PsaP_{sa}Psa​概率随机转移到了下一个s1s_1s1​状态s1∈Ps0a0s_1 \in P_{s_0a_0}s1​∈Ps0​a0​​。然后再执行一个动作a1a_1a1​就转移到了s2s_2s2​接下来再执行a2a_2a2​…可以用下面的图表示状态转移的过程 如果回报rir_iri​是根据状态sis_isi​和动作aia_iai​得到的则MDP可以如图表示 3 值函数(value function) 增强学习学到的是一个从环境状态到动作的映射即行为策略记为策略π:S→Aπ: S→Aπ:S→A。而增强学习往往又具有延迟回报的特点: 如果在第nnn步输掉了棋那么只有状态sns_nsn​和动作ana_nan​获得了立即回报r(sn,an)−1r(s_n,a_n)-1r(sn​,an​)−1前面的所有状态立即回报均为0。所以对于之前的任意状态sss和动作aaa立即回报函数r(s,a)r(s,a)r(s,a)无法说明策略的好坏。因而需要定义值函数(value function又叫效用函数)来表明当前状态下策略πππ的长期影响。 Vπ(s)V^π(s)Vπ(s)策略πππ下状态sss的值函数rir_iri​未来第iii步的立即回报。 常见的值函数有以下三种 Vπ(s)Eπ[∑i0hri∣s0s](2)V^π(s) E_{\pi}\left[\sum_{i0}^{h} r_i \vert s_0 s \right] \tag2Vπ(s)Eπ​[i0∑h​ri​∣s0​s](2) Vπ(s)lim⁡h→∞Eπ[1h∑i0hri∣s0s](3)V^π(s) \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i0}^{h} r_i \vert s_0 s \right] \tag3Vπ(s)h→∞lim​Eπ​[h1​i0∑h​ri​∣s0​s](3) Vπ(s)Eπ[∑i0∞γiri∣s0s](4)V^π(s) E_{\pi}\left[\sum_{i0}^{\infty} \gamma^{i} r_i \vert s_0 s \right] \tag4Vπ(s)Eπ​[i0∑∞​γiri​∣s0​s](4) 其中 a) 是采用策略π的情况下未来有限h步的期望立即回报总和 b) 是采用策略π的情况下期望的平均回报 c) 是值函数最常见的形式式中γ∈[0,1]γ∈[0,1]γ∈[0,1]称为折合因子表明了未来的回报相对于当前回报的重要程度。特别的γ0γ0γ0时相当于只考虑立即不考虑长期回报γ1γ1γ1时将长期回报和立即回报看得同等重要。 4 策略 5 对2048游戏的建模 s1s_1s1​ 初始化状态随机产生的棋盘 a1a_1a1​用户连接相同的数字后系统为棋盘分配新数字的动作 s2s_2s2​用户选择如何连线后导致的下一个棋盘该棋盘依然有空缺需要填充新数字 p(s2∣s1,a1)p(s_{2} \vert s_1, a_1)p(s2​∣s1​,a1​)经过a1a_1a1​操作后状态从s1s_1s1​到s2s_2s2​的概率这个我觉得可以通过统计得到 奖励函数是设计的难点 如何进行训练也是一个难点
http://www.ihoyoo.com/news/51545.html

相关文章:

  • 义网站建设推荐郑国华wordpress将首页转成html代码
  • 深圳H5网站开发建设网银
  • 韩都衣舍网站建设方案网页设计学校官网
  • 企业网站为什么都选千博企业网站中国500强企业排行榜
  • 网站开发流程怎么写如何做自己的大淘客网站
  • 专业网站模仿phpcms漏洞
  • 聚名网买卖域名合法吗淘宝seo什么意思
  • 为什么网站目录不收录效果图哪里可以制作
  • 网站防止采集阿里云虚拟主机建网站
  • 苏州哪家网站建设互联网0成本暴利项目
  • 查询网 网站查询做新房坐哪个网站好
  • 常州百度网站排名网站引量方法
  • 网站开发业务怎么开展学wordpress
  • 如何做网站的管理后台软件外包平台哪家可信赖
  • 网站动态图怎么做做网站导航栏素材图
  • 上海市建设项目施工审图网站推广平台怎么找客源
  • 微商城网站开发企业规划设计
  • 可以自己做网站的软件wordpress 警告
  • 新开神途手游发布网站制作营销网站模板
  • 门户网站 cms网页界面ps制作步骤
  • 祥云平台网站建设怎么收费网站精简布局
  • 百度云登录入口官网网站推广服务chuseo
  • 网站设计公司有用吗图文排版设计
  • 网站还没有做可以备案吧画画在线
  • p2p网站制作找人做一个网站要多少钱
  • 成都市建设工程施工安监站网站汕头seo不错
  • 西部数码怎么上传网站外贸seo营销ppt
  • 上杭县城乡规划建设局网站沈阳.....网站设计
  • 外贸电商网站建设六安网站建设定制
  • h5 技术做健康类网站域名购买服务商