dota2吧 关注:6,383,225贴子:176,556,703
  • 17回复贴,共1

Openai用了五个Lstm加ppo训练的

只看楼主收藏回复

多智能体之间通信和历史信息全靠lstm,state和action全部编码好了。唯一的难点是动作空间太大,有十七万种动作,对于这个问题,他们用了action embedding和ls***向量做内积,对action打分,然后过滤出高分动作。 算法上没做大的创新,nature或者science估计不够,发篇nips应该是差不多了。


来自iPhone客户端1楼2019-04-19 20:24回复
    前段时间刚做了个alphastar openai five技术总结汇报


    来自iPhone客户端3楼2019-04-19 20:25
    回复
      2025-08-22 06:16:46
      广告
      不感兴趣
      开通SVIP免广告
      看了一段时间的感受是他们多智能体协同的问题是真的训练的非常好,ai之间配合很牛逼。但是全局策略训练的并不是多么优秀。 能打败人类职业选手,第一是靠极其牛逼的配合,这点人类做不到,其次靠的是极其快速的反应,虽然Openai说反应速度限制了,但是我感觉人类还是做不到。


      来自iPhone客户端4楼2019-04-19 20:28
      收起回复
        求个相关的paper看一下


        IP属地:澳大利亚来自iPhone客户端5楼2019-04-19 20:29
        收起回复
          不是,不就是引用几个库调几个参数吗?


          IP属地:广东来自Android客户端6楼2019-04-19 20:30
          收起回复
            相比alphastar来说 算法上还是弱了很多


            来自iPhone客户端7楼2019-04-19 20:33
            回复
              有openai相关的资料吗?最近在研究ai,对这个挺感兴趣


              IP属地:广东来自Android客户端9楼2019-04-19 20:38
              收起回复


                10楼2019-04-19 21:09
                回复
                  2025-08-22 06:10:46
                  广告
                  不感兴趣
                  开通SVIP免广告
                  ppo


                  IP属地:美国来自iPhone客户端12楼2019-04-19 21:10
                  回复
                    d吧真是卧虎藏龙


                    IP属地:辽宁来自Android客户端13楼2019-04-19 21:28
                    回复
                      难道不是各种ga算法优化吗


                      IP属地:美国来自iPhone客户端14楼2019-04-19 22:26
                      回复