もう少しメモ
gpsでは、実現確率を二つ使っている。
一つは、枝刈用の実現確率
もう一つは、本来の意味での実現確率=その手を指した時にdepthに足す値(あまり正確な言い方じゃないけど、自分用のメモなので勘弁)
静止探索は、YSSの残り深さxで読む手、を参考に作成&KFEndを参考に、脅威を評価。
日 | 月 | 火 | 水 | 木 | 金 | 土 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
« 2009年4月 | トップページ | 2009年7月 »
gpsでは、実現確率を二つ使っている。
一つは、枝刈用の実現確率
もう一つは、本来の意味での実現確率=その手を指した時にdepthに足す値(あまり正確な言い方じゃないけど、自分用のメモなので勘弁)
静止探索は、YSSの残り深さxで読む手、を参考に作成&KFEndを参考に、脅威を評価。
ほとんど個人的なメモです。
…Bonanza Methodを一度は実装した経験がないと意味不明だと思う。
用語とかは全く正確じゃありませんw 特に、『Bonanza Methodの実行中』と言うのは、本来の意味だと『PVを求める部分』と『PVに対して特徴ベクトルの調整を行う』のは一つの処理のはずなので。上記では、『PVに対して特徴ベクトルの調整を行う』部分のみを指して『Bonanza Methodの実行中』とか言ってたりします。
進行度の調整の仕方に関しては、序盤・中盤・終盤の評価関数がある程度ちゃんとしてからでないと進行度が計算出来なさそう。
この記事を書いている時点で、第19回コンピュータ将棋選手権で優勝した、GPS将棋が、floodgateにおいて、51勝1敗、将棋倶楽部24換算したレーティングでは3000超え。(Bonanzaが選手権と違って1コアなのかも知れないけれど)Bonanzaにも大きく勝ち越しています。
どこかで『今年の優勝はじゃんけん勝負のような感じで、どこが優勝しても別におかしくはなかったんじゃない?』と発言したのですが、上記を見た感じだと、優勝するべくして優勝したとしか言いようがないです。
これは、持ち時間が極端に短い将棋(例えばNHK杯のようなルール)だと、(研究されるまでは)プロにも勝ち越しかねないのでは…。多分、対局している内に人間側が『癖』とか『悪い定跡選択をさせる』とかですぐに勝てなくなるのでしょうけれども。
動かせる環境が限られているので、Bonanzaが現われた時程の衝撃はなかなか普通の人には与えられないのでしょうが、この勝率は凄すぎる…。
第19回コンピュータ将棋選手権、参加してきました。
二次予選からの参加で、4勝5敗。二次予選24チーム中18位。
…昨年と同じ成績です。
午前中は、駒組関連のプログラムがバグっているのに気が付きませんでした _no
「みさき」とやってる時には全然気が付かず、「臥龍」とやっている時にも気が付かず…SPEARとやってる時に、すげー変な手を指し初めて気が付きました… _no
あまりの変さ加減に、SPEARの開発者のグリンベルゲンさんには
『ここからSPEARが負けたら、もうコンピュータ将棋の開発は辞めま~すw』 とか言われる始末…(苦笑)。
ちなみに、上を言われたのは、ここの棋譜の23手目の局面。 17手目が既に変で、二人で笑い出したのですが、致命的に変だったのは23手目です。
その後、ようやっとバグも治ったかと思って迎えたのが、最終のTACOS戦。
…まだこれから難しい捻り合いが延々と続くんだろうなぁという局面で、TACOSがバグで停止してしまい、反則勝ち。
駒組みが変かどうかは、TACOS戦は定跡手順で大分進んでしまったので不明…。
まぁ色々課題があったり、色々知見があったりしたのですが、徹夜で寝ぼけてるので今日はこの辺で…。
学習結果を収束させるのに、回しっぱなしでも120時間位かかりそう(--;
というわけで、うさぴょん2は諦めましたw
うさぴょんで出るなら、後は細かい調整をするだけなんで、明日は見学に行くかなぁ。
…『うさぴょん2』選手権までに形になりそうにないですw
『静止探索の中でややこしいことをしているのが仇になって、試しに学習をしていたものの、失敗した』のは3月24日にも書いた通りですが、その静止探索を捨てるのも忍びないまま、ついついそのまま過ごしてしまいました。(仕事の方が忙しかったのもありますが。)
で、気合を入れ直して、学習の失敗の原因を探していたら、PVノードの末端で、脅威を考慮している部分の評価値の更新の処理がまずくて、これがどうも学習が収束しなかった原因の模様。このバグ、原因としては分かったけれど、うまく学習の方がコーディング出来ない(爆)。
今から(って、後2日しかないよ?)普通のstand-pat型の静止探索にするかなぁ(--;
他の代案としては、とりあえず駒の位置評価だけでも簡単な方法で求めるとか。(とにかく、定跡を外れた後の駒組みをまともにしてくれないのが一番問題なので。)
今は、対振り飛車に対して、51に玉がいるままに、53銀・52金・41金・42銀に組むという有様ですw いや、有様というよりも無様と言うべき?
最近のコメント