今年10月に幕張メッセで開催された「CEATEC JAPAN 2016」において、Preferred Networksはドローンの自律飛行デモを公開しました。そのなかで、機械学習により進化を図る「スパイラル学習法」を採用したシミュレーションプログラムが注目されました。
これは「ぶつからないクルマ」と同様に、ドローンが学習し自律的にぶつからない判断をしながら飛行するいうもの。自動車の深層強化学習は、自律走行のための挙動予測用シミュレーションで実施されますが、ドローンではシミュレーション結果と大きく違い、思ったように飛ばないため「スパイラル学習法」が採用されたそう。
「CEATEC JAPAN 2016」では、ドローンが目的地に無事到達すれば報酬を与える一方、飛び越えてはいけない線を設定し、ぶつかると罰則を与えるよう深層強化学習を行い、目的地や障害が次々に変わっても、ドローンは自律的に目的地へ向かい続けるというデモが披露されました。
「スパイラル学習法」とは、わかりやすく言えば、段階的に繰り返し、学習する内容のレベルを上げながら進化させる方法。「らせん状」のイメージで、学びながらプログラムを強化し高めていきます。現実的な物理情報に対して、まだシミュレーションが行えるようなモデルが用意されていなくても、いち早く最適な制御プログラムを構築できるようになり、「スパイラル学習法」によって、より効率的でより安全に深層学習を行うことが可能となります。