Unity ML-Agentsによる3D仮想空間でのAI強化学習実験:荷物運搬ロボットの成功最適化

今回は、Unityで強化学習を利用できるライブラリ「ML-Agents」を使用し、Unity内で作成した架空のロボットに作業を学習させる実験のプロセスを完全解説します。AIが「強化学習」という手法で荷物の運搬を学習した成果をご覧ください。
実験の概要と目的
3D仮想空間内にロボットアームと荷物、そして障害物を配置します。
目的は、AIに「障害物を避けて荷物を特定の場所まで運搬する」というタスクを、プログラミングによるハードコードではなく、試行錯誤を通じた強化学習によって自律的に習得させることです。

ML-Agentsの設定と報酬(Reward)の設計
強化学習において最も重要なのが「報酬の設計」です。
- 荷物を目標地点に近づけたらプラスの報酬
- 障害物に衝突したり、荷物を落としたらマイナスの報酬(ペナルティ)
このように条件を設定し、AIエージェントが報酬を最大化するように行動を最適化させていきます。
学習プロセスと結果
最初はランダムにアームを動かし失敗を繰り返すAIですが、数万〜数十万ステップの学習を重ねることで、徐々に無駄な動きが洗練されていきます。最終的には、視覚情報と座標情報から「障害物を避けて持ち上げる」という最適解を自ら導き出し、スムーズに荷物を運搬できるようになりました。
先ず、障害物無しの環境で検証
AIには下記の位置情報のみ与えています。
A:ヘッドの位置
B:荷物の位置
C:ゴールの位置
25万ステップの学習を実施した結果が、下記の動画です。平均報酬0.98、ほぼ満点を達成しました。
先ほどの実験の環境に、障害物を何個か配置
結果、25万ステップの時点で、平均報酬0.6あたりを上回ることはありませんでした。障害物の存在を無視(知る術もないので当然ですが)して荷物をゴールまで運び、運良くその間に障害物がない場合のみ成功しているように見えます。
AIに視覚的情報を与える
ヘッドの先にカメラを設置し、その映像を毎フレームAIに伝えるようにしました。これにより、AIは箱とゴールと障害物の位置関係を視覚的に把握できます。

ただし、今回AIには下記の位置情報は「与えていません」。
A:ヘッドの位置
B:荷物の位置
C:ゴールの位置
先ほどよりも成功率が下がってしまいました。真上からの映像のみが与えられているので、荷物とヘッドとの距離感を正しく認識できないのだと想定します。結果、荷物を押し潰してしまい、失敗と判定されているようです。
最後に、位置と視覚の情報を同時にAIに与える
見事、適切なタイミングで荷物を引き上げ、障害物の上を通過できるようになりました。25万ステップの時点での平均報酬は0.9以上(ほぼ満点)です。
今後も学習を続ければ、より荷物の引き上げ方が洗練されて、さらに精度を高めていくかも知れません。
位置情報のみを与えた時と同じように、最初は荷物を平行に運んでしまいました。そのため、障害物が間にない場合だけ成功しています。
ところが、次第に低い障害物の上では、ほんの少しだけ荷物を引き上げることを学習しました。そこからは、荷物を引き上げる幅が少しずつ広がり、最終的に最高の高さの障害物にも対応できるようになりました。
いきなり最高の高さの障害物だけを与えたら、そもそも「障害物の上で荷物を引き上げると成功率が高まる」という推論に至らなかったでしょう。最初の小さな成功さえあれば、あとはその成功を頼りに、少しずつ荷物の引き上げのコツを掴んでいきます。
AIが何かを学習してく様子は、人間の学習過程とどこか似ている
子供の頃に忍者の本で読んだ、麻の苗木を毎朝飛び越える訓練を思い出しました。麻は毎日3cmずつ成長するので、忍者もまた毎日3cmずつ高く飛べるようになる必要があります。最終的に忍者は、3mの麻も飛び越えるようになるそうです。
毎日の目標を少しずつ高めながら、小さな成功を繰り返していくことで、いきなり3mの麻に挑戦しようとしても得られない細かなコツを、少しずつ覚えていくことができるのでしょう。
人間が何かを効率よく習得するためには、日々のコツコツとした学習の積み重ねと、その中で少しずつ目標を高めていくことが必要です。それがそのままAIにも当てはまるのは、とても興味深いですね。
ビジネスへの応用可能性
この技術はゲームNPCの制御だけでなく、実際の工場における産業用ロボットのシミュレーション(デジタルツイン)や、自動運転技術のアルゴリズム検証など、現実世界の高度な課題解決へと応用されています。
「Generative AI & ML」の関連記事

AIによってベトナムの雇用は減るのか?
「AIによってベトナムの雇用は減るのか?」バイタリフィ アジアCOOが語る、システム開発・オフショア業界における生成AIのリアルな影響と、次世代エンジニアに求められる「自己破壊的な好奇心」とは。

画像1枚から3Dを作る技術 - Zero123からUnique3Dまでの進化の過程を解説
たった1枚の画像から3Dモデルを生み出す魔法のようなAI技術「Generative 3D」。Zero123から最新のUnique3Dに至るまでの革命的な進化の歴史と、その裏側にある仕組みを分かりやすく解説します。

GazeboにおけるTurtleBot3を用いたLiDAR迷路探索アルゴリズムの実装と検証
ROS 2とGazeboを用いたTurtleBot3の自律走行アルゴリズム開発レポート。安価なLiDARセンサーのみで迷路走破に挑んだ実装プロセスと、ゴール目前でロボットがとった「まさかの行動」とは?
