Unity ML-Agentsによる3D仮想空間でのAI強化学習実験：荷物運搬ロボットの成功最適化

Toshihiko Nagaoka・2020/01/21

Unity ML-Agentsによる3D仮想空間でのAI強化学習実験：荷物運搬ロボットの成功最適化

今回は、Unityで強化学習を利用できるライブラリ「ML-Agents」を使用し、Unity内で作成した架空のロボットに作業を学習させる実験のプロセスを完全解説します。AIが「強化学習」という手法で荷物の運搬を学習した成果をご覧ください。

実験の概要と目的

3D仮想空間内にロボットアームと荷物、そして障害物を配置します。

目的は、AIに「障害物を避けて荷物を特定の場所まで運搬する」というタスクを、プログラミングによるハードコードではなく、試行錯誤を通じた強化学習によって自律的に習得させることです。

ロボットアームの先端には磁石の性質を模した黒いヘッドが装着されており、チェック柄の箱を吸着することができる。そして、このチェック柄の箱を、緑の台座から赤い台座まで運ぶことが、このロボットのタスクと設定

ML-Agentsの設定と報酬（Reward）の設計

強化学習において最も重要なのが「報酬の設計」です。

荷物を目標地点に近づけたらプラスの報酬
障害物に衝突したり、荷物を落としたらマイナスの報酬（ペナルティ）
このように条件を設定し、AIエージェントが報酬を最大化するように行動を最適化させていきます。

学習プロセスと結果

最初はランダムにアームを動かし失敗を繰り返すAIですが、数万〜数十万ステップの学習を重ねることで、徐々に無駄な動きが洗練されていきます。最終的には、視覚情報と座標情報から「障害物を避けて持ち上げる」という最適解を自ら導き出し、スムーズに荷物を運搬できるようになりました。

先ず、障害物無しの環境で検証

AIには下記の位置情報のみ与えています。

A：ヘッドの位置
B：荷物の位置
C：ゴールの位置

25万ステップの学習を実施した結果が、下記の動画です。平均報酬0.98、ほぼ満点を達成しました。

先ほどの実験の環境に、障害物を何個か配置

結果、25万ステップの時点で、平均報酬0.6あたりを上回ることはありませんでした。障害物の存在を無視（知る術もないので当然ですが）して荷物をゴールまで運び、運良くその間に障害物がない場合のみ成功しているように見えます。

AIに視覚的情報を与える

ヘッドの先にカメラを設置し、その映像を毎フレームAIに伝えるようにしました。これにより、AIは箱とゴールと障害物の位置関係を視覚的に把握できます。

ただし、今回AIには下記の位置情報は「与えていません」。

A：ヘッドの位置
B：荷物の位置
C：ゴールの位置

先ほどよりも成功率が下がってしまいました。真上からの映像のみが与えられているので、荷物とヘッドとの距離感を正しく認識できないのだと想定します。結果、荷物を押し潰してしまい、失敗と判定されているようです。

最後に、位置と視覚の情報を同時にAIに与える

見事、適切なタイミングで荷物を引き上げ、障害物の上を通過できるようになりました。25万ステップの時点での平均報酬は0.9以上（ほぼ満点）です。

今後も学習を続ければ、より荷物の引き上げ方が洗練されて、さらに精度を高めていくかも知れません。

位置情報のみを与えた時と同じように、最初は荷物を平行に運んでしまいました。そのため、障害物が間にない場合だけ成功しています。

ところが、次第に低い障害物の上では、ほんの少しだけ荷物を引き上げることを学習しました。そこからは、荷物を引き上げる幅が少しずつ広がり、最終的に最高の高さの障害物にも対応できるようになりました。

いきなり最高の高さの障害物だけを与えたら、そもそも「障害物の上で荷物を引き上げると成功率が高まる」という推論に至らなかったでしょう。最初の小さな成功さえあれば、あとはその成功を頼りに、少しずつ荷物の引き上げのコツを掴んでいきます。

AIが何かを学習してく様子は、人間の学習過程とどこか似ている

子供の頃に忍者の本で読んだ、麻の苗木を毎朝飛び越える訓練を思い出しました。麻は毎日3cmずつ成長するので、忍者もまた毎日3cmずつ高く飛べるようになる必要があります。最終的に忍者は、3mの麻も飛び越えるようになるそうです。
毎日の目標を少しずつ高めながら、小さな成功を繰り返していくことで、いきなり3mの麻に挑戦しようとしても得られない細かなコツを、少しずつ覚えていくことができるのでしょう。

人間が何かを効率よく習得するためには、日々のコツコツとした学習の積み重ねと、その中で少しずつ目標を高めていくことが必要です。それがそのままAIにも当てはまるのは、とても興味深いですね。

ビジネスへの応用可能性

この技術はゲームNPCの制御だけでなく、実際の工場における産業用ロボットのシミュレーション（デジタルツイン）や、自動運転技術のアルゴリズム検証など、現実世界の高度な課題解決へと応用されています。

1,000社以上の事業成長を支えた圧倒的な『スピードと柔軟性』で、御社のアイデアを最短で形にします。まずは無料で壁打ちしませんか？

無料相談はこちら

オフショア開発・ラボ型開発についての相談はこちら

#Generative AI & ML

「Generative AI & ML」の関連記事

Google ColabをAPIサーバー化してS2S音声対話を動かしてみた

Nihei Tomotaka•2026/07/21

Google ColabのGPU環境をngrokで一時公開し、WebSocket経由で動くS2S音声対話AIのPoCを構築しました。faster-whisper large-v3による音声認識、Gemini 2.5 Flash-Liteのストリーミング応答、VOICEVOXの並列音声合成、Silero VADを組み合わせ、発話終了から最初の音が返るまでのレイテンシを改善した方法を紹介します。

AI音声コンテンツ系プロダクトを成功させる進め方

Nihei Tomotaka•2026/07/21

生成AIによる音声コンテンツは、スクリプト生成AIとTTSの2段階で制作されます。本記事では、定義済み音声から始める検証、感覚的なフィードバックの言語化、要求リストと差分管理、トレードオフの判断、関係者による試聴会など、品質を安定させながら制作を進める5つの方法を解説します。

Geminiで音声対話AIを開発して分かった、PoCと商用サービスの大きな違い

Nihei Tomotaka•2026/07/15

Gemini Live APIで音声対話AIのPoCを構築し、商用化へ進む中で同時接続、429エラー、モデル更新、ログ監視、ブラウザや端末固有の音声問題に直面しました。Gemini APIからVertex AIとLiveKitを使う構成へ移行した経験をもとに、PoCと本番開発の違い、Webとネイティブアプリの選び方、商用開発前に確認すべき項目を解説します。