2020年1月23日・24日の2日間にわたり東京ビッグサイトにて開催された、「DOCOMO Open House 2020」。このイベントに、5Gイノベーションプロジェクトを通してdocomoと共同開発を進めている、株式会社Ridge-i(以下、Ridge-i)の「映像認識AIを用いた複数カメラによる同一人物トラッキング」のデモが展示されました。
5Gイノベーション事務局でブースを取材し、実際に同一人物トラッキングを体験してきましたので、ご紹介いたします。

複数カメラで同一人物をほぼリアルタイムでトラッキングする技術
この展示について、Ridge-iの代表取締役社長 柳原 尚史氏に紹介いただきました。
「こちらで展示しているのは、カメラに写った人物に番号を振って、人をトラッキング(追跡、分析)する技術です。
このイベント会場には、トラッキング用のカメラが4つ設置されています。このカメラに映った人には、番号が自動的に振られます。初めて映った人であれば新しい番号を付与し、1度でもいずれかのカメラに映った人であれば、初めて映った時に振られた番号が引き続き保持されます。

画面は今回のイベント用に開発した画面です。画面に映っている番号をタッチするとその人の番号と待機時間が表示され、その人が今どこにいるかがエリアごとにマッピングされます。複数のカメラに映った場合はその移動履歴がドットで示されます。


この『映像認識AIを用いた複数カメラによる同一人物トラッキング』の特徴は、
- 複数カメラにまたがって追跡すること
- トラッキングの性能
です。
通常、大手の会社さんの技術は顔認証は得意ですが、実際はカメラに顔が映るのは稀です。そのため、顔だけに頼った追跡というのは難しいのですが、この技術では全身の骨格と移動情報を組み合わせてトラッキングができるようにしています。後ろを向いてもトラッキングし続けますし、上着を脱いだりマスクを付け外しするなど一般的な範囲であれば、服装の変化があっても追跡が継続できます。
ユースケースとしては、例えば百貨店の販売教育のデジタル化。今までは人が人へ張り付きOJTを行なっていましたが、そこには限界がありました。個の働き方の見える化を行うこと、例えばレジ・接客・片付け・バックヤード、それぞれの時間割合や移動の情報を取ることができますので、そこから分析や指導が行えるようになります。
この技術は、人の動きをデータ化することに長けているため、人にまつわる様々なユースケースへの対応を考えています。
今後は、来年度に向けてベータ(試作)版を開発・提供しようと思っています。このイベントが終わった後、お客様と相談しながら、お客様のニーズに合わせてカスタマイズしたソリューションにしていこうと思っています。」
同一人物トラッキングの体験
実際に事務局でもトラッキングを体験させてもらいました。
最初に、ブース前のカメラで事務局スタッフを認識させます。付与された番号は00535でした。
その後、スタッフは他のカメラの設置地点に移動し、カメラに映り込みます。会場内にはブース前のものを含めて4箇所にカメラが設置されているということで、それぞれのカメラの前で少しの時間止まってもらい、その間に別のスタッフがブース前のモニターでどのように表示されるかを確認します。

別のカメラの前に移っても、番号は00535のままです。

そしてスタート地点に帰ってきました。番号は00535のまま、同一人物として認識されていました。各エリアには、ID00535として移動した履歴がマッピングされています。

一方、何度か繰り返し体験する中で、一部のカメラに写った際に別の番号が表示される場面もありました。
柳原氏曰く、
「似た服装や体型の別の人物と認識されてしまった場面があったようです。
どのタイミングで新しい人として認識して番号を振るか、既知の人として一致させるかというチューニングに改善の余地があると思っています。
あと3ヶ月ほどあればかなり精度は上がると見込んでいます。」
とのことでした。
今後の活用に向けて
事務局から、この技術の詳細や展望について、いくつか質問をさせていただきました。
Q. この技術に使用するサーバーの設置場所はどうなりますか。
「データの蓄積においては、お客様の要望に合わせて対応できるように考えています。社外にデータを出したくない、社内に置いておきたいお客様にはオンプレで対応しますし、仕組みはクラウドにおいてカメラだけ現場に置くという形式でも対応できます。」
Q. お客様の現場に置く際はどのような形になるのでしょうか。
「今回はイベント用に大きなディスプレイで表示していますが、当然一般的なPC画面での表示も可能です。
リアルタイムのカメラ映像だけでなく、録画された動画データに対してもこの技術は活用できます。カメラのデータは保管されていることも多いので、そのような既存のデータをいただいて、解析してお返しすることも可能です。
この技術の強みは、『人を見つけてトラッキングして解析する』というところにありますので、後はどういったデータを取るか、お客様に合わせて対応しています。」
Q. 処理性能的にはカメラ何台くらいが限界なのでしょうか。
「性能の制限は設けていませんが、フルHDで4台が今の実績です。カメラを増やした場合にはサーバーを増やしてスケールさせ対応することが可能です。お客様の要望に基づいて調整したいと考えています。」
Q. 長くカメラの前にいればいるほど情報が溜まっていくのでしょうか。
「シーンに合わせて調整しています。どのカメラで多く情報を取るのか、といったことや、人が素早く通り過ぎるような場所のカメラではあまり情報を多く得ない、というのは自動ではなく個別に調整しています。データの量があればあるほど精度は上がって行きます。」
Q. 現状の課題は何でしょうか。
「予想はしていましたが、服装が似ている人を見分けるということにチャレンジしています。服装が違えば区分けは簡単ですが、例えばスーツをきている人同士では顔だけの違いで判別しなくてはなりません。おそらくこれは人間でも難しいことだと思いますが、人間が難しいと思うことはAIでも難しいんです。
この場でも、裏でエンジニアが張り付いてチューニングしながら開発を進行させています。このような場を使わせていただけることは、良いチャンスだなと思っています。」
Q. どんなことに対する活用を期待していますか
「ニーズが多いと感じるのは、場所の安全に関することです。オープンスペースが増加していますが、そこに入ってくる社員と社外の方それぞれがどんな動きをしているか、といったことがセキュリティ上の問題になっている、とオフィスの方から聞いています。例えばシェアオフィスのような場所では、不特定の方が同じビルに入ることになるので、安全面のニーズが高いと思っています。
商業施設からは、教育目的での問い合わせが増えています。お客さんが来た時、販売員の方がどういったタイミングで近寄り声かけをするか、トレーニングする方法が今はありませんが、販売員にとってはそれが一番知りたい情報です。販売に長けた方がどのタイミングでお客さんに近寄っていくのか、この技術で図示できるのではないかということですね。
この画像認証AIでは関節点も見ており、頭の向きや体の向き、骨格のバランスも把握しています。それで向きが変わっても同じ人の同定ができるという仕組みです。内部的にはすでに姿勢推定のデータを持っているので、『危ない動きをした人』のデータを追加で組み合わせれば安全確認にも使えるのではないかということで、工場に導入したいというお問い合わせをいただきます。」
Q. 「監視社会」化を恐れる声も出るのではと思いますが、どのようにお考えですか。
「もちろん、カメラ画像は個人情報を含むデータですので、公共性の高い場所では特に『カメラ画像利活用ガイドブック』等を遵守し、利用者への事前告知等を徹底し認知を促す必要があるかと思います。一方で、『監視社会』という文脈ではなく、安全や効率を上げるためのサポートツールということを打ち出すことが課題だと考えています。
例えばぶつかりやすい動きも線として見えるので、どう動いたら効率的なのかが可視化され、避難誘導や導線設計ができます。現在はヒートマップという手段もありますが、ふわっと見せることしかできません。
この人はこちらに、この人はそちらに、とリアルタイムに効率的な導線が示される世界が作れたら面白いと思います。飛行機を出た後に認識が行われて個々人でゲート誘導されるといったようなことが実現できたら良いですね。」
また、個人を特定するために事前登録を行うような使い方も可能ではありますが、この技術自体で扱うのはあくまでもカメラに写った人物の特徴データであり、そういった懸念も薄いのではないかということでした。
取材を終えて
お話を伺いながら実際にトラッキングを体験しましたが、この技術が実用化されれば多様な分野に活用でき、我々の日常生活のいたるところでそれによる恩恵が受けられるであろうという感想を抱きました。また、現状では精度の課題はあれど、実用化までそう遠くない印象も受けました。
ぜひ、たくさんの企業に興味を持っていただき、この技術の可能性をさらに広げていただきたいと思います。
また、今回の取材でお時間をいただき、お話を聴かせてくださいましたRidge-iの柳原氏には、この場を借りて御礼を申し上げます。ありがとうございました。