研究者インタビュー

映像解析型AIエージェントを支える長時間映像解析 ~映像理解とナレッジ化に挑む研究員の想い~

English

2024年12月のプレスリリースで発表した映像解析型AIエージェントは、業務に関する映像やドキュメントを活用し、作業効率化や安心安全な現場づくりに向けて自律的に現場作業を支援する技術です。その映像理解・記憶能力を今後支えていく技術として、長時間の映像をコンパクトな記憶やグラフデータに変換し、チャットによる質問応答を通して効率的に検索・分析する長時間映像解析の研究開発に取り組んでいます。長時間映像解析により、倉庫や工場の監視カメラ映像など、従来はタグ付けや分類が困難で活用が難しかった長時間の映像データを対話的に解析し、事故リスクの特定、作業員の行動分析、商品レイアウト変更前後での効果検証など、様々なビジネス課題の解決に貢献します。本記事では、この長時間映像解析の研究チーム6名に、技術が誕生した経緯や、開発における挑戦などについて詳しい話を聞きました。

2025年1月30日 掲載

MEMBERS

  • 山尾 創輔

    山尾 創輔

    Yamao Sosuke

    富士通株式会社
    富士通研究所
    人工知能研究所
    人リーズニングCPJ
    プリンシパルリサーチャー

  • 本田 崇

    本田 崇

    Honda Takashi

    富士通株式会社
    富士通研究所
    人工知能研究所
    人リーズニングCPJ
    リサーチディレクター

  • 斎藤 淳哉

    斎藤 淳哉

    Saito Junya

    富士通株式会社
    富士通研究所
    人工知能研究所
    人リーズニングCPJ
    プリンシパルリサーチャー

  • 弘中 伸吾

    弘中 伸吾

    Hironaka Shingo

    富士通株式会社
    システムプラットフォームビジネスグループ
    フォトニクスシステム事業本部
    光ソリューション事業部
    システムエンジニア

  • 遠藤 ありす

    遠藤 ありす

    Endo Arisu

    富士通株式会社
    富士通研究所
    人工知能研究所
    人リーズニングCPJ
    リサーチャー

  • 宮原 捺希

    宮原 捺希

    Miyahara Natsuki

    富士通株式会社
    富士通研究所
    人工知能研究所
    人リーズニングCPJ
    リサーチャー

長時間映像の分析結果から知見を導く

長時間映像解析に取り組む目的を教えてください。

本田:長時間映像解析では、長時間・大容量の映像データをもとに、お客様の現場に合わせて適切な情報や施策を提示することで業務を支援することを目指します。顧客の購買行動を分析する活用例で説明します。商品Xの売上が伸び悩んでいるとします。長時間映像解析により、売り場のカメラ映像を分析し、顧客の行動パターンを特定することで、売上を向上させるための施策検討を支援します。「商品Xを手に取ったものの、購入に至らなかった顧客の行動とその前後の状況を時系列で示してください」と質問すると、過去の映像を分析し、「商品Xを手に取った後、購入に至らなかったケースは過去1週間で20件発生しました。そのうち15件は価格表示を確認した後に棚に戻しています」といった回答が得られます。このように、長時間映像解析を行うことで、これまで見落とされがちだった顧客の行動を詳細に分析し、対策することができます。

長時間映像解析はどのような技術から構成されていますか。

本田:長時間の映像から重要な情報を選択し、その情報のみを蓄えることで効率的な映像記憶を実現する映像コンテキスト記憶技術と、時系列で複雑な映像情報をグラフ構造化し、適切な回答を即座にユーザーへ提示する技術であるFujitsuナレッジグラフ拡張RAG for Vision Analytics技術により構成しています。また、社会課題解決に向けて様々なAI研究に取り組んでいるマッコーリー大学に設立したFujitsu Macquarie AI Research Lab富士通スモールリサーチラボの一つ)と連携し、現場での実証実験や技術開発を進めています。

長時間映像解析の開発のきっかけを教えてください。

本田:富士通はこれまで、映像から人の様々な行動を認識するAI「行動分析技術 Actlyzer」や体操の採点システムで活用されている「富士通マーカレスモーションキャプチャ」などの映像認識技術を培ってきました。長時間映像解析は、これらの技術開発の経験を活かして開発しました。近年著しい成長を見せている生成AIと組み合わせ、今後の映像解析型AIエージェントの映像解析能力の拡張に向けて発展させることで、業務効率や生産性の向上に取り組むお客様の支援を目指しています。

本田は、長時間映像解析の研究開発マネージメントを担当

工場の危険行動検出から安全衛生管理まで

AIエージェントが長時間の映像を解析できるとどのように活用事例やユースケースが広がるでしょうか。

山尾:AIエージェントが長時間の映像を解析できれば、工場や商業施設における安全衛生管理や、インフラの保守点検など、様々の現場へと活用事例が広がります。現在、多くの現場では、多地点で長時間撮影した映像データが蓄積されていますが、その膨大なデータの活用が困難でした。AIエージェントによる長時間の映像解析が可能となれば、これらの映像データに基づく自律的な業務支援を実現し、これまで対応できていなかった課題解決に貢献します。AIエージェントがそのような映像解析能力を獲得するためには、長時間映像の正確な理解・記憶や、映像の内容をナレッジ化し活用するというチャレンジングな技術課題を解決する必要があります。我々は、マッコーリー大学の教授や学生と協力しながら、それらの技術課題を解決する長時間映像解析の開発に取り組み、FAL (Fujitsu Australia Ltd.)の倉庫にて実証実験も行っています。

実証実験について具体的に教えてください。

遠藤:例えば、倉庫内においてフォークリフトと作業員が接近している危険なシーンを映像から自動検出したいとします。長時間映像解析の対象とする映像を入力し、「フォークリフトと作業員が接近したことはありますか?その時、作業員は作業ベストを着ていましたか?」とチャットで質問すると、フォークリフトと作業員が接近していた時間や、作業員の安全ベスト着用状況を映像から抽出して回答します。長時間の映像を人間が見返すのは大変ですが、長時間映像解析を用いることで、対話を通して詳細な時系列情報を得ることができます。「この行動が起こる前に何がありましたか?」「この後の人の行動を教えてください」と質問することで、ある事象の前後の様子を容易に知ることができます。これにより、現場の担当者は状況をより深く理解し、対策を考えやすくなります。実証実験では、実際の倉庫作業の映像から危険な行動を検出し、さらに、安全衛生管理に関するナレッジを取り込むことで、どのような改善が考えられうるか提案を行うことができました。

産学連携を通して、社会課題解決につながる価値を創出

マッコーリー大学との共同研究が、現在取り組まれている研究の発展にどのような意味を持つと考えていますか。

遠藤:倉庫に限らず、AIを活用したい現場はそれぞれ環境やルールが異なるため、一般的な回答を返す対話型AIではなく、現場に合わせたパーソナライゼーションが必要となります。マッコーリー大学の持つパーソナライゼーションの知見と富士通の技術を融合することで、長時間映像解析を各現場に適合させることが可能となります。さらに、マッコーリー大学にはコーチングの知見があるので、現場の作業員を安全な行動に導くなど、よりお客様の役に立てるものになると考えています。

マッコーリー大学とのリレーション強化のため、Fujitsu Macquarie AI Research Labに赴任した研究員もいると伺っています。

山尾:やはり、実際に会って対話しないと分からないこともあります。現地に常駐し、お互いの研究の強みを理解することで、より効果的な連携が可能になります。オンラインでの繋がりも大切ですが、実際に足を運んで対話することで得られるものは多く、関係強化に繋がります。様々な形で接点を持つことが重要だと考えています。現在行っている共同研究にとどまらず、互いの技術の可能性をさらに追求し、新たな応用分野を開拓したり、技術的な課題を克服したりする共同研究を展開していきたいと考えています。

技術の将来的なユースケースや現場活用にはどのようなものが考えられますか。

本田:まず倉庫などの現場において、作業員に対するコーチング効果の可視化と改善提案ができるようにしたいと考えています。さらに、医療分野、特にリハビリへの応用も視野に入れています。マッコーリー大学には最新の設備を備えた大学病院があり、医療現場のコーチングノウハウも豊富です。大学との連携を通して、本技術を現場で活用しながら、より実用的な技術へと発展させていく予定です。

山尾は、長時間映像解析と映像コンテキスト記憶技術の研究開発リーダ
遠藤は、マッコーリー大学や実証場所であるFAL倉庫との連携を担当

映像から生成したナレッジグラフをもとに、質問応答できるナレッジグラフ拡張RAG for Vision Analytics技術

研究チームは長時間映像解析のコア技術として、ナレッジグラフ拡張RAG for Vision Analytics技術と、映像コンテキスト記憶技術を開発しています。開発担当研究チームにそれぞれの技術の強みや開発における課題などを聞きました。最初にご紹介するナレッジグラフ拡張RAG for Vision Analytics技術は、映像データから、危険行為などの事象を見つけ出し、その頻度や傾向などの分析まで行うことが可能な技術です。

ナレッジグラフ拡張RAG for Vision Analytics技術の強み・特徴について教えてください。

斎藤:ナレッジグラフ拡張RAG for Vision Analytics技術の強みは、映像から生成したナレッジグラフを用いて質問応答できる点です。大量の映像データからでも的確な回答を得ることができます。現在の生成AIで映像について質問をすることで、映像に何が映っているかといった大まかな情報は認識できても、出来事の時間的順序や詳細な情報までは正確に回答できません。私たちの技術は、これらの課題を克服し、高精度な回答を可能にします。また、映像から人やイベントの関係を示すナレッジグラフを生成し分析するアプローチは、他社の大規模言語モデル(LLM)開発とは一線を画すものです。

どのような方の利用を期待していますか。

斎藤:店舗や製造現場などの現場で、商品配置や設備点検、製造作業などを担当する管理者の方々に利用していただくことを想定しています。現場の映像をもとに、業務効率化やヒューマンエラー低減に向けた、現状分析およびそれに基づく施策立案に役立てていただきたいと思います。

技術開発の課題を教えてください。また、それらの課題をどのように解決しましたか。

弘中:ナレッジグラフのデータ量が増加すると大きくなると、AIの処理時間が長くなり回答が遅くなったり、回答を間違えたりすることが起こります。これは、AIは計算方法を毎回変えるため、処理時間や結果の一貫性が保証されないことが原因です。この課題に対して、試作開発と改善を繰り返しました。従来のAIによる処理はブラックボックスで、そのメカニズムは不明瞭でしたが、特定の問題解決のために設計された確実性の高いアルゴリズムを組み合わせる手法を考案しました。これにより、迅速かつ正確で一貫性のある回答が可能になりました。

斎藤は、長時間映像解析とナレッジグラフ拡張RAG for Vision Analytics技術の開発リーダ
弘中は、映像から生成されたナレッジグラフをもとにユーザーの質問に回答するチャットの開発を担当

選択的注意・記憶から着想を得た新しい映像コンテキスト記憶技術

現場作業の映像データは、数時間にも及ぶ膨大な量になることがあります。そこで、長時間映像解析のコア技術の一つである映像コンテキスト記憶技術が重要な役割を果たします。この技術は、長時間の映像から重要な情報を選択して保存します。Fujitsuナレッジグラフ拡張RAG for Vision Analytics技術は、時系列で複雑な映像情報をグラフ構造化し、ユーザーの質問に対して即座に適切な回答を提示できますが、膨大な映像データを効率的に処理するには、この映像コンテキスト記憶技術が不可欠です。

映像コンテキスト記憶技術の強み・特徴について教えてください。

山尾:映像コンテキスト記憶技術は、選択的注意・記憶という人間の認知特性に着想を得た新しい映像理解パラダイムに基づいています。「見えないゴリラ(*1)」実験のように、人間は特定のタスクに集中して映像を見ると、タスクと関連性の低い情報をあえて見落とすことで、タスクに関連する重要な情報を効率的に記憶します。この特性を参考にして、私たちは、質問応答や解析に重要な映像情報だけを選択的に抽出し、少ない容量で効率的にメモリへ保存する技術を考案しました。従来の技術では長時間の映像全体を保存していましたが、私たちの技術では、事前にタスク、例えば登場人物、状況、目的などをAIに与えることで、必要な情報のみを抽出・保存し、高いメモリ効率と回答精度を両立します。既存技術では処理が困難な1時間を超える長時間映像を含む映像理解ベンチマーク(*2)において、最先端の手法より高いメモリ効率と回答精度を達成しました。

どのような方の利用を期待していますか。

山尾:工場、商業施設、市街地などで撮影した多地点・長時間の監視カメラ映像や、映画、ドラマ、などの映像作品など、既存技術では扱うのが難しい長時間の映像データを分析して業務に活用したい方を想定しています。長時間映像を保有しているものの、その活用に困っているケースは、様々なビジネス現場で見られます。もちろん、個人利用でも同様の課題を抱えている可能性があります。研究者としては、特定の分野にとどまることなく、広く技術を活用してほしいと考えています。

宮原:現場での事故の分析のユースケースも考えられます。事故自体の検知だけではなく、それに至るまでの経緯を把握することは重要です。離散的なデータだけでは、その過程を理解することは困難です。本技術によって、事故に関わる人物の行動を追跡し、原因や経緯を解明できるようになることを期待しています。

技術開発の課題を教えてください。また、それらの課題をどのように解決しましたか。

宮原:AIに長時間映像をすべて記憶させようとすると、記録装置の容量に限界があるためデータが溢れてしまい、記憶できないという課題があります。そのため、計算機のスペックに収まるように、効率的に映像を記憶する必要があります。我々は既存のデータ圧縮や記録手法について徹底的に情報収集を行い、様々なアイディアについて議論を重ねました。その結果、人間の記憶から着想を得た必要なコンテキストにフォーカスする圧縮手法を用いて、効率的に記憶する方法にたどり着きました。

宮原は、映像コンテキスト記憶技術の開発を担当

長時間映像解析の誕生の裏側

長時間映像解析の開発チームはどのように結成されたのですか。

本田:研究部門では、各自がテーマを持って活動し、それを掘り下げていくのが基本です。しかし、最近はそれぞれの技術や能力を持ち寄り、より大きな成果を目指そうという動きが出てきています。長時間映像解析への取り組みはその一例であり、研究員が集まり、新たなテーマに挑んで大きな成果を生み出すという点で、新しい試みと言えるでしょう。社内ポスティング、Jobチャレ!!制度という富士通のキャリア支援を利用し、チームの一員となったメンバーも少なくありません。

研究の進め方について教えてください。

宮原:このチームは、多様なスキル・バックグラウンドがあるチームメンバーで構成されています。そのため、対面でのコミュニケーションも重要だと考えています。通常はリモートワークですが、定期的に全員が集まるコワーキングデーを設けています。リモートワークでは伝わりにくいことを共有したり、ホワイトボードを使って活発に議論したりすることで、密なコミュニケーションを図っています。

技術を短期間で公開できた理由を教えてください。

弘中:近年、AI、特にLLMの技術革新のスピードは非常に速く、他社に先んじるためには、迅速な開発が求められます。そこで、チャットシステムの構築や、ユーザーインターフェイス、ナレッジグラフの知見など、それぞれ強みを持ったメンバーを集め、知識を結集し開発を進めました。計画から開発までを短期間のサイクルで進めるにあたり、チーム全員が合意したスケジュールで、一丸となって開発を進めました。動画やコードで開発状況を共有し、迅速にフィードバックを繰り返すことで、早期に最終イメージを確定し、後工程での修正を最小限に抑えることができました。

技術はどこで体験できるのですか。

弘中:今日ご紹介した長時間映像解析、そしてコア技術であるナレッジグラフ拡張RAG for Vision Analytics技術にご興味をお持ちの方は、ぜひお問い合わせください。映像コンテキスト記憶技術については、体験いただける環境の提供準備を進めております。富士通の他の先進AI技術については、Fujitsu Kozuchi のウェブサイトもご覧ください。

AI時代に備える、研究員が描く未来

映像解析型AIエージェントや長時間映像解析の今後の展望について教えてください。

山尾:長時間映像解析の研究は、映像解析型AIエージェントのコアでもある、視覚情報に基づく意味理解・推論や、映像の短期記憶と長期記憶、そしてその記憶に基づく計画と行動といった、人間の視覚と知能の本質に迫る興味深いテーマです。また、映像コンテキスト記憶技術は、選択的注意・記憶という人間の代表的な認知特性をAIエージェントが獲得するブレークスルーをもたらす可能性があります。私たちの取り組みが、今後の潮流となるであろうAIエージェントやマルチAIエージェントシステムの技術的発展やその産業応用に大きく貢献することを期待しています。

斎藤:技術の使い勝手は非常に重要だと思います。映像解析型AIエージェントでは、できる限りユーザーの手間を省き、テキスト入力だけで映像認識・分析できるシステムを目指しています。もちろん、現段階で100%の精度を実現できるとは考えていません。しかし、工夫することでより良いものにすることはできると思っています。専門知識が無くても扱える簡単な操作で精度を向上させたり、専門家がカスタマイズすることで高度な認識・分析を可能したりするなど、誰もが使いやすいシステムを目指しています。

弘中:富士通は体操競技の採点をサポートするJudging Support Systemで蓄積してきた人の動きを詳細に認識する技術を持っています。その技術を活用することで、工場での作業負荷やスポーツで体にかかる負担などを回答できるようにして、利用シーンを広げていきたいと思います。

遠藤:業務システムとの連携を進めて技術の利用シーンを広げると共に、他チームが進めている異なる分野のAI技術との連携などを考えています。映像解析型AIエージェントは様々な技術や業界と組み合わせが考えられます。今後も技術を高めながら、共創・協業を通して広く使われる技術にしていきたいと思います。

宮原:AIはその発展により、テキスト、画像、音声、動画など多様なデータに対応できるようになり、その内容を理解することができるようになってきました。今後は、より多くのデータを処理することが求められると思います。我々が開発している処理・記録効率化を発展させていくことで、映像解析型AIエージェントの受け皿がどんどん広がっていくと思っています。

本田:本技術は社内外から関心が寄せられています。その魅力は、映像に映る人物のみならず、さまざまな物体を認識し、LLMを使った対話形式で必要な情報を簡単に取り出せる点にあります。今後は適用範囲を広げ、プログラミングなど専門知識がなくても簡単にシステムのカスタマイズ、アップデートができるシステムへの進化を目指します。

インタビュー参加メンバー
  • (*1)
    「見えないゴリラ」の実験は、人間の注意が選択的に働くことを示す実験です。被験者は、映像に映る白いシャツを着たプレイヤーが何回ボールをパスしたかを数えるように指示されますが、ゴリラの着ぐるみを来た人物が画面中央を横切っても、多くの被験者は気づきません。
  • (*2)
    長時間映像理解の性能を評価するために設計された最先端のベンチマークInfiniBenchのうち、映像情報のみで回答可能な599のサブセット(平均49分・最大151分の映像)を使用したベンチマークです。

当社のSDGsへの貢献について

2015年に国連で採択された持続可能な開発目標(Sustainable Development Goals:SDGs)は、世界全体が2030年までに達成すべき共通の目標です。当社のパーパス(存在意義)である「イノベーションによって社会に信頼をもたらし、世界をより持続可能にしていくこと」は、SDGsへの貢献を約束するものです。

本件が貢献を目指す主なSDGs

“No. 9”

このページをシェア

  • facebook
  • twitter
  • LinkedIn
  • LINE
  • Weibo

Recommend

 
 

Connect with Fujitsu Research

LinkedIn
Twitter
YouTube
ページの先頭へ