富士通とカーネギーメロン大学の共同研究成果、ニューラルネットワークによる動的3次元形状復元技術を開発

コンピュータビジョンのトップカンファレンス CVPR 2023に採択

2023年7月6日

2023年6月18日から開催されたコンピュータビジョン分野のトップカンファレンスであるCVPR（The IEEE/CVF Conference on Computer Vision and Pattern Recognition）2023に、富士通とCarnegie Mellon University（カーネギーメロン大学）の共同研究成果である、高速レンダリング（描画）可能な「動的3次元形状復元技術」が採択されました。

本技術により、映像内の対象物体が動く動的3次元シーンに対しても、対象物体の高速高精細な画像生成が可能になります。これまで困難だった、動的シーンへの対応と、高速な画像生成の両立実現により、動的3次元シーンに基づくシミュレーション分析や、3次元アバターへの適用などが期待されます。

CVPR 2023の概要

学会名：CVPR 2023（The IEEE/CVF Conference on Computer Vision and Pattern Recognition）
開催日：2023年6月18日～6月22日
開催場所：カナダバンクーバー
論文タイトル：DyLiN: Making Light Field Networks Dynamic
（著者）富士通：新沼厚一郎
カーネギーメロン大学：Heng Yu, Joel Julin, Zoltán Á Milacski, László A. Jeni

注目のニューラルネットワークに基づく3次元復元技術の課題

近年、機械学習技術であるNeural Radiance Field（NeRF）に代表される、ニューラルネットワークによる3次元形状復元技術が高い注目を集めています。この技術では、複数の角度から撮影した写真から、その空間内の対象の高精度高精細な3次元形状を復元することが可能となります。

2020年に最初に発表されたNeRF技術は、当初、対象が動く動的シーンには適用できない、画像生成に時間がかかりリアルタイムアプリケーションには使用できない、などの制限がありました。これまでに、これら課題を解決するために多くのNeRF拡張技術が提案されてきました。
しかし、提案された方式では、動的シーンへの対応、高速な画像生成のどちらかのみに対応した方式はありますが、2つの要件を同時に満たす方式はありませんでした。

新方式：高速レンダリング可能な動的3次元シーン復元技術

今回我々は、動的シーンへの対応と、高速な画像生成を両立したDynamic Light Field Network (DyLiN)を開発しました。映像内の対象物体が動く動的3次元シーンで、対象物体の高速高精細な画像生成を行うため、リアルタイム3次元アバターの生成などが可能になります。

図 1：リアルタイムアプリケーションの例

DyLiNの学習は、大規模なモデルが持つ豊富な知識を小さなモデルに伝達する機械学習の技術である知識蒸留に基づいて行いました。まず動的NeRFモデル（低速な画像生成）に実データを使って学習させ、そこからDyLiN学習用の疑似データを生成します。次に、それら疑似データと実データの両方を用い、DyLiNモデルを学習させます（図2）。

図 2：DyLiN学習パイプライン

学習済みのDyLiNは、図3で示すカメラ位置（Ray origin o）、カメラに入ってくる光の向き（Ray direction d）、動画像の時間（Time t）を入力すると、該当画像位置のピクセル値（RGB）を出力します。

図3中、青色で示しているMLP：多層パーセプトロン（人間の神経細胞のように細胞と細胞を多層に組み合わせたモデル）は、オリジナルのカメラ位置と光の向き（oとd）を、動画シーンを考慮したカメラ位置と光の向き（o’とd’）に変更し、また、緑色のMLPは時間tでの動的シーン情報を特徴化したhyper-space code wを生成します。次に、o’とd’上の複数の3次元点とwすべてを連結させ、赤色のMLPに入力することで該当画像位置でのピクセル値を高速に得ることができます。

更に、我々は、DyLiNを拡張したCoDyLiNもあわせて提案しています。CoDyLiNにより、動的シーンへの対応だけでなく、画像のリアルタイム操作（顔表情のコントロールなど）が可能となります。

図 3：新方式 DyLiNアーキテクチャ

動画：既存方式（左側、HyperNeRF）と新方式（右側、DyLiN ）の比較

※技術の詳細：

DyLiN: Making Light Field Networks Dynamic（CVPR 2023 open access）
DyLiNプロジェクトページ

今後について

本技術は、富士通研究所が技術開発を進めるコンバージングテクノロジーを支えるキー技術の一つとして、当社のソーシャルデジタルツイン*やエンタープライズ向けメタバース（企業向け仮想空間）などへ適用を進めていきます。
具体的には、人・車・建物などを含む実世界3次元シーンを生成・分析をするモビリティ・防犯・スマートシティ向けサービスへの活用や、実映像から生成した3次元アバターによるバーチャル空間コミュニケーションサービスへの活用などを進めます。

*ソーシャルデジタルツイン：
実世界のデータをもとに、人や物の状態だけでなく、経済・社会の活動をまるごとデジタルに再現することで、社会の実態や問題発生のメカニズムを把握すると共に、多様で複雑化する課題の解決に向けた施策立案などを支援する技術群