「守る」技術

顔認証の時、本人がその場にいるか写真かを判定する技術

顔写真を勝手に認証に使われて「本人になりすまされるのを防ぐ」技術です。

そもそも顔認証って?

事前に登録しておいた顔画像とカメラの前に立って写した顔の特徴が似ていれば本人と判断する、という認証方式です。たとえば、目の位置や鼻の位置などはひとりひとり異なります。それらの特徴を活かして本人かどうか判断するシステムです。

顔認証はスマートフォンや空港の出入国審査、お店の入店時や決済時などに一部使われています      

  • 近頃はいろいろな所で使われていますよね。

  • だからこそ、犯罪行為も増えています。説明しますね。

本人がその場にいるかを判定する必要があるのかな?

顔認証を悪用する犯罪のひとつ、「なりすまし」をご存知でしょうか?顔の画像(動画も含む)は、SNSなどを通してしばしばインターネット上に公開されます。そのため、悪意ある人ならば容易に盗むことができます。たとえば、盗んだ顔画像を使ってパソコンやスマートフォンのロックが解除されてしまうかもしれません。


  • なんだかこわいわ。どうしたら良いでしょうか?

  • カメラの前にあるのが「実は写真なのではないか」と、近赤外線カメラなど専用の機器を使って確認する技術があります。また、顔認証の時に本人がその場にいることを証明するため、「まばたきしてください」「横を向いてください」など本人に動いてもらうことによって本当にその場にいることを確認する技術もあります。

  • ホッ、良かった。対策がとられているんですね。

  • はい、でも富士通が開発した技術では、特別な機材は要りません。普通のカメラを使います。そして、動いてもらわずとも「人がその場にいる」ことを識別し、それが本人かどうかを判定できます。

  • すごい技術ですね。詳しく教えてください。

本人がその場にいるか写真かを判定する技術

丸いものや凹凸(おうとつ)のあるもの(例えば顔)をカメラで撮影すると、平面に写し取られた画像になります。これが写真と呼ばれているものです。写真には撮影という操作が必ず引き起こす、いろいろな特徴が現れます。

 

  • え? 写真に「特徴」があるのですか?写真は見たまま写っているハズですが?

  • 「写真」に現れる特徴のひとつに「ゆがみ」があります。たとえば、私達がよく目にする地球儀と平面地図を思い出してみましょう。

    地球儀平面世界地図

    この平面地図は、メルカトル図法によって描かれています。この図法では、どの地点も東西南北方向の角度が正確に表現されます。その特徴を活かしてしばしば航海図に利用されます。しかし地球は丸いので、平面にするとどうしても北極や南極付近の国は拡大された形で表されてしまいます。そのため面積を正しく表示することはできません。
    私達の顔も同じで、丸いものを平面で表すと細部にゆがみがでます。このゆがみが「写真の特徴」のひとつです。

  • そのゆがみを使って、顔認証時の「顔」がその場にいる顔か、または写真かを判定する、ということになるんですね!

  • その通りです。私達が開発したのは、AIでゆがみなどの写真の特徴を学習させ、写真か本物かを判定するモデルです。これを実際の判定に適用しました。

【その1】AIで写真の特徴を学習、写真か本人がその場にいるかを判定するためのモデルを作成

様々な場所で撮影された世界中の老若男女の顔画像を教師データとして機械学習し、写真の特徴を自動的に抽出しました。機械学習にはディープラーニングという手法を使います。そして、写真の特徴を数値で表した「判定用モデル」を、撮影環境ごとに作りました。

①AIが顔画像の教師データを撮影環境ごとに分けます


大量の教師データ1枚ずつ、光の当たり具合に基づいて自動的に撮影環境を推定します。
「強い光源がとくにない、通常の屋内シーン」、「明るい窓際」、「逆光」
というように分別します。



②撮影環境ごとに、写真特有の成分に分離します



  • 写真特有の成分はいろいろありますが、この説明では「ゆがみ成分」と「反射成分」を使って説明をします。


③各成分を数値化します


  • どうやって数値化しているんですか?

  • 画像を細かく見て、ある場所にゆがみがあれば「プラス0.1」、ゆがみが無ければ「マイナス0.1」のように表し、 画像全体での結果の合計が、最終的なゆがみ成分の数値になります。反射についても同じように計算し、最終的な反射成分の数値を求めます。


④数値化した撮影環境ごとの特徴を使って、写真か本物(本人がその場にいる)かを判定するためのモデルを作ります


(実際はいろいろな成分を数値化して判定用モデルを作りますが、ここでは、「窓際」で撮影された2つの成分「ゆがみ成分」と「反射成分」を用いて、判定用モデルのイメージ図で紹介します)

  • 数値化されたものを、図に点として記入します。


  • 写真の場合と本物の場合でそれぞれ集合体ができていますね

  • はい。次に、写真の場合と本物の場合の間に境界線を求めます


  • 顔認証で撮影された画像がどちらの集合に属しているかを求めることで、本物(その場にいる)と写真を区別します。(本物らしさが高い=本物の集合に属する確率が高い)

【その2】類似度や本物らしさを計算して、写真か本人がその場にいるかを約0.1秒で判定

  • これまでは顔認証する環境によって写り方が変わるので、写真か本人(その場にいる)かを判定するための計算量が多くなっていました。

  • そうですよね、いつ、どこで顔認証するかは決まっていませんから。

  • そのため、今回は事前にAIを使って窓際や逆光などの撮影した環境ごとに判定用モデルを作りました。実際に顔認証する時に、推定した撮影環境ごとに
    「類似度」(どこで撮影した可能性が高いか)
    「本物らしさ」(その場にいるかどうか)
    を数値で算出して判定しています。そのため計算量が減って、わずか約0.1秒で判定結果を出せるようになりました。詳しく説明します


①顔認証装置に顔を写します



②撮影環境ごとに「類似度」 を算出します



類似度の計算方法

1)撮影環境ごとに「顔表面の明るさ」、「背景の明るさ」、「左右の明るさの違い」などを計算します。(逆光ならば背景が明るく、顔表面が暗くなります。窓際ならば左右の明るさの違いが大きくなります)


2)撮影画像と通常・窓際・逆光の場合の「差」を計算します。
(窓際の計算を例に出しますが、通常・逆光の場合も同じ計算をします)


3)それぞれの場所との差が小さいほど類似度が大きくなります。例えば「窓際」の差の数値が0.4ならば、類似度は1-0.4=0.6になります。



③次に「本物らしさ」 を表す数値を算出します


「その1」でAIを使って作成しておいた判定用モデルのひとつ「窓際用」を使って、写真と本物(その場にいる)の境界線からどれくらい離れているか数値で表します。



「類似度」「本物らしさ」 を掛け算します



⑤判定します

「類似度」と「本物らしさ」を掛け算した、通常、窓際、逆光の数値を合算します。合算値が基準値よりも大きいと「本物」と判定します。今回の例では合算値が0.72で、基準値0.7より大きいので、本物(本人がその場にいる)と判定します。
(今回説明に使った基準値やその他の数値は例です。判定基準を厳しくしたい場合は値を大きくします。)


  • それではこの技術の特徴を3つ、復習しておきましょう。
    ①約0.1秒で判定可能!
    ②特別な機材は不要!
    ③利用者が「まばたき」などの所定の動作不要!

  • よくわかりました!じつは私もテレワークをしていて、社外からのリモートアクセス時に「大丈夫かな?」って思ってました。こんなにすごい技術を手軽に使えるなら、使ってみたいな!


小話(研究員のテレワークあるある)

テレワークになって、ちょっと大変?!


顔認証の研究開発をしていると、自分自身の顔を撮影することがよくあります。なぜなら、誰にも許可を得ずに使えるからです(著作権や肖像権などを考えなくて良い)。これまでは会社内で撮影していましたが、テレワークにより自宅で撮影する機会が増えました。必然的に背景に本棚などプライベートな物が写ってしまう可能性もあり、毎回片付けなければなりません。資料によっては、白い背景で比較した場合や、撮影する時間(顔に光があたっているタイミング)なども考慮しなければなりません。
家の中で条件のあった場所は、なかなかありませんので、撮影の時はちょっとした重労働になります。

  


オンラインの国際会議でのある日のできごと


研究員は国際会議で発表したり、他の研究者の発表を聴講することがあります。会議の中のポスターセッションでは、各発表者ごとに区切られたスペースがあり、その発表者の内容に興味を持った聴講者がそのスペースに集まって、発表を聞いたり質問をしたりします。
オンライン会議で発表者はそれぞれ自国から参加しているため、地域によっては発表が深夜になる人もいます。たまたま筆者が入った発表では、発表者の方が眠ってしまっていました。きっと発表者にとって、夜の時間帯だったのでしょう。声をかけるのも気が引けたので質問をせずにそっと退室しました。(時差のある国の人との打ち合わせが真夜中になることも・・、これもオンラインあるあるです)

 


その他の「守る」技術

  •  

関連記事

  •  
ページの先頭へ