AIトラストと、対話型生成AIにおける富士通のAIトラスト技術

2023年12月21日

生成AIは社会や企業において新たなイノベーションの可能性を広げています。生成AIをはじめとする様々なAIは、企業がビジネスの成長を促進し充実した顧客体験を提供することを可能にしています。その一方で、AIが企業や社会に普及してゆくには、AIへの信頼（人々や社会がAIに抱く信頼感）やAIトラスト（AIの倫理、セキュリティ、品質）が重要です。

富士通は、AIの信頼構築と持続可能なデジタル社会の実現に長年取り組んできました。その一例が富士通AIトラスト研究センターです。同センターは、倫理的なAIの研究開発・導入に向けた取り組みをリードし、AI倫理影響評価などのツールを開発してきました。そしてこの度、AIトラストセンターは、企業の業務に適用できる信頼性の高い対話型生成AIを実現するための技術として、幻覚検出技術とフィッシングURL検出技術を発表し、それらの技術をホワイトペーパーにまとめました。

ホワイトペーパーをダウンロード

本稿ではまずAIトラストが社会全般に広く及ぼす影響を、STEEP（社会的、技術的、経済的、環境的、政治的要因）フレームワークを用いて検証しました。また企業におけるAIトラストにも言及しました。生成AIを活用して競合性を高め、売り上げ増加やコスト削減を目指す企業にとってもAIトラストは重要な課題であるためです。そしてAIへの信頼の実現に向けた富士通の活動と、AIトラスト技術を説明しています。

幻覚検出技術とフィッシングURL検出技術

1つ目のAIトラスト技術は、対話型生成AIが、事実や確立された知識に基づかないもっともらしい誤りの回答内容を出力してしまう幻覚（ハルシネーション）を検出する技術です。幻覚は固有名詞や数値などの固有表現の部分で生じやすい傾向があります。当社の技術はこれを踏まえ、対話型生成AIの回答文をAIが意味解析し、固有名詞や数値などの固有表現部分を特定して重点的に確認することで、既存手法よりも幻覚を高精度に検出します。本技術について当社は、WikiBio GPT-3 Hallucination Dataset（注1）などのオープンデータを用いて、他のAIの幻覚を検出する最新手法の検出精度を比較しました。その結果、本技術がAUC-ROC（注2）を約22%向上できることを確認しました。

もう１つは対話型生成AIが、フィッシングサイトURLを回答してしまう問題に対応する技術です。フィッシングURLを特定することに加え、近年問題視されているAIの判断を故意に誤らせる既存の敵対的攻撃にも対応させることで、信頼性の高い判定を実現しています。この攻撃対策技術には、当社がBen-Gurion University of the Negev（注3）に設置した「富士通スモールリサーチラボ」（注4）で共同開発した技術を活用しています。

開発者コメント

AIトラスト研究センター　開発チームメンバー

宗像聡
Satoshi Munakata
福井琢
Taku Fukui
パフジャビカス
Vikas Pahuja

幻覚検出技術開発メンバーコメント：

私たちのプロジェクトは、対話型生成AIの幻覚検出技術の開発に重点を置き、その信頼性を高めることを目的としています。この技術は、お客様がデジタルトランスフォーメーションの取り組みにおいてこれらのAIシステムを自信を持って使用できるようにするための鍵であり、AIの信頼性に対する懸念を克服し、より安全で効果的なAIの統合を促進します。

フィッシングURL検出技術開発メンバーコメント：

生成AIは近年のAI分野において、変革をもたらす力として注目されています。我々の研究は、その新しい力に信頼を加えるものです。富士通のフィッシングURL検出技術は、対話型生成AIにユーザーが騙されることを防ぎます。私たちはお客様が安心してAIを利用できるよう、これからも、お客様に信頼していただけるような、新しいセキュリティ技術の開発に取り組んでまいります。

今後の取り組み

今回開発した技術のうち、幻覚検出技術はすでに「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」の対話型生成AIコアエンジンに搭載され企業ユーザーに提供されています。URL検出技術も近日中に同コアエンジンに搭載される予定です。まず日本市場で提供し、今後は、グローバル展開も予定しています。

当社は、AIが社会に広く活用される中で、AIの倫理、セキュリティ、品質などのAIトラストを向上させることが重要であると考えています。そのため、今回開発した技術をはじめとするAIトラストを向上させる技術の研究開発を継続し、実用化を進めていきます。

注釈

(注1)
WikiBio GPT-3 Hallucination Dataset：
幻覚検出で用いられるWikipediaを元にしたベンチマークデータ。
https://huggingface.co/datasets/potsawee/wiki_bio_gpt3_hallucination
(注2)
AUC-ROC（Area Under the Curve of the Receiver Operating Characteristic Curve）：
真陽性率を縦軸に偽陽性率を横軸にとり、異常度スコアに対して判定の閾値を変化させたときに得られる曲線の曲線下面積。ランダムな異常度スコアの場合に0.5となり、完全に正解した場合には1.0となる。通常、0.7よりも高い場合にある程度の性能が発揮できているとされる。
(注3)
Ben-Gurion University of the Negev：
本部イスラエルベエルシェバ市、総長ダニエル・チャモヴィッツ
(注4)
富士通スモールリサーチラボ：
富士通の研究員が大学内に常駐または長期的に滞在し、共同研究の加速、新規テーマの発掘、人材育成および大学との中長期的な関係構築を目指す取り組み。
https://www.fujitsu.com/jp/about/research/srl/

本件に関するお問い合わせ

TSU_MegaTrends@fujitsu.com

AIトラストと、対話型生成AIにおける富士通のAIトラスト技術

幻覚検出技術とフィッシングURL検出技術