情報検索に“知恵”を吹き込む!日本語形態素解析エンジン

Happiness®/BASE5


ハピネス ベース

Happiness®/BASE5とは

Happinessは、日本語自然文の解析を行う汎用ソフトウェア製品です。利用者は自然言語処理の基幹技術であるHappinessを用いることにより、情報検索や自動翻訳、言語調査などの分野に幅広く活用することが出来ます。特に図書館の目録作成処理におけるアクセス・ポイント(カナ分かち書き)の生成には、なくてはならない機能となっています。

また、Happinessは1983年から販売されている、日本語自然文解析のロングセラー製品です。日本語処理に特有の分かち書き、キーワード抽出、ヨミガナ付け、ローマ字生成、異体字変換等、情報検索や自動翻訳、目録作成、言語調査などの分野で幅広く活用されています。

注)Happiness®/BASE5は、JIS X 0213:2004(JIS2004)に対応したHappiness®シリーズの最新版です。

導入実績

図書館、博物館、資料館
  • 蔵書管理・書誌作成支援
  • 遡及処理支援(キーワード生成・ふりがな付け・字種変換・異体字変換など)
  • 図書検索システム向け索引作成
情報検索
  • 統合・メタデータベースの索引作成
  • 検索ナビゲーションシステム
  • 検索キーワードのログ分析
日本語研究者
  • 同義語辞書・シソーラスの作成支援
  • 文献情報分析(用語出現頻度分析)
  • 新聞記事、Web、ニュース原稿のキーワードによる傾向分析
  • 翻訳・要約など日本語処理システム
    • Happiness®/BASE5の機能

      クライアント/サーバ間機能
      利用者辞書指定システム基本辞書に加えて「利用者基本辞書」「利用者辞書」が指定できます。
      コード系変換原文の文字(SJIS/EUC/Unicode(UTF-16,UTF-8))を自動的にコード変換します。
      異体字変換表指定国際異体字変換表や利用者独自の異体字変換表を指定することができます。
      ローマ字ルールローマ字化するためのルールを指定することができます。
      利用者外字指定SJIS,EUCの利用者外字を指定することができます。
      分かち書き機能
      異体字変換異体字は親字に変換し、辞書引きを確実に行います。
      長音代替機能ルールの指定によりハイフンなどを長音と見なします。
      分かち書きパス機能ルールに指定した記号に挟まれた部分の分かち書きを迂回します。
      連単語解釈連続する熟語間の強弱を判定して最適な分割位置を決定します。
      キーワード抽出機能
      不要語削除処理分かち書き結果より不要な語を除去してキーワード候補を生成します。
      語基組み合わせ語基の組み合わせによりキーワードを生成します。
      組み合わせ範囲語基を組み合わせる際の語基数の範囲が指定できます。
      組み合わせ時期語基組み合わせの時期として、削除後組み合わせ・削除前組み合わせ・削除後連結組み合わせのいずれかが選択できます。
      組み合わせ方式語基組み合わせの方法として、標準組み合わせ・トランケーション組み合わせがあります。
      採用単位短単位(前後に名詞のない独立した語基)・長単位(熟語のつながっている全体)の採用可否を指定することができます。
      組み合わせ迂回語基組み合わせを迂回することができます。
      不要語接続不要語を除去するのではなく、直前の有用語に接続する結果を生成することができます。
      フリガナ付け機能
      音訓読み辞書にない熟語でも文字の前後を判断して音訓を決定します。
      解釈フリガナ上記判別を詳細に行う指定が可能です。
      連濁熟語が続く場合、後続する熟語の先頭の読みを濁音とする指定が可能です。
      処理結果変換機能
      ヨミガナ文生成助詞(は、へ、を)の変換や四つガナ(じ、ぢ、ず、づ)統一等を行ったヨミガナを生成します。
      ローマ字文生成指定のローマ字ルールに従い、フリガナ文又はヨミガナ文からローマ字文を生成します。カナ文字列を入力し(分かち書きを行わずに)直接ローマ字文を生成する事も可能です。
      異体字変換指定の異体字変換表を用いて、異体字を親字に統一します。
      字種変換指定により全角半角変換、カナ統一、大文字小文字統一などを行います。
      原文通知原文自体に異体字変換や字種変換を施した結果の通知を行います。
      用語管理機能
      用語の種類語彙辞書・副語彙辞書・分かち書き辞書・不要語辞書の4種類があります。
      用語タイプ用語の扱いを示す情報として11個のタイプがあります。
      用語オプション用語に対する特別な索引方法や処理の指定として、(1)分割指示(2)活用形(3)熟語化(4)助数詞(5)小数判別(6)接尾辞解釈要(7)見出し位置変更 があります。
      音訓読み漢字1文字ごとに音読みと訓読みを与えることができます。
      解釈フリガナ漢字1文字の前後を判別する木目細かなフリガナ付けが指示できます。
      連濁熟語が続く場合に連濁させることを指示することができます。
      第2フリガナ用語の分かち書き結果によって異なる読みを指示することができます。
      処理結果通知機能
      取り出し内容(1)分かち書き結果(2)不要語削除結果(3)不要語接続結果(4)キーワード結果(5)原文 のいずれか(複数可)を得ることができます。
      通知形式上記結果について (1)漢字のままの文章(漢字文)(2)異体字変換した漢字文(3)フリガナ文(4)ヨミガナ文(5)フリガナからのローマ字文(6)ヨミガナからのローマ字文 の通知形式が選べます。(原文の場合は(1)(2)のみ)また原文を除き(1)~(3)については(a)組合わせ可能単語同士を特別な空白で切断する(b)切断する空白は統一する、のいずれかを指定する事ができます。更に漢字と単語とフリガナを組で通知するテーブル形式もあります。
      格納方法通知領域への格納方法として(1)単語の泣き別れを許す(2)空白を空けない(3)単語の泣き別れを禁止する(4)処理結果を格納したポインタを通知する、のいずれかを選択することができます。
      字種変換文章形式の場合、(1)全角統一/半角変換(2)ひらがな統一/カタカナ変換(3)大文字統一/小文字統一を(1)~(3)の組み合わせで指定することができます。
      辞書ツール
      辞書マージ利用者辞書を翻訳し利用者基本辞書を作成します。
      用語抽出利用者基本辞書より指定した条件に合致した用語を取り出します。
      処理結果比較サンプルの原文を異なる条件(利用者辞書や利用者基本ルール)で処理した結果を比較します。
      用語登録効果確認利用者辞書用語の登録とその効果確認を会話型で行います。
    • 動作環境

      対応OS
      Windows版Windows 10/11
      Windows Server 2016/2019/2022
      ※サーバ機能はIntel x64アーキテクチャのみに対応、クライアント開発キットはx64/x86に対応
      Linux版Red Hat Enterprise Linux 6/7/8/9
      CentOS 7
      ※サーバ機能はIntel x64アーキテクチャのみに対応、クライアント開発キットはx64/x86に対応
      推奨環境
      サーバCPU:3GHz(4コア) メモリ:4GB 以上推奨
      クライアント各OSの推奨スペック以上
      クライアント Application Program Interface
      C/C++、Java、Microsoft.NET Framework(C#、VB.net、C++等)

      注)記載されている製品・サービス名、会社名及びロゴは、各社の商標または登録商標です。

    • Happiness®/BASE5のシステム構成

      コンポーネント説明
      BASEサーバ独立動作する基本処理エンジン
      BASEクライアントクライアント/サーバ方式を使用し、複数のアプリケーションにサービス可能なAPIライブラリ
      BASE Java クライアントBASEクライアントと同等の機能を提供する、Javaクラスライブラリ
      BASE .NET
      framework API
      BASEクライアントと同等の機能を提供する、Microsoft .NET framework向けクラスライブラリ
      BASEエージェント単一のアプリケーションをサービス対象とした、高速(非通信)の組み込み型APIライブラリ
      辞書ツール辞書の管理等に有効なサービスプログラム(辞書マージ、用語抽出、処理結果比較、用語登録効果確認)
      システム基本辞書約14万語の辞書用語(Unicode)
      標準基本ルール処理上ルールの定義体
      異体字変換表異なる字形を持つ文字を統一する定義体
      国際異体字変換表中国・台湾の文字を含む異体字変換表
      ローマ字ルールローマ字文を生成するルールの定義体
      (日本式、訓令式、ヘボン式、英米標準)
      活用判別表活用形判別ルートの定義体
      特定用途向け辞書特定の用途に有効な標準利用者辞書
      タイトルKWIC用辞書 / 漢数字読み下し用辞書 / 名字辞書
ページの先頭へ