Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CHARACTER SEARCHING METHOD
Document Type and Number:
WIPO Patent Application WO/2008/114618
Kind Code:
A1
Abstract:
A simple character searching method for correctly and quickly searching for a character such as a Kanji character or a Hangeul character without needing character knowledge and special device. A search character is divided vertically and laterally along the gaps between constituent elements, and the feasibility of the division is replaced with a code. Thus, characters are coded and classified. By inputting a classification code, a character can be searched for. With this, a character searching method enabling understanding of the meaning of the obtained search character by displaying it in multiple languages or in an animation.

Inventors:
KAGAMI TETSUYA (JP)
Application Number:
PCT/JP2008/054073
Publication Date:
September 25, 2008
Filing Date:
March 06, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TANAKA JIRO (JP)
KAGAMI TETSUYA (JP)
International Classes:
G06F17/22; G06F17/30
Foreign References:
JP2000330976A2000-11-30
JPH08272802A1996-10-18
JPH09160912A1997-06-20
JPH1040245A1998-02-13
JPH1083393A1998-03-31
JPH05151197A1993-06-18
JPH0844728A1996-02-16
JPS5543617A1980-03-27
Attorney, Agent or Firm:
FUJISAWA, Noriaki et al. (Kyodo Bldg. 3F5-11, Nihonbashihoncho 3-choum, Chuo-ku Tokyo, JP)
Download PDF:
Claims:
文字4分割コード等の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コードに対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
 前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードとそれに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
 前記入力手段10が、前記文字4分割コードの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コードと前記記憶手段30に記憶された文字4分割コードとを照合し、これらの文字4分割コードが合致した場合に、該文字4分割コードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
 文字や文字の構成要素に関する知識のない者が入力した文字4分割コードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。
文字4分割コード及び文字発音情報の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コード及び該文字発音情報の組み合わせに対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
 前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードの直後に文字発音情報をアルファベットで併記することにより前記文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
 前記入力手段10が、前記文字4分割コード及び該文字発音情報の組み合わせの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コード及び該文字発音情報の組み合わせと前記記憶手段30に記憶された文字4分割コード及び該文字発音情報の組み合わせとを照合し、これらの文字4分割コード及び該文字発音情報の組み合わせが合致した場合に、該文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字や文字の発音知識を持つ者が入力した文字4分割コード及び該文字発音情報の組み合わせから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。
文字4分割コード及び文字文法意味情報の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コード及び該文字文法意味情報に対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
 前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、8桁の数字の1桁目、2桁目、3桁目、4桁目の順に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字の分割線と異なる箇所にさらに分割可能な構成要素間の間隙があるか否かを5桁目に数字で表し、該文字の構成要素の多寡を6桁目に数字で表すことによりコード化し、このコードに続けて名詞かそれ以外かという文法情報を7桁目に数字で表し、人間かそれ以外かという意味情報を数字で8桁目に表すことでコード化し、前記文字4分割コード及び該文字に関する該文字文法情報と意味情報のコードを組み合わせて8桁のコードとし、それに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
 前記入力手段10が、前記8桁のコードを受け付けるステップと、
前記演算手段20が、前記入力を受け付けた前記8桁のコードと前記記憶手段30に記憶された前記8桁のコードとを照合し、これらの前記8桁のコードが合致した場合に、該8桁のコードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
 文字に関する文法や意味の知識を持つ者が入力した前記8桁のコードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。
Description:
文字検索方法

  本発明は、漢字やハングル等の文字を 易な方法で正確、迅速に検索する検索方法 関するものである。

 従来より、文字、特に漢字を検索する方法 していくつかの特許が提案されている。特 文献1に示すものは文字を構成する1つ以上 構成要素によって文字を検索するものであ 。
 この発明によれば、文字論理式入力手段10 ら入力された文字論理式に含まれる文字の 品を文字部品特定手段11において特定し、こ れを文字論理式に代入して部品論理式を作成 する。作成した部品論理式を部品論理式演算 手段12において演算し、演算結果として得ら た部品の集合を検索条件として該当文字特 手段13が文字部品データベース15を参照し、 該当する文字を特定するものである。

特開2003-30183

 前記特許文献1に記載の発明は、漢字の文 字知識を前提とし、文字をいくつかの部品に 分割し、この分割された文字を部品単位で加 算、減算、乗算等するように構成しなくては ならず、そのために演算文字検索装置を用い ている。

 前記演算文字検索装置の操作のために、 字の文字知識を前提とし、文字論理式入力1 0、文字部品特定手段11等の各手段が必要とな るため検索装置の構成が複雑となり、検索方 法も複雑なものとなっていた。

  本発明は上記の点に鑑みなされたもの あり、漢字やハングルの文字知識や特別な 置を前提とせず、簡易な方法で行え、かつ 確、迅速に検索できる文字検索方法を提供 るものである。

本発明の要旨とするところは、文字4分割コ ド等の入力を受け付けるための入力手段10と 、検索文字の構成要素の間隙をコード化した 文字4分割コードに対応する文字データベー や文字検索プログラムを記憶するための記 手段30と、入力情報と文字データベースの照 合を行うための演算手段20と、検索結果を表 するための表示手段40とを備えた検索装置 おける文字検索方法であって、
 前記記憶手段30に文字データベースを記憶 るに際し、文字の構成要素間に間隙がある 合は分割線が引け、間隙がない場合は分割 が引けないという判断基準に基づき、文字 対し縦方向、横方向の順で略十文字形に分 線が引けるか否かを、文字の上、下、左、 の4つの部分ごとに順に判断し、分割線が引 る場合は数字の1、引けない場合は数字の0 表し、この数字を前記上、下、左、右の順 、4桁の数字の1桁目、2桁目、3桁目、4桁目に 対応するそれぞれの桁に割り当てることで文 字をコード化して文字4分割コードとし、該 字4分割コードとそれに対応する文字または 字画像、多言語、動画ファイルをデータベ スとして分類して記憶しておき、
 前記入力手段10が、前記文字4分割コードの 力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文 4分割コードと前記記憶手段30に記憶された 字4分割コードとを照合し、これらの文字4 割コードが合致した場合に、該文字4分割コ ドに対応する文字または文字画像、多言語 動画ファイルを前記表示手段40に表示する テップと、により構成され、
 文字や文字の構成要素に関する知識のない が入力した文字4分割コードから対応する文 字または文字画像を検索表示することを可能 とし、得られた文字または文字画像の意味を 多言語や動画で理解することも可能とした文 字検索方法にある。

また本発明の要旨とするところは、文字4分 コード及び文字発音情報の入力を受け付け ための入力手段10と、検索文字の構成要素の 間隙をコード化した文字4分割コード及び該 字発音情報の組み合わせに対応する文字デ タベースや文字検索プログラムを記憶する めの記憶手段30と、入力情報と文字データベ ースの照合を行うための演算手段20と、検索 果を表示するための表示手段40とを備えた 索装置における文字検索方法であって、
 前記記憶手段30に文字データベースを記憶 るに際し、文字の構成要素間に間隙がある 合は分割線が引け、間隙がない場合は分割 が引けないという判断基準に基づき、文字 対し縦方向、横方向の順で略十文字形に分 線が引けるか否かを、文字の上、下、左、 の4つの部分ごとに順に判断し、分割線が引 る場合は数字の1、引けない場合は数字の0 表し、この数字を前記上、下、左、右の順 、4桁の数字の1桁目、2桁目、3桁目、4桁目に 対応するそれぞれの桁に割り当てることで文 字をコード化して文字4分割コードとし、該 字4分割コードの直後に文字発音情報をアル ァベットで併記することにより前記文字4分 割コード及び該文字発音情報の組み合わせに 対応する文字または文字画像、多言語、動画 ファイルをデータベースとして分類して記憶 しておき、
 前記入力手段10が、前記文字4分割コード及 該文字発音情報の組み合わせの入力を受け けるステップと、
前記演算手段20が、前記入力を受け付けた文 4分割コード及び該文字発音情報の組み合わ せと前記記憶手段30に記憶された文字4分割コ ード及び該文字発音情報の組み合わせとを照 合し、これらの文字4分割コード及び該文字 音情報の組み合わせが合致した場合に、該 字4分割コード及び該文字発音情報の組み合 せに対応する文字または文字画像、多言語 動画ファイルを前記表示手段40に表示する テップと、により構成され、
 文字や文字の発音知識を持つ者が入力した 字4分割コード及び該文字発音情報の組み合 わせから対応する文字または文字画像を検索 表示することを可能とし、得られた文字また は文字画像の意味を多言語や動画で理解する ことも可能とした文字検索方法にある。
また、本発明の要旨とするところは、文字4 割コード及び文字文法意味情報の入力を受 付けるための入力手段10と、検索文字の構成 要素の間隙をコード化した文字4分割コード び該文字文法意味情報に対応する文字デー ベースや文字検索プログラムを記憶するた の記憶手段30と、入力情報と文字データベー スの照合を行うための演算手段20と、検索結 を表示するための表示手段40とを備えた検 装置における文字検索方法であって、
 前記記憶手段30に文字データベースを記憶 るに際し、文字の構成要素間に間隙がある 合は分割線が引け、間隙がない場合は分割 が引けないという判断基準に基づき、文字 対し縦方向、横方向の順で略十文字形に分 線が引けるか否かを、文字の上、下、左、 の4つの部分ごとに順に判断し、分割線が引 る場合は数字の1、引けない場合は数字の0 表し、この数字を前記上、下、左、右の順 、8桁の数字の1桁目、2桁目、3桁目、4桁目の 順に対応するそれぞれの桁に割り当てること で文字をコード化して文字4分割コードとし 該文字の分割線と異なる箇所にさらに分割 能な構成要素間の間隙があるか否かを5桁目 数字で表し、該文字の構成要素の多寡を6桁 目に数字で表すことによりコード化し、この コードに続けて名詞かそれ以外かという文法 情報を7桁目に数字で表し、人間かそれ以外 という意味情報を数字で8桁目に表すことで ード化し、前記文字4分割コード及び該文字 に関する該文字文法情報と意味情報のコード を組み合わせて8桁のコードとし、それに対 する文字または文字画像、多言語、動画フ イルをデータベースとして分類して記憶し おき、
 前記入力手段10が、前記8桁のコードを受け けるステップと、
前記演算手段20が、前記入力を受け付けた前 8桁のコードと前記記憶手段30に記憶された 記8桁のコードとを照合し、これらの前記8 のコードが合致した場合に、該8桁のコード 対応する文字または文字画像、多言語、動 ファイルを前記表示手段40に表示するステ プと、により構成され、
 文字に関する文法や意味の知識を持つ者が 力した前記8桁のコードから対応する文字ま たは文字画像を検索表示することを可能とし 、得られた文字または文字画像の意味を多言 語や動画で理解することも可能とした文字検 索方法にある。

本発明はたとえばインターネットを利用した ホームページ上において、漢字あるいはハン グル等の検索文字に対する文字知識を持たな い欧米人や、文字知識が不十分な学習者、あ るいは文字知識を習得済みでフロントエンド プロセッサーなどを利用し文字変換処理に習 熟した人など幅広い利用者が想定される場面 で有効である。
特に、漢字等の文字知識や文字処理システム を持たない欧米人などが漢字等を検索する場 合にASCIIコードなどの1バイト系の文字処理装 置でも本発明の文字を分割したコードを数字 等で入力し、文字を検索することができる。 さらに検索した文字の意味も多言語や動画で 容易に理解することができる。

また、漢字やハングル等の検索文字の文字 知識や文字処理システムを持つ日本人や中国 人などがフロントエンドプロセッサーなどで 文字検索の一種である文字変換処理をシフト JISコードやGBコードなどの2バイト系の文字処 理装置で、従来の発音情報に加えて本発明の コードを一緒に入力することで変換効率を向 上させることができる。

本発明の機能構成ブロック図である。 本発明の検索処理フローチャートであ 。 本発明の文字の分割方法を示す説明図 ある。 本発明の文字データベース表である。 本発明の文字データベースのシフトJIS 記である。 本発明の10進数省略書式と連想文字圧 書式の対照表である。 五筆字型のキー配列である。 ASCII配列のキー配列である。 五筆字型の入力例である。 中国語の同音漢字の例である。 中国語の同音漢字の分散率である。 中国語の同音漢字の4桁コードと5桁コ ドの分散率である。 中国語の同音漢字の6桁コードの分散 である。

 本発明の最良の実施形態は、検索文字の構 要素の間隙を、縦方向及び横方向に分割し 、この分割の可否をコードに置き換えるこ で文字をコード化し、前記コードとそれに 応する文字を分類して記憶手段に記憶せし 、入力手段から前記コードを入力して、演 手段を用いて前記記憶手段より文字を検索 ることで、漢字の部首や書き順などの文字 識を持たない人でも文字の検索を可能とし その後、得られた検索文字の意味を多言語 動画等で表示することで文字理解を可能と る。
また、前記検索文字の発音情報を前記コード と一緒に入力して分類することにより、漢字 の発音などの文字知識を持つ人には従来の発 音情報のみの検索方法よりも文字検索効率を 向上させることができる。
   以下、本発明の実施形態を図に基づいて 説明する。
本発明は、図1の記憶手段にコードに対応す 文字データベースと処理プログラムを記憶 ておくだけで、図2に示すプログラムを実行 検索を行うことができ、発音情報と分類コ ドを仮名漢字変換ソフト(フロントエンドプ ロセッサー)のユーザー辞書に追加登録する けで、文字検索効率を向上させることがで る。

図1は本発明の一実施形態を示す機能構成ブ ック図である。
たとえばインターネット上に公開されている 日本語の漢字辞書ホームページをダウンロー ドしてパソコンや携帯電話などの情報機器上 で辞書検索をする場合を想定する。図4に示 ような文字4分割コードと漢字を分類し表組 形式で閲覧できる漢字辞書ホームページをZ IP方式などで圧縮したファイルとしてダウン ードして解凍し、パソコンの記憶手段30な に予め記憶しておく。

図1の記憶手段30には、図4に示すような文 4分割コードとそれに対応する漢字を1つのレ コードとしてコードごとに分類した配列のデ ータベース形式で記憶しておく。利用者が閲 覧する表示も図4のごとき形式だが、ホーム ージはシフトJISで作成されていることが多 ので、実際は図5に示すような16進数のシフ JISで表記されるコード形式で図1の記憶手段3 0内に記憶されている。

図1の文字コード等入力手段10により、たと えばパソコンや携帯電話の数字キーなどを利 用して入力した文字4分割コードを、記憶手 30に予め記憶された文字データベースの文字 4分割コードと順次図1の演算手段20(CPUなど)に おいて照合する。実際の照合は図5に示す4分 コードのシフトJIS表記形式で行う。

照合処理に必要なプログラムは記憶手段30 事前にインストールされたホームページ閲 ソフト(ブラウザ)やワープロソフトの検索 能を呼び出して用いる。

入力した4分割コードとデータベースの4分割 ードが一致した場合には、その結果として 覧ページの表組みの中からカーソルキーの 近で一致した4分割コードが図1のたとえば 晶画面などの表示手段40において該当文字列 を背景とは異なる色などで強調表示(ハイラ ト)される。
たとえば図1の入力手段10から1111という4分割 字コードを入力し、予め記憶手段30に記憶 た図4の文字データベースを図1の演算手段20 照合した結果、図4の「語」の直前の行にカ ーソルキーが置かれていた場合には、「語」 の左側の「1111」が強調表示されるので、引 続き検索を続けたい場合は、ホームページ 覧ソフトやワープロソフトの検索機能の「 を検索」ボタンを押すと次の行の「競」の 側の「1111」が強調表示される。このように て順次目的とする文字を検索することがで る。

また、同様のソフトのオプション機能ボタ ンを使い、入力した1111という4分割コードに 致した行だけをまとめて一覧表示すること できる。

図4で使われる数字の1と0はシフトJISでは図 5の31と30という表記で表されるが、もし、パ コンがシフトJISなどの漢字処理機能を持た い場合には、欧米で一般的なASCIIコードで 同一の31と30という表記なので、「語」や「 」などといった文字部分のみをホームペー 作成時に予めGIF形式やJPG形式の画像ファイ 形式で保存しておけば、検索結果は画像で る「語」の左側に表示された「1111」や画像 である「競」の左側に表示された「1111」な で強調表示することが可能であり、利用者 文字化けせずに文字を表示することができ 。

上で述べた圧縮したホームページをダウンロ ード後解凍して検索する方法は、インターネ ットに接続しなくても閲覧できる利点がある が、インターネットに接続したままホームペ ージ閲覧ソフトの検索機能などを利用してオ ンライン検索することも同様に可能である。
オンライン検索の場合は、図1の記憶手段30等 に一時的に閲覧しているHTML形式のファイル 記憶されている状態にあるので、パソコン の電源を切りキャッシュメモリが消去され とダウンロード閲覧のように継続的な利用 できないが、ダウンロードをする手間がか らず、常時記憶手段30などの容量を確保する 必要がないという利点がある。

 また、膨大な辞書をオンライン検索する 合は、Perl言語などで予め作成したホームペ ージサーバー側のCGI検索プログラムを利用し て文字4分割コードを入力欄に入力すれば、 当する文字のみを一覧表示させることもで る。このようなデータベース検索CGIプログ ムはフリーソフト等で一般的に入手が容易 あり、利用者のパソコン等にインストール れたホームページ閲覧ソフトの検索機能を わなくても高速にオンライン検索できる利 がある。

図2は本発明の検索処理フローチャートであ 。
S100はたとえばホームページ形式の漢字辞書 どを検索するための作業の開始を表す。S200 図1の入力手段10から文字4分割コードを入力 することを表す。S300は後述する文字4分割コ ドの書式を照合用に書式変換するか否かを 断することを表す。もし、変換する必要が る場合にはS400においてたとえばホームペー ジに予め記述されたJAVA(登録商標)Scriptなどの スクリプトを利用するなどして書式変換処理 を行った後、S500において図1の演算手段20を いて入力した文字4分割コードとデータベー の文字4分割コードを照合処理することを表 す。S300において書式の変換が必要ないと判 する場合には、入力した文字4分割コードの 式のままS500の照合処理を行う。
書式変換とは、たとえば図4の文字4分割コー は4桁の数字が全て1もしくは0で表す書式だ 、これを1234と全ての桁を異なる数字で表す 書式で入力した場合、1以外の数字は全て1に 換するという簡単なスクリプトをホームペ ジ上で処理させることなどをいう。

ただし、S300とS400は、入力書式とデータベ スの書式が異なる場合のみに必要なステッ なので、それ以外の利用方法の場合には省 してもよい。

S600は図1の表示手段40においてたとえばホ ムページ上で照合合致した文字4分割コード 分を強調表示することなどを表す。

S700は検索した文字の意味をさらに調べた 場合に、その文字ないしは文字の画像にリ クを予め設定しておき、その文字の上をク ックするなどしてホームページの別の場所 ジャンプして文字の意味を説明する画面を 示するか否かを判断する。

仮に利用者が文字をクリックして文字の意 味を表示させる場合には、S800においてたと ば多言語(対訳)の言語情報を表示してもよい し、動画などの非言語情報を表示してもよい ことを表す。多言語(対訳)情報とはたとえば 本語の漢字「語」と一緒に中国語の「詞(Ci) 」や英語の「Word」などを表示することをい 。もし、利用者がこれらの言語を理解でき 場合には、日本語の「語」という文字の意 を言語的に類推理解できる利点がある。

仮に言語情報では理解できない利用者の場 合には、たとえば「競」という文字をクリッ クすると、動画(アニメ等)により人が競技を ている画面を表示するような処理を非言語 報による意味情報の表示という。

 もし、利用者が検索した文字の意味情報 表示が必要ないと判断した場合には、S900の 再入力のステップに進む。引き続き利用者が 異なる文字4分割コードを入力する場合には 再びS200から処理を継続し、検索を終了する 合にはS1000の終了ステップとなる。たとえ パソコンのウインドウを閉じるなどの操作 利用者がした場合に終了となる。

  図3は、文字の分割方法を示す説明図で る。

 本実施形態の文字検索方法を例えて言う 、文字を乗せたケーキをナイフで上から4分 割するものであり、ナイフは文字を構成する 線と線の間隙に切り込むことができるが、線 に触れてはならないものとする。ここで「線 」とは、文字の構成要素である直線、曲線、 点などの図形の総称を指すものとする。

 前記ケーキを時計に例えて、ナイフを切 込む方向を時計の中心から見て12時方向を 縦方向の上半分(略称「上」)と、6時方向を 縦方向の下半分(略称「下」)と、9時方向を 横方向の左半分(略称「左」)と、3時方向を 横方向の右半分(略称「右」)」と呼ぶ。

 文字を4分割する順序は任意に設定できるが 、本実施形態では、まず上、ついで下、3番 に左、最後に右の順序とする。
 そして、文字を分割できる場所を1、分割で きない場所を0という数字で表し、上→下→ →右の順序に、1または0の組み合わせから成 る4桁の数字で検索対象の文字を表し分類し これを「文字4分割コード」または略称で「 ード」と呼ぶ。また愛称として「ケーキカ ト法」などの名称を用いることにより、コ ドの適用規則を比喩により理解しやすくで る。

4分割線を上下左右という一般的な名称で び習わす方法に加え、赤緑青黄などの色彩 称を対照させ着色した分割線で図示しても い。

 前記4分割コードは、0000から1111までの16通 が考えられる。この16通りのコードの内、1 の文字に複数の分割方法がある場合、「で るだけ多く、かつできるだけ平等に文字を 割できるコードを優先する」という条件の 合度に応じた優先度規則を使う。ケーキを 等に分け合うという比喩で理解がしやすく る。
 そして、検索や表示などの処理は必要に応 て優先度の高いコードを優先度の低いコー よりも先に適用できる。

 図3の「語」は、最も優先度の高い第1番 の優先度コードである1111を表すものである このコードは、上→下→左→右の順番に文 を4分割したことを意味し、分割可能な箇所 を実線で示している。

 図3の「啓」と「仁」と「六」と「部」は、 第2番目の優先度コードを表すものである。 の2番目のコードはケーキを3分割するように 文字を分類したコードであり、これらのコー ド間は同一優先度である。
 前記コードのうち1011は、図3に示すように 上→左→右の順に分割したことを意味し、 えば「啓」という文字が相当する
 前記コードのうち1101は、図3に示すように 上→下→右の順に分割したことを意味し、 えば「仁」という文字が相当する
 前記コードのうち0111は、図3に示すように 下→左→右の順に分割したことを意味し、 えば「六」という文字が相当する
 前記コードのうち1110は、図3に示すように 上→下→左の順に分割したことを意味し、 えば「部」という文字が相当する。

 図3の「北」と「豆」は、第3番目の優先度 ードを表すものである。
 この3番目の優先度コードはケーキを2分割 るように文字を分類したコードである。こ らのコード間は同一優先度である。
 前記コードのうち1100は、図3に示すように 上→下の順に分割したことを意味し、例え 「北」という文字が相当する。
 前記コードのうち0011は、左→右の順に分割 したことを意味し、例えば「豆」という文字 が相当する。

 図3の「犬」と「庁」と「寸」と「火」は、 第4番目の優先度コードを表すものである。
 この4番目の優先度コードはケーキを2分割 るように文字を分類したコードである。こ らのコード間は同一優先度である。
 この場合、2分割のコードという条件は前記 3番目の優先度コードと同様であるが、「で るだけ平等に分割する」という条件が適用 きないので4番目の規則よりも3番目の規則を 優先するのである。
 前記コードのうち1001は、上→右の順に分割 したことを意味し、例えば「犬」という文字 が相当する。
 前記コードのうち0101は、下→右の順に分割 したことを意味し、例えば「庁」という文字 が相当する。
 前記コードのうち0110は、下→左の順に分割 したことを意味し、例えば「寸」という文字 が相当する。
 前記コードのうち1010は、上→左の順に分割 したことを意味し、例えば「火」という文字 が相当する。
 「火」は1001とも分割できるが、本発明では 重複してデータベースを作成することにより 、どちらのコードを入力しても目的の文字が 検索できるよう冗長性を許してもよい。

 5番目の優先度コードは理論上は1000、0001、0 100、0010の4個のコードが該当するが、ケーキ 一部にナイフを切り込めても分割すること できないため分割規則から除外する。
 従って、0000という分割不可能なコードのみ を最も優先度の低いコードとして採用する。 このコードに相当する文字は、例えば図3の 口」である。

 このように前記コードの組み合わせは、 論上は16通りとなるが5番目のコード処理に い、最終的には12通りの組み合わせを採用 る。

 なお、前記5番目の優先度コードは「1箇 のみの切り込み可能な文字はほとんど存在 ず、1箇所といえども切り込みが不可能な文 は少なからず存在する」という主として漢 の字形に即した対応となっているので、漢 以外の文字、例えばハングルでは4つのコー ドを除外せず16通りのコードを使ってもよい

 また、1つの文字に複数のコードが存在す る場合、規則利用者がいずれのコードを指定 しても処理ができるよう冗長性を持ったデー タベースを作成してもよい。例えば「火」と いう文字は、1010でもよいし、1001でもよい。

文字4分割コードの書式例を説明する。
  1文字の文字コード書式には5種類の書式が ある。

  「2進数(ビット)書式」(通称「2進数4桁 式」)は、1文字の上下左右各四分の一ずつの 4分割線を0(非分割)か1(分割)の2進数(ビット) それぞれ表す4桁(4ビット)の書式で図3がこの 書式例である。位置情報は上下左右の順に固 定で4桁未満の省略表示はしない。

「10進数書式」は、「10進数非省略書式」 「10進数省略書式」に分かれる。

「10進数非省略書式」(通称「10進数4桁書式」 )は、0(非分割)、1(縦方向上半分分割)、2(縦方 向下半分分割)、3(横方向左半分分割)、4(横方 向右半分分割)の5つの数字で表す。位置情報 順番は非固定だが4桁未満の省略表示はしな い。
昇順の例は1234、1204などであり、降順の例は4 321、4021などであり、任意順の例は2341、2401な どであり、非分割の例は0000である。

「10進数省略書式」は、「10進数非省略書式 と同じ規則だが上下左右全ての分割線が分 不可能な場合のみを0で表し、2つ以下の0は 略表示できる。
「10進数非省略書式」の例を「10進数省略書 」で表すと、昇順の例は1234、124などであり 降順の例は4321、421などであり、任意順の例 は2341、241などであり非分割の例は0である。

「日常語書式」は「日常語非省略書式」と 「日常語省略書式」に分かれる。

「日常語非省略書式」は、「10進数非省略書 」の「1234」の代わりに「上下左右」や「UDL R(Up Down Left
Rightの頭文字)」を使う。「赤緑青黄」などの 色彩名称を使ってもよい。書式の規則は「10 数非省略書式」と同じである。

昇順の例「1234」は「上下左右」か「UDLR」 「1204」は「上下0右」か「UD0R」などで、降 の例「4321」は「右左下上」か「RLDU」、「40 21」は「右0下上」か「R0DU」などで、任意順 例「2341」は「下左右上」か「DLRU」、「2401 は「下右0上」か「DR0U」などで、非分割の例 「0000」は「0000」などである。

「日常語省略書式」は、「10進数省略書式」 「1234」の代わりに「上下左右」や「UDLR(Up  Down Left
Rightの頭文字)」を使う。書式の規則は「10進 省略書式」と同じで、コードを続ける場合 は1文字につき4桁ずつという規則性がない め、文字単位に相当する箇所にハイフンな の区切り記号の挿入を必須とする。

昇順の例「1234」は「上下左右」か「UDLR」 「124」は「上下右」か「UDR」などで、降順 例「4321」は「右左下上」か「RLDU」、「421 は「右下上」か「RDU」などで、任意順の例 2341」は「下左右上」か「DLRU」、「241」は「 下右上」か「DRU」などで、非分割の例「0」 「0」で表す。

「16進数圧縮書式」(通称「16進数1桁書式」) 、「2進数(ビット)書式」を16進数に変換して 1文字で表す。
 たとえば、次のような1桁の表示が可能とな る。2進数の0000は16進数で0と表し、2進数の010 1(10進数の5)は16進数では5と表し、2進数の1010( 10進数の10)は16進数ではAと表し、2進数の1111(1 0進数の15)は16進数ではFと表すので、習熟す と入力が大幅に効率化できる。

「連想文字圧縮書式」(通称「連想1桁書式 )は図6に示すように「2進数(ビット)書式」 連想しやすいアルファベット等に置き換え 1文字で表す。図6は10進数省略書式と連想文 圧縮書式を対照してある。同じ1桁でも、16 数圧縮書式は論理的だが記憶しにくいため 初心者には連想文字圧縮書式のほうが記憶 やすく効率がよいという利点がある。

次に2文字以上の文字列の4分割コード書式を 明する。
たとえば図4の「北」と「山」という2文字か なる「北山」という苗字を4分割文字コード で表す場合、2進数書式では、図4の4分割コー ド「1100」と「0000」をつなげて「11000000」と8 の数字で表すことができるので、もし名簿 どを作成する場合は、図4の4分割コードに 11000000」を加え、その右側に「北山」という 文字を併記すればよい。
しかし、数字の羅列が見分けにくいとか、数 字の0をたくさん入力するのに手間がかかる どというさまざまな理由から、文字列にも 式の規定が必要となる。

「2進数(ビット)書式」の文字列の書式は隣 り合う文字と文字の区切り記号のハイフン(-) 等を挿入してもよいし、しなくてもよい。理 由は4桁ずつコード列が一定に連続している で識別しやすいからである。

区切り記号を挿入しない書式は、内部デー タはハイフン(-)を挿入せず4桁(4ビット)ずつ 字列に対応するコードを列記する形式で記 してあるので、区切り記号なしの2進数書式 入力書式と記憶データ書式が同一で誤処理 少ないという長所がある。

区切り記号を挿入する書式は、利用者の入 力文字数が0と1以外にハイフン(-)記号の分だ 増加するが、入力する利用者が目視して文 コードの区切りを識別しやすいという長所 ある。

「10進数非省略書式」も、「2進数(ビット) 式」の文字列の書式と同じ理由から区切り 号の挿入は任意とする。

  「10進数省略書式」は、隣り合う文字と文 字の区切り記号としてハイフン(-)等を挿入す る。理由はコード列が1桁から4桁まで一定の さを持たず変化するため、1文字分のコード を識別できないからである。
   例えば1234は、区切り記号を挿入すれば12 34(1文字のコード)か12-34(2文字列のコード列) が識別できる。

「日常語非省略書式」は隣り合う文字と文 字の区切り記号のハイフン(-)等を挿入しても よいし、しなくてもよい。理由は4桁ずつコ ド列が一定に連続しているので識別しやす からである。

  「日常語省略書式」は隣り合う文字と 字の区切り記号としてハイフン(-)等を挿入 る。理由はコード列が1桁から4桁まで一定の 長さを持たず変化するため、1文字分のコー を識別できないからである。

例えば、上下左右(UDLR)は、区切り記号を挿 入すれば(1文字のコード)上下左右(UDLR)か上下 -左右(UD-LR)(2文字列のコード列)かが識別でき 。

「16進数圧縮書式」は区切り記号は不要だ 文字コードの先頭と末尾に#等の記号を挿入 する。その理由は16進数のコード書式は、数 の0から9までとアルファベットのAからF(数 15に相当)までを使い、数字と一部のアルフ ベットが混在するため、その他の文字コー 書式や単なる数字とアルファベット文字列 連続と混同しないよう識別するために#記号 を文字コード先頭と末尾に挿入するのであ 。明示的に入力や表示をする場合は全角で っても半角であってもよい。

例えば、「大」の16進数圧縮書式は「0」( ロ)だが、10進数省略書式の「0」と識別する 合は16進数圧縮書式は「#0#」と明示的に表 する。

本発明の実施形態では「日常語書式」と「 16進数圧縮書式」の「D」が重複するが、後者 は「#」で明示的に識別可能であり、仮に「# 記号が脱落しても前者の「D」は単独で用い られることはないことから識別できる。また 、「D」以外はアルファベットを用いる書式 で重複することはない。これらの特長を利 してソフトウエアの処理系に誤処理防止の 合ルーチンを付加してもよい。

16進数圧縮書式はできるだけ少ない文字数 迅速かつ効率的に入力を行うことが主な目 なので文字コードの先頭と末尾に#記号等を 挿入することで続くコード列が16進数1字が1 字に対応することは識別が可能なので区切 記号のハイフン(-)等は不要である。

「連想文字圧縮書式」は数字を使わず全てア ルファベット等で表示するため(0はZ)、区切 記号は不要である。仮に16進数圧縮書式と同 じアルファベットで表示でも#記号で識別が 能である。
例えば、「大」の16進数圧縮書式は「#0#」、 想文字圧縮書式は「Z」である。

前記書式を用いることで、漢字知識のない 人でも文字4分割コードのみで漢字を検索す ことが可能となるが、漢字知識のある人や 字学習者にも文字4分割コードは有益である

たとえばパソコンや携帯電話などで日本語 や中国語の漢字変換ソフト(フロントエンド ロセッサー)を利用して漢字を入力する場合 従来よりも扱いやすく効率を高めることが きる。

 図7は中国で採用している「五筆字型」と 呼ばれる漢字入力法に使う専用キーボードで ある。図8は一般的なASCII配列のキーボードだ が、図7の五筆字型キーボードには、Zを除く ルファベットキーごとに、漢字の部首を簡 化した構成要素が割り当てられている。

 この漢字入力法は漢字の発音を使わず、 成要素や書き順といった字形の文字知識を み合わせて使う。図9は、五筆字型で「程」 という漢字を入力する方法を示している。

 「程」は、「禾」→「口」→「王」と書き に従って構成要素を組み合わせてできると う伝統的な漢字知識をキーボードの位置を す31→23→11という数字で置き換える。
 あるいは、前記3つの構成要素が割り当てら れたキーを「T」→「K」→「G」とアルファベ ットで置き換える。

 しかし、五筆字型の入力方法を習得する は、100以上の構成要素や書き順などの漢字 識のほか、どのキーにどの構成要素が割り てられているかという配置などの専用装置 知識や訓練も必要であったため、パソコン 携帯電話などの操作には不向きである。

 これに対し、漢字の発音情報(読み方)を ーマ字やピンインと呼ばれるアルファベッ で入力し漢字変換するフロントエンドプロ ッサーがパソコンや携帯電話などの操作に 広く普及している。

しかし、中国語や日本語の漢字の発音には 「同音語」と呼ばれる同じ発音を持つ漢字が 多数存在するため、漢字変換の際に場合によ っては列挙表示される同音語漢字変換候補の 中から目的の漢字を選択するのにスペースバ ーなどを何回もたたいてしらみつぶしに探し てゆくという煩雑な操作が必要であった。

たとえば図10に示す中国語の同音漢字は膨大 数になり、次々にスペースバーをたたいて 換候補の中から目的とする文字を探さねば らなかった。
 図10の1は『現代漢語詞典』という単語辞典 掲載された「YI」という発音の単漢字リス であり、全部で109字ある。
 図10の2は『新華字典』という漢字字典に掲 された「SHI」という発音の単漢字リストで り、全部で67字ある。
 図10の3は日本のJISに相当する中国の国家標 (GB)コードに含まれる「LI」という発音の単 字リストであり、全部で75字ある。
 仮にフロントエンドプロセッサーが1回に表 示する同音漢字変換候補数を10字とすれば、 とえば「YI」の変換操作にスペースバーを 大で11回近くたたいて探す必要があり不便で あった。

こうした問題を解決するため、本発明は、 文字4分割コードという漢字知識を必要とし い字形情報と従来の発音情報を組み合わせ ことで漢字変換効率を向上させることを実 した。

図11は、図10の「YI」、「SHI」、「LI」とい 同音漢字グループ3つに対し、4分割コード 組み合わせて細分類した字数と比率を示す とグラフである。

たとえば、「YI」という発音グループの「 」は「1100」と4分割コードで表せ、「SHI」 いう発音グループの「使」も「1100」、「LI という発音グループの「礼」も「1100」と4分 割コードで表せる。

 その結果、「YI」、「SHI」、「LI」の「110 0」グループは27字、21字、26字がそれぞれ所 し、同音語グループ全体の25%、31%、35%とそ ぞれ三分の一から四分の一程度にまで減ら ことができた。

 そこで、4分割コードは12種類あるので、 純に計算するとそれぞれの4分割コードは平 均すると約8パーセントずつ同音語を分散さ ることが理論的には可能となるので、これ 同音語の分散率とよぶことにする。

そして、図11のグラフを見ると、「1100」以 外の4分割コードはほとんど10%以下の同音語 散率であり、漢字変換の際にスペースバー たたく回数は1回から3回ですむことがわかる 。

このように、4分割コードと発音を組み合 せると漢字変換は大きな至便性が得られる

しかし、図11の「1100」グループはほかのコ ードグループよりも同音漢字数が相対的に字 数が多い。そこで、図12には、4桁の分割コー ドを5桁に拡張した場合の「1100」グループの 数と分散率を抽出した。

5桁に分割コードを拡張する規則は単純で たとえば「例」という漢字は縦方向に2箇所 割可能な箇所があるので、こういう漢字は1 箇所を分割しても、さらに「再分割」が可能 な漢字とみなす。この考えに基づき、再分割 可能な漢字は分割コードの5桁目に「1」を、 分割不可能な漢字は分割コードの5桁目に「 0」を加えることとする。

その結果、図12では1100という4桁の分割コ ドを5桁に拡張することにより、分散率を10% まで改善できた。

 この結果を図11の分散率と比べると、必 しも全ての漢字を5桁の分割コードで分類す 必要はなく、1100などの一部のコードのみに 用いればよいということも物語っている。

図13は、1100という4桁の分割コードを6桁にま 拡張した場合の分散率を示す。
従来の画数という字形情報はかなり厳密な適 用を前提としていたので外国人や初学者には 習得が難しかった。そこで、本発明は、前記 5桁の分割コードに続く6桁目に、漢字を一見 て「複雑そうか?」「シンプルか?」という 感的な印象で分類できる程度の字画情報を 入した。

具体的には、図13の表の左端の列は、9画以 上と7画以下で複雑かシンプルかという定量 基準にし、9画以上を110011、7画以下を110010と いった具合に分類した。8画はどちらのグル プにも重複して漢字を所属させ、冗長性を たせてある。

図13の表の左から2番目の列は、重複分の8 の字数を振り分け、8画以上と8画以下という ふうに重複分を2分して集計したことを表し 表の中央から右の列にそれぞれの結果を示 た。たとえば「YI」の110011(8画以上)は、6+2=8 と集計した結果である。

この6桁拡張分割コードを利用することで 図13の下段グラフを見ると、ほとんどのグル ープが8%以下の分散率を達成したことがわか 。

このように、4分割コードを漢字の発音情 と組み合わせて利用することで、従来の漢 変換の課題を解決することができた。

 本実施形態の、文字4分割コード検索法は 単漢字の絞込みも効果的に行えるが、特に単 語(2つ以上の漢字の組み合わせ)の絞込みに応 用した場合にも実用レベルである。

 さらに前記5桁コードの組み合わせなら、24 類×24分類=576通りの組み合わせ、すなわち 語分類が可能となる。
 たとえばHSKと呼ばれる外国人向けの中国語 定試験に含まれる常用語彙6892単語を576通り の分類で割れば、約12単語であるから、1分類 で約12単語が平均の包含数となる。この程度 数であれば、例えば常用中国語で読み方の からない単語を検索する際に、5桁コードを 2回(2文字分)入力するだけで、検索候補数が12 単語前後となり、ワープロの漢字変換候補数 1回分と殆どかわらないという結果が得られ 実用に耐えるのである。

次に漢字変換という一種の入力時の漢字検索 ソフトを利用する際の、入力用書式について 説明する。フロントエンドプロセッサー等で 文字4分割コードのみを入力し漢字等に変換 る場合、漢字に変換する必要のない単なる 字列と識別する目的で例えば全角の@(アット )などの記号を文字4分割コードの先頭と末尾 挿入する。
発音と文字4分割コードの組み合わせ書式も 様に、例えば発音と4分割コードを全角イコ ル(=)記号などを挿入して組み合わせ情報で ることを明示し、かつ、全角の@(アット)な の記号を組み合わせ情報の先頭と末尾に挿 する。

たとえば、「昭和」という文字列を変換し て検索するために、予め図4の4分割コードに 当するレコードの先頭に、発音と文字コー を組み合わせた@しょうわ=1204-1200@などの書 を昭和という文字列とともに、フロントエ ドプロセッサーのユーザー登録辞書などに め登録しておき、変換の際は、@しょうわ=12 04-1200@とキーボードから入力後、スペースバ などをたたくことで「昭和」という文字列 呼び出して変換することができる。

通常は電子メールアドレスに使う@記号は 角なので、全角@などの記号は用いられるこ が少ない。こうした記号類を文字コードに かわる範囲指定に明示的に付加することで ロントエンドプロセッサーの誤変換を防止 る。

フロントエンドプロセッサーのユーザー辞書 登録の方法は、1単語ごとに言語バーと呼ば る操作ツールを用いて登録してもよいし、 めテキストファイルにたとえば、以下のよ な「読み」(タブ挿入)「語句」(タブ挿入)「 詞」(タブ挿入)「ユーザーコメント」の順 で登録用のリストを作成しておき、まとめ 登録してもよい。
@しょうわ=1204-1200@    昭和   名詞   リ ク

フロントエンドプロセッサーによっては、 ユーザーコメント欄に解説用の文字列を入力 表示できるだけでなく、リンクを設定するこ とで例えば別のホームページで多言語情報や 動画等の非言語情報を表示できるものもある ので、表示された語句の意味を理解する助け にもなる。

@は漢字変換以外にも4分割文字コードに関 る表記であることを明示する目的で用いて よいし、半角で使うことも許容する。

16進数圧縮書式は@等と異なる#等の記号を うことにより、例えばアルファベットの「D が日常語書式でなく16進数圧縮書式である とを区別することができる。

従来の発音入力のみの漢字変換では、たとえ ば「きしゃ」という入力の同音語候補が多数 表示された場合、文脈によって誤変換を修正 したりする必要があった。
たとえば、「きしゃのきしゃはいいとおもう 。」と入力した場合、いくつかの変換の可能 性がある。以下に示す4つの例はいずれも文 的な誤りがない変換候補だが、ほとんどの ロントエンドプロセッサーはどれか1つの変 しかできない。
貴社の記者はいいと思う。
汽車の記者はいいと思う。
記者の喜捨はいいと思う。
貴社の汽車はいいと思う。

ところが、予め「きしゃ」という同音語を本 発明の書式でユーザー辞書に登録しておけば 、以下のような入力をすることで希望する漢 字の一発変換が可能となる。
 @0034-1200=きしゃ@の@1230-0000=きしゃ@はいいと もう。
 @1234-0000=きしゃ@の@1230-0000=きしゃ@はいいと もう。
 @1230-0000=きしゃ@の@0034-1204=きしゃ@はいいと もう。
 @0034-1200=きしゃ@の@1234-0000=きしゃ@はいいと もう。

一発変換できる理由は、発音は同じでも、文 字4分割コードがそれぞれ異なるからである
なお、分割コードと発音の順番は逆でもかま わない。

文字コードの詳細書式を説明する。
  分野別書式を用いると、さらに精密な漢 検索が可能となる。
  たとえば、小規模な専門用語辞書などに 定して検索を行う場合、先頭の@に続けて例 ば「かな」で専門用語辞書名を入力し、続 てコロン(:)等を入力して検索範囲を限定す 。

例えば、苗字専門用語辞書(「みょうじ」と 称)内から「堅田」を入力する場合、
@みょうじ:かただ=1034-0000@と予め図4の4分割コ ード欄に登録し、文字欄に堅田と同じ行に登 録し、ユーザー辞書登録しておけば、苗字専 門用語辞書(「みょうじ」と略称)内からのみ 索変換されるので、専門辞書に登録してい い次のような同音語は変換候補として表示 れないので精度が向上する。
@かただ=1034-1204@   
型だ

 引用書式が変換効率を向上させる場合が る。たとえば、かなを分割コードで表すと1 種類のコードに複数のかなが分類されるので 、特定のかな1文字にしぼって検索するのに 間がかかる場合がある。アルファベットや 字も同様である。

この場合は、文字コードではなく、かな、 アルファベット、数字、記号などの常用的で 単純な文字自体を直接文字コードと混在させ て入力する場合、文字自体の前後に引用符号 であるダブルクォーテーション(””)等を付 することにより、文字コードと区別する。

例えば「昭和38年」の「38」を引用書式で表 と以下のようになる。
@しょうわ”38”ねん=1204-1200-”38”-0000@
  なお、発音部の引用符号は省略してもよ 。

この場合、引用部分が変数の場合があるの で、プログラムで引用部分を除く部分一致が できるようにしておくとよい。

部品書式が学習途中の人に有益な場合もある 。
  検索したい漢字の発音は知らないが、そ 漢字を構成する部品要素の発音(音や訓)を知 っている場合、部品要素の発音をセミコロン (;)等を挿入して列記し、文字コードと組み合 わせることができる。ただし、部品の読みの 先頭と末尾にもセミコロン(;)等を付加する。

例えば、「魏(発音は「ギ」)」の部品書式を のように表す。
@;い;おに;き;=1230@

「魏」は「委」と「鬼」という2つの部品 ら構成されるので、「委」の発音「い」(音 み)と「鬼」の発音「おに」(訓読み)、「き (音読み)を列挙したのであるが、部品の一 でもよいので予め辞書登録しておけば、学 者などには難しい漢字を検索する助けとな 。

文字コードの簡易書式を説明する。
  1バイト系の処理機能しかない情報機器等 フォルダ名やファイル名に4分割文字コード を利用する場合、文字コードの簡易書式を用 いる。CD-Rにデータファイルを保存する場合 ISO-9660規格を基準にするとファイル名は半角 大文字アルファベット8字以内、拡張子は3文 以内で記号はアンダースコア( _ )が利用で きるため、ファイル名の末尾にアンダースコ ア( _ )に続き次の略称を付ける。アンダー コアとアルファベット略称を合わせて「識 子」と呼ぶ。

以下が簡易書式の例である。
2進数書式_B(Binary Numberの略称)
10進数書式_D(Decimal Numberの略称)
日常語書式_C(a Commonly used Wordの略称)
16進数書式_H(Hexadecimal Numberの略称)
連想書式_A(Association of Ideaの略称)

例えば、「語」の発音を訓令式ローマ字表記 で「GO」と入力し、続けて「1234」と文字コー ドを入力し、最後に10進数書式の識別子を入 する簡易書式例は以下のようになる。
(全て半角)→GO1234_D.HTM

 簡易書式は携帯型音楽再生プレーヤーな でファイルやフォルダ名称を統一的に検索 やすくする場合などにも有益である。

文字4分割コードの入力表示用に使用する 字等の種類と特長を一般的な装置との関係 説明する。

数字のみの書式は最も実用範囲が広い。
「2進数(ビット)書式」は0と1のみを使うため 例えば携帯電話の数字ボタンやパソコン数 キーやマウス左右ボタン、ゲーム機コント ーラの左右ボタン、入力機能を備えたテレ リモコンなどほとんどの既存装置類の必要 小限の入力手段で入力や表示が可能である

「10進数書式」は0から4までの5種類の数字 使うため、例えば携帯電話の数字ボタンや ソコン数字キー、入力機能を備えたテレビ モコンなど一般的な既存の情報機器類等で 力や表示が可能である。

アルファベット、数字、ハイフン(-)、@、# ダブルクォーテーション(”)、コロン(:)、 ミコロン(;)アンダースコア( _ )などは通常 パソコンや携帯電話の文字入力手段として 用されている。

前記のごとく全ての文字コード書式に必要 な文字が上記数種類に限定されているので、 例えば(通話専用電話機を除く)携帯電話の数 ボタンやパソコン数字キー、入力機能を備 たテレビリモコンなど一般的な既存の情報 器類等で入力や表示が可能である。

「日常語書式」の場合は、「上下左右」の ように入力には変換の手間がかかったり、装 置によっては制約があるが、伝達の際に日常 語彙なので4分割文字コードの知識がない人 も理解しやすい。アイコンなどでボタンス ッチを日常語書式で表示すれば、老齢者な の機器の操作に不慣れな人にも操作がしや い長所もある。

アイコン(図形)で前記表示を代用できれば 幅広い利用が可能である。12通りから最多 16通りの4分割文字コードのアイコン等を例 ばパソコンや券売機などの入力装置の画面 に表示し、マウスポインターやタッチパネ 用のペンや指等で選択するだけで、一般的 既存の装置類等で入力や表示が可能である この手段の長所は文字コードの書式を学習 なくても、その場で直観的に利用者が入力 表示が可能なことである。

 図2のS400で示した書式変換方法を説明す 。この処理はホームページのHTML形式でJAVA( 録商標)SCRIPTなどの簡易スクリプトにより処 してもよいし、ワープロソフトの置換機能 用いて、利用者が簡単な書式変換を行って よい。

「2進数(ビット)書式」ハイフン(-)なしの場 合は、入力書式が図1の記憶手段のデータと 一形式なのでそのまま照合する。

「2進数(ビット)書式」ハイフン(-)挿入の場 合は、ハイフンを照合前に削除処理してから 内部データと照合する。

「10進数非省略書式」ハイフン(-)なしの場合 、「1234」の順番で基準となる4桁の数字列 ンプレートを予めメモリに記憶しておき、 れと入力文字コードを4桁ずつ先頭から照合 、一致する数字を昇順に並び替えるが、入 文字コードに0が含まれている場合には照合 一致しないので、一致しない数字を0に置き える。この処理を4桁ずつ繰り返す。
  例えば、@41201043@→12041034のように処理す 。

「10進数非省略書式」ハイフン(-)挿入の場 は、ハイフンを照合前に削除処理してから 記の処理を行う。

「10進数省略書式」ハイフン(-)挿入の場合は 「1234」の順番で基準となる4桁の数字列テ プレートを予めメモリに記憶しておき、こ とハイフンで区切られた入力文字コード列 照合し、一致する数字を昇順に並び替える 、入力文字コード列中に省略されて4桁の文 列テンプレートに一致しない数字がある場 には0を挿入して補う。その後ハイフンを削 除する。この処理をハイフンで区切られた入 力文字コード列ごとに繰り返す。
例えば、@412-143@→124-134→12041034のように処理 する。

「16進数圧縮書式」の場合は、入力された文 コード列を16進数と2進数の対応表に照合し 変換するか、処理装置組み込みの関数で変 する。
  例えば、(16進数)DB→(2進数)11011011のように 処理する。

「連想文字圧縮書式」の場合は、入力され た文字コード列を連想文字コードと2進数の 応表に照合して変換する。例えば、(連想文 コード)KW→(2進数)11011011のように処理する

文字データベースを表す図4のコード欄に 詞などの文法情報と語意分類などの意味情 をコード化して記憶することにより、同一 コードに同一のコードで記憶されている文 を、文法と意味の組み合わせ情報からも検 できる。

たとえば前記6桁の分割コードに続けて7桁 に文法情報、8桁目に意味情報のコードを付 加することとする。

文法情報とは、名詞、動詞、形容詞といった 品詞情報などを指す。
次に説明する実施形態では、名詞とそれ以外 の品詞という情報を文法情報とするが、これ に限定されず、たとえば主語と述語という構 文情報を文法情報として使ってもよい。

上記のように名詞とそれ以外に分類した場 合は、7桁目の文法情報を10進数書式で表し、 名詞を7、動詞や形容詞などの名詞以外の品 を8、品詞を指定しない場合を0で表すことと する。

 文字データベース図4のたとえば「北」の 6桁目までの字形情報を2進数非省略書式で表 と110000となる。「北」の品詞は名詞なので 7桁目の文法情報を付加したコードは1100007 表せる。

 文字データベース図4のたとえば「打」の 6桁目までの字形情報を2進数非省略書式で表 と110000となる。「打」の品詞は動詞である め、名詞以外の品詞なので、7桁目の文法情 報を付加したコードは1100008と表せる。

意味情報とは、人間に関する語、自然に関す る語といった語意の分類情報などを指す。
次に説明する実施形態では、人間に関するか 人間以外かという情報を意味情報とするが、 そのほかたとえば動物と植物とそれ以外のも ののように分類方法は任意である。

 たとえば、検索文字が人間に関する場合 8桁目に9、人間以外に関する場合は8桁目に0 という情報を10進数書式で付加することによ 、文字データベース図4の「北」は人間以外 の自然に関する語なので11000070、「打」は人 に関する語なので11000089と表せ、検索時に り詳細な識別が可能となる。

 このように、6桁目までの字形情報のみで コードを入力して検索すると前記「北」と「 打」の2つの漢字は同一のコードなので検索 に識別できないが、7桁目の文法情報と8桁目 の意味情報を付加するとコードが異なるので 検索時に識別できる。