[ホームリンク集&各種情報]

WEB支那漢索引データダウンロード


  1. 当サイトのWEB支那漢の索引データ、つまり左フレームの文字データをダウンロードできます。
  2. このファイルの内容および書式・仕様は予告なく随時変更します。ダウンロードした方にも更新情報はお伝えしておりませんので、必要に応じて適宜このページから最新版をダウンロードするようにしてください。
  3. このファイルは著作権を放棄しております。ダウンロード、変改、再頒布、転載などは自由に行ってかまいません。
  4. 逆にこのファイルの内容の正当性について青蛙亭主人は一切の保障をいたしません。運用は自己責任で行ってください。
  5. このファイルはUnicodeで記述されたCSVファイル(カンマ区切りファイル)であり、書式は以下のとおりです。なお、1行目にはフィールド名は記されておらず、いきなりデータが始まります。
    1. 文字……Unicodeに存在しないものは大漢和辞典コードを5桁(5桁に満たないものは頭に0をつけて必ず5桁にしています)で記しています。(1)、(2)などの印がある場合は区切り文字なしにそのまま後につけています。
    2. 参照文字……簡体字や日本新字の元の字、支那漢本文で参照されている字など、青矢印()で表示されるリンクの字です。Unicodeにないものの扱いは上記「文字」同様です。複数ある場合は区切り文字なしに列挙しています。
    3. 支那漢のページ
    4. 参照文字のページ……上記「参照文字」のページです。ページ数は必ず3桁であり、3桁に満たない場合は頭に0をつけています。また前々項の参照文字が複数ある場合は参照文字の順にページを区切りなしに列挙しています。
    5. 部首コード……部首をコードであらわしています。そのコードの意味は下の「部首コード表ダウンロード」で部首コード表ファイルをダウンロードして参照ください。
      部首コード表ファイルはUnicodeのCSVファイルで、書式は「部首コード, 部首文字, 画数, 元部首コード,」です。行末にもカンマがついていることに注意してください。「元部首」というのはたとえば「氵」に対する「水」のようなものです。
    6. 部首内画数
    7. 総画数
    8. 四角号碼……先頭と末尾に区切り文字としての'+'をつけています。コード化の変種がある場合は「+コード1+コード2」のように間に'+'をはさみながら列挙していますが、一番左のものが当サイトで正式と認めているものです。各コードは必ず5桁です。
      ※四角号碼の変種の入力は現在進行中です。 よってこの記述が消えるまでは、変種の入力は完全ではありません。
    9. ピンイン……先頭に区切り文字としての'/'をつけています(末尾にはついていません)。複数の音がある場合は、「/音1/音2/音3」のように間に'/'をはさみながら列挙しています。また新華字典に存在する発音はおしまいに'*'をつけています。
      ※新華字典による校正は現在進行中です。 よってこの記述が消えるまでは、上記'*'印の入力は完全ではありません。
    10. 日本語音訓……音はカタカナ、訓はひらがなであり、前後に区切り文字としての'1'をつけてあります。旧仮名・新仮名の関係は「1ケフ1(1キョウ1)」などのように記しています。
  6. CSVファイルへの関連づけを行う表計算ソフトがインストールされている場合、下のリンクをそのままクリックすると、そのソフトがたちあがってしまう場合がありますので、保存を目的とするのであれば、「右クリック→対象をファイルに保存」でファイルに保存することをお勧めします。



ダウンロード(データ本体) (chinadat.csv 約938KB)
ダウンロード(部首コード) (bushu.csv 約4KB)