藤本 灯, 北﨑 勇帆, 市村 太郎, 岡部 嘉幸, 小木曽 智信, 高田 智和, Akari FUJIMOTO, Yuho KITAZAKI, Taro ICHIMURA, Yoshiyuki OKABE, Toshinobu OGISO, Tomokazu TAKADA
国立国語研究所論集 (12) 1-12 2017年1月
国立国語研究所 研究系 言語変化研究領域東京大学大学院人文社会系研究科 博士課程常葉大学千葉大学国立国語研究所 研究系 言語変化研究領域国立国語研究所 研究系 言語変化研究領域現在,『日本語歴史コーパス』「江戸時代編」の一環として「人情本コーパス」を構築中である。2015年10月には『比翼連理花廼志満台』を対象とした「人情本コーパス」の試行版(全文検索システム『ひまわり』版)を公開した。人情本のコーパス化は,(1)原本表記に忠実な翻字テキストの作成,(2)(1)に最小限の校訂を加えた『ひまわり』版XMLテキストの作成の段階である。XMLテキストの作成では,基本的に「洒落本コーパス」のタグセットに準拠し,合字や校訂にかかわるタグを追加した人情本用タグセットを用意した。また,『花廼志満台』初編上巻の形態素解析を行った結果,解析精度は約87%であった。人情本に特徴的なイレギュラーな訓の多さが,精度の低さと関係している。今後,形態論情報付きコーパスを構築するにあたっての課題は,イレギュラーな訓を含む漢字に振られた「ルビ」を,どのように扱っていくかである。