永崎, 研宣, 中村, 覚, 田中, 真, 西河, 雅人, 林, 龍樹, 井上, 慶淳, 下田, 正弘
じんもんこん2022論文集 2022 73-78 2022年12月2日 査読有り
『浄土真宗聖典全書』は、Procedural markup を志向した独自タグセットによる構造化テキストデータとして紙媒体で印刷・刊行された。本稿は、そこで用いられたデータを国際標準であるTEI ガイドラインに準拠したDescriptive markup へと変換して利便性の高い全文検索システムを開発した際の、テキストデータ変換における現状と課題について議論する。変換はPython を用いたプログラムを開発することで機械的に行われたが、この種の変換ではある程度までは機械処理での変換が可能であるものの、それを踏まえた上で、記述の対象となる構造の選択はあくまでもシステムを作成する人や組織の側に委ねられていることを確認した。
Jodo Shinshu Seiten Zensho (A Collection of Jodo Shinshu Writings)has been printed and published in paper form as structured text data with an original tag set oriented toward Procedural markup. This paper discusses the current status and issues in converting text data used in the books to descriptive markup that conforms to the TEI guidelines, an international standard, to develop a highly convenient full-text search system. The conversion was done mechanically by developing a program using Python. Although this type of conversion can be done by machine processing to some extent, it was confirmed that, based on this, the choice of the target structure of the description is solely left to the person or organization creating the system.