小木曽 智信, 近藤 明日子, 髙橋 雄太, 間淵 洋子, Toshinobu Ogiso, Asuko Kondo, Yuta Takahashi, Yoko Mabuchi
情報処理学会論文誌 65(2) 278-291 2024年2月15日
日本語の歴史的変化を研究するための基礎資料として昭和・平成期の雑誌・ベストセラー書籍・新聞を収録した『昭和・平成書き言葉コーパス』を構築しオンラインで公開した.このコーパスは1933年から2013年までの間,8年おきに11カ年分,合計約3,340万語を収録した大規模なもので,明治・大正期までの『日本語歴史コーパス』の後を承け,現代に至るまでの日本語の成り立ちを探ることのできる資料として,日本語研究に重要な役割を果たすことが期待される.本稿はこのコーパスの設計と構築方法,公開形態について論じ,さらにこのコーパスを応用した研究例の一端を示す.
The “Showa-Heisei Corpus of Written Japanese,” which contains magazines, best-selling books, and newspapers from the Showa and Heisei eras, has been constructed and made available online as a basic resource for research on the historical changes in the Japanese language. This is a large-scale corpus that contains a total of approximately 33.4 million words for 11 years, every 8 years from 1933 to 2013, and is expected to play an important role in Japanese language research as a resource for exploring the origins of the Japanese language up to the present day, succeeding the “Corpus of Historical Japanese” that contains materials up to the Meiji and Taisho eras. This paper discusses the design and construction of this corpus, the form in which it is published, and provides some examples of research that has applied this corpus.