川原 敬史, 橋口 友哉, 湯本 高行, 大島 裕明
電子情報通信学会論文誌D 情報・システム J105-D(5) 322-336 2022年5月1日 査読有り
本研究では,事故の概要を説明したテキストを入力として,当事者が受けた傷病の程度を推定する手法を提案する.入力の対象とするテキストは,数文程度の文書を想定している.機械学習による分類問題を解くことで,その入力に該当する傷病の程度を推定するというのが提案手法の構成となる.本研究で利用するデータは,事故情報データバンクシステムで公開されている事故データである.入力として用いるのは「事故の概要」項目に記載されたテキストである.提案手法では,入力テキストを汎用言語モデルBERTを利用して分散表現として表現する.BERTのモデルとしては,日本語Wikipediaを用いて学習された事前学習モデルを用いる.しかし,傷病の程度を推定するというタスクの正解率を向上させるために,四つの工夫,(1)クラスウェイト,(2)Ordinal Classification,(3)マルチタスクラーニング,(4)トークンラベル推定による追加学習モデル,を導入する.これらの工夫を用いる場合と用いない場合において,傷病の程度の推定の正解率やMacro F1,RMSE,混同行列による評価にどのような影響が出るかを検証した.その結果,(1)クラスウェイト,並びに,(2)Ordinal Classificationを導入した際に,Macro F1の向上とRMSEの改善が得られるという結果となった.また,(3)マルチタスクラーニングを導入した際に正解率の向上が見られた.