研究者業績

相良 かおる

サガラ カオル  (Kaoru Sagara)

基本情報

所属
兵庫県立大学 大学院 社会科学研究科 客員研究員
奈良先端科学技術大学院大学 先端科学技術研究科 客員准教授
学位
博士(奈良先端科学技術大学院大学)
修士(奈良先端科学技術大学院大学)

J-GLOBAL ID
200901065852183805
researchmap会員ID
1000315225

外部リンク

 2008年から『実践医療用語辞書ComeJisyo』を作り始め、これまでに約11万語を収録し、医療記録の処理を支える基盤として使われてきました。2018年からは、合成語の分析を通して、医療現場で使われる言葉の特徴をより深く調べています。

 2023年4月に、四半世紀近く勤めた教育の仕事を離れ、約30年ぶりに育った町に戻ってきました。2026年度からは、私のこれまでの歩みと関心をすべて集約した学際的な研究テーマに取り組みます。このテーマは、恩師への、そして社会や地域への恩返しでもあります。

 具体的には、電子カルテの普及率がまだ60%に届いていない全国の中小規模病院への郵送悉皆調査を通じて、電子カルテの現状や用語によるコミュニケーションエラーの実態を明らかにします。さらに、ローカルな医療用語や慣習的な表現を集め語彙データベースを構築・公開します。

 そして、できれば病院内での閉じたローカルLLM環境を試作・公開することを目指します。


論文

 32
  • 相良, かおる
    言語資源ワークショップ発表論文集 1 207-224 2024年11月13日  筆頭著者
  • 東条 佳奈, 黒田 航, 相良 かおる, 高崎 智子, 西嶋 佑太郎, 麻 子軒, 山崎 誠
    言語資源ワークショップ発表論文集 = Proceedings of Language Resources Workshop 1 109-116 2023年  
    Osaka University Kyorin University Seinan Jo Gakuin University Seinan Jo Gakuin University, Physician Physician Kansai University National Institute for Japanese Language and Linguistics 会議名: 言語資源ワークショップ2022, 開催地: オンライン, 会期: 2022年8月30日-31日, 主催: 国立国語研究所 言語資源開発センター 医療記録データには、複数の単語が連結された合成語が多く存在する。そのため、自然言語処理を効率的に行うためには、合成語の語構成や、それらの構成要素の意味に着目し、合成語の構造を明らかにする必要がある。しかし、医療記録は非公開という資料的特質のため、言語学的な調査があまり行われてこなかった。また、医療関係者における意味のある言語単位も定まっておらず、整理の必要があった。こうした背景に基づいて作成した言語資源が『実践医療用語_語構成要素語彙試案表 Ver.2.0』である。本試案表は、『実践医療用語辞書ComeJisyoSjis-1』より抽出した合成語より作成した『実践医療用語_語構成要素語彙試案表Ver.1.0』を更新したもので、7,087語の合成語について、それぞれを構成する語構成要素6,633種と、語構成要素に付与した意味ラベル41種を収録している。本発表では、Ver1.0からの変更点と、本言語資源の特徴、意味ラベルに注目した語構成要素について概観を行った。 source:https://clrd.ninjal.ac.jp/lrw2022.html identifier:大阪大学 identifier:杏林大学 identifier:西南女学院大学 identifier:西南女学院大学 identifier:医師 identifier:関西大学 identifier:国立国語研究所
  • 相良 かおる, 黒田 航, 東条 佳奈, 西嶋 佑太郎, 麻 子軒, 山崎 誠
    言語資源ワークショップ発表論文集 1 309-318 2023年  
    我々は、医療用語の合成語の語構造および語構成要素とその意味を明らかにすることを目的に、合成語7,087語を分析し『実践医療用語_語構成要素語彙試案表 Ver.2』を作成した。この作成の過程で、(1)医療用語の選定方法、(2)分割単位の曖昧性、(3)語構造の記述方法、(4)意味ラベルの命名と付与方法に課題がみつかった。そこでこれらの課題を検討し、改良版の試案表Ver.3の作成に着手している。本発表では、改訂版Ver.3の公開にむけて、これらの問題点と当面の方針について述べる。
  • 相良 かおる, 高崎 智子, 東条 佳奈, 西嶋 佑太郎, 山崎 誠
    言語資源ワークショップ発表論文集 = Proceedings of Language Resources Workshop 1 43-51 2023年  
    Seinan Jo Gakuin University Seinan Jo Gakuin University, Physician Osaka University Physician National Institute for Japanese Language and Linguistics 会議名: 言語資源ワークショップ2022, 開催地: オンライン, 会期: 2022年8月30日-31日, 主催: 国立国語研究所 言語資源開発センター 「急性骨髄性白血病」のように「~性」が複数含まれ、かつ「急性」を含む病名において、「急性」の緊急度と語順の関係を調べるために、『現代日本語書き言葉均衡コーパス』(BCCWJ)に出現した当該の病名28語について、BCCWJ、医師経過記録、多職種共有の経過記録での出現頻度を求めた。その結果、①「急性」は語頭に多く出現すること、②医療現場では使われない病名があること、③医療現場では「急性」無しの病名が多く使われていること、④「急性」とその他の「~性」の語順を変えた同義語が存在することが分かった。 source:https://clrd.ninjal.ac.jp/lrw2022.html identifier:西南女学院大学 identifier:西南女学院大学/医師 identifier:大阪大学 identifier:医師 identifier:国立国語研究所
  • 東条, 佳奈, 相良, かおる, 西嶋, 佑太郎, 麻, 子軒, 山崎, 誠
    じんもんこん2021論文集 2021(1) 194-199 2021年12月4日  
    本発表は,医療記録データにおける数量表現の適切な抽出のために,医学分野の用語集・辞典と医師国家試験問題文より抽出した「第」を冠する序数詞について「数詞の表記のゆれ」と「名義尺度と順序尺度のどちらにあたるのか」の2 点に注目して分析を行ったものである.調査の結果,立項される序数詞においては,同じ見出し語であっても数詞の表記法にゆれがあること,算用数字は順序尺度が多く名義尺度が少ないこと,ローマ数字は名義尺度が多いことなどを示した.ただし,序数詞の特性上,尺度の判別に迷うものも多かった.今後,表記のゆれを所与とし,医療記録データから数量表現を的確に抽出するためには,序数詞だけではなく,数詞と助数詞,および隣接する名詞との関係を明らかにする必要がある. In this study, for appropriate extraction of quantitative expressions from medical record data, we analyzed ordinal numerals including the Japanese character “第 (dai)” extracted from glossaries and dictionaries used in the medical field and the National Medical Examination for Doctors, focusing on two points: fluctuations in the notation of numerals and whether the numerals correspond to nominal or ordinal scales. The results of the survey showed that (1) there are variations in the notation of numerals in ordinal numerals, even for the same headword; (2) arithmetic numerals are most often on ordinal scales but sometimes on nominal scales; and (3) Roman numerals are most often on nominal scales. However, due to the characteristics of ordinal numerals, there were many cases where it was difficult to determine the type of scale. In the future, it will be necessary to clarify the relationships between the scale and not only ordinal numerals but also numerals, particles, and adjacent nouns to accurately extract quantitative expressions from medical record data, given the variation in notation.
  • 相良 かおる, 小野 正子, 高崎 智子, 東条 佳奈, 麻子 軒, 山崎 誠
    じんもんこん2020論文集 2020(2020) 289-296 2020年12月5日  査読有り筆頭著者
    医療記録には,合成語となる多くの専門用語が含まれるが,その語構成は明らかになってはいない.本研究では医療記録文に含まれる合成語7,194語を対象に,語構成解析と意味解析を実施した.その結果,医療の観点から意味的にも統語的にも妥当な語構成要素5,787要素を抽出し,これらを意味的に分類するために93種類の意味ラベルを設定し,すべての語構成要素に意味ラベルを付与した.また,合成語における語構成要素の出現位置を調べたところ,語頭にくる語構成要素で最も出現頻度が高いものは「先天性」であり,語末では「損傷」であった.意味ラベルの頻度を調べた結果,語頭では「身体部位」の,語末では「病名」の出現頻度が最も高かった. Medical records contain many synthetic terms, but their word structure is unknown. In the present study, we analyzed the word construction and meaning of 7,194 compound words included in medical records. From the results, we identified 5,787 word construction elements that were valid both semantically and syntactically from a medical standpoint, established 93 different semantic labels to classify the elements semantically, and applied these semantic labels to all word construction elements. An investigation of the position of the word construction elements in compound words revealed that elements that came at the beginning of words most often were [先天性 “congenital”], whereas the elements that came at the end of words were [損傷 “injury”]. An investigation of the frequency of semantic labels showed that [身体部位 “body part”] appeared most commonly at the beginning of words and [病名 “disease name”] at the end of words.
  • 麻子 軒, 相良 かおる, 高崎 智子, 東条 佳奈, 山崎 誠
    じんもんこん2020論文集 2020(2020) 283-288 2020年12月5日  査読有り
    医療用語は,専門家以外の人にとって難解なものが多い.その理由に,医療用語を作る語構成要素間の統語構造に関する情報がないことが考えられる.本研究は,医療用語のうち,特に頻度が高い「-性」を含む病名を対象に,それぞれの語構成要素に付与された意味ラベルを利用し,統語構造に関する情報を機械的に加えることによって,病名を分かりやすく言い換えることを試みた.その結果,〈部位〉を表す意味ラベル(例:身体部位)は「での」,〈原因〉を表す意味ラベル(例:病原体)は「による」,〈状態〉を表す意味ラベル(例:経過,症状)は「である」,〈主体〉を表す意味ラベル(例:患者属性)は「に生じた」を当該語構成要素の直後に加えることによって,機械的な言い換えが可能であることが明らかになった. Medical terms are often difficult for non-professionals to understand probably due to a lack of information on the syntactic structure between word-building elements that create medical terms. In this study we attempted to reword disease names for easier comprehension using semantic labels assigned to respective word-building elements, especially disease names, which often include “nature” or “quality” expressions and mechanically adding information on syntactic structure. The results showed that it is possible to mechanically reword medical terms by adding “at/in” for semantic labels that express the “affected part” (example: physical site), “due to” for semantic labels that express “cause,” (example: pathogen), “is” for semantic labels that express “state” (example: course, symptom), and “occurred in” for semantic labels expressing the “subject” (example: patient attributes).
  • 相良 かおる, 山崎 誠, 麻子 軒, 東条 佳奈, 小野 正子, 内山 清子
    じんもんこん2019論文集 2019(2019) 57-64 2019年12月7日  筆頭著者
    個人情報を含む医療記録に含まれる合成語の語構成は明らかになってはいない。一方、電子化された医療記録の自然言語処理を支援するため、医療記録から用語を収集し公開している分ち書き用辞書ComeJisyoの登録語数は111,664 語となり、言語資源としての利用が可能となった。本研究では本辞書の登録語から一般的な語を含む合成語7,194語を選定し、これらの語構成を明らかにする。具体的には、合成語7,194語は意味的に適切な単位(語構成要素という)分割し、得られた語構成要素に意味的ラベルを付与する。その結果、合成語は16,451要素(異なりでは3,230要素)に分割され、101種類の意味ラベルによって分類された。合成語の語構成要素列において語頭に多く出現する意味ラベルは「身体部位(37%)」次いで「状態(32%)」、語末に多く出現する意味ラベルは「疾患(56%)」次いで「症状(9%)」であった。 The word structure of compound words in medical records containing sensitive personal information has not been clarified. On the other hand, Come-JisyoSjis-1 a dictionary for word segmentation of electronic medical records, has 111,664 words collected from medical records and can be used as a language resource. In this study, we select 7,194 compound words including general words from words in Come-JisyoSjis-1 and clarify their word structure. Specifically, 7,194 compound words are divided into 16,451 semantically appropriate word components (the number of word types is 3,230). These 3,230 word components can be classified by 101 kinds of semantic labels. As a result, the followings are found. The semantic label “body part (37%)” is the most frequently used as the first component of compound words, and then “state (32%)”. The semantic label “disease (56%)” and “symptom (9%)” are frequently appeared in the end of compound words.
  • 相良かおる
    人文科学とコンピュータシンポジウム論文集2018 2018 153-160 2018年11月  筆頭著者
    どのような文書も適切に語分割できる汎用的な形態素解析用の辞書は存在しない。本稿では、形態素解析器MeCab 用のシステム辞書である、現代語を対象とした①UniDic、②IPA 辞書、古文の解析用に作成された③近代文語UniDic、④近世口語UniDic、そして、医療記録文書の解析用に作成した実践医療用語辞書ComeJisyo の⑤IPA辞書と併用可能なユーザ辞書と⑥UniDic と併用可能なユーザ辞書、全6 種類の辞書を組み合わせ、江戸中期に書かれた「養生訓」の校訂版テキストデータと抄訳テキストデータを形態素解析した結果について述べる。 No general-purpose dictionary for morphological analysis is currently capable of appropriately dividing words from all types of documents. This paper discusses the results of combining six types of MeCab morphological analysis system dictionaries—namely, 1) UniDic and 2) IPADIC, which are dictionaries for contemporary Japanese; 3) Kindai Bungo UniDic (UniDic-kindai) and 4) Kinsei Kogo UniDic (UniDic-kinsei), which are compiled for analysis of ancient writings; 5) ComeJisyo, a dictionary of practical medical terminology compiled for analysis of medical records, which is a user dictionary compatible with IPADIC; and 6) a user dictionary compatible with UniDic—and performing morphological analysis of text data of a revised edition and an abridged translation of Yojokun, which was written in the mid-Edo period.
  • 相良 かおる, 山崎 誠, 中島 直樹, 山下 貴範, 小野 正子
    じんもんこん2017論文集 2017(2017) 103-110 2017年12月2日  筆頭著者
    本稿の目的は,医療記録に含まれる語彙の季節変動を調べることにある.今回12 ヵ月分の医療記録を対象に各月の医療記録に特徴的に多く出現する名詞を対数尤度比検定により特定し,対象月と参照月で共通する特徴語数を求め季節変動を調べた.その結果,2 月と3 月,4 月と5 月というように連続する2 ヵ月間で共通する特徴語数が多いことが示唆された. The aim of this paper is to examine seasonal variation in vocabulary included in medical records. Nounsappearing characteristically frequently in monthly medical records over a period of 12 months were identifiedthrough a log-likelihood ratio test, numbers of characteristic words common to target months and referencemonths were obtained, and seasonal variations were examined. Results suggested high frequency of numbers ofcharacteristic words common to successive two-month periods, for example, February and March or April andMay.
  • 相良 かおる, 小野 正子, 山崎 誠
    じんもんこん2016論文集 2016(2016) 183-190 2016年12月2日  筆頭著者
    今回,我々は「複合語では,末尾語が品詞および意味を決定する主要部となる」という規則に基づき,日本語シソーラスである『分類語彙表』を利用した実践医療用語の意味的な語彙分類を試みた.その結果,医療記録情報より抽出した用語の1,185語中,1,103語(93.1%)の末尾語が『分類語彙表』の見出し語と一致し,108グループに分類でき,その内81グループ(75%)は意味的に妥当な分類であった. We are now conducting research to build a thesaurus of medical and health-related terms.Then we have classified, the medical and health-related terms extracted from EMR documents (75,000 sentences) using the Japanese thesaurus “Bunruigoihyou” , based on the rule that the meaning of compound word is commonly determined by the last two Kanji characters of the term.As a result, we found that the last two Kanji characters of 1,103 terms (93.1%) out of the 1,185 extracted terms, are listed in headwords in 108 different synonym groups of "Bunruigoihyou", and of which 81(75%) were available as a thesaurus of medical and health-related terms.
  • 山崎誠、相良かおる
    人文科学とコンピュータシンポジウム論文集 2014(3) 221-226 2014年12月  査読有り
  • 相良 かおる
    情報知識学会誌 24(2) 204-209 2014年  
    電子カルテシステムの普及により,テキスト形式の医療情報が蓄積される.我々はこれら医療情報の自然言語処理を支援するために,形態素解析器MeCab用の実践医療用語辞書ComeJisyoを作成し,現在登録語数77,760語のComeJisyoV5-1を公開している.<BR/> また医療施設で蓄積された誤字を含む医療情報を自然言語処理する上で,医療情報にどのような誤字が含まれるのか詳細を知ることは重要である.そこで,倫理的配慮のなされた2施設の医療情報に含まれる誤字の調査を行い,53種の誤字について分析したところ,ローマ字⇒仮名⇒漢字の2 段階の変換作業の中で,仮名⇒漢字の変換作業での誤変換が多く,46種が同音異字または同音異義語に誤変換されたものであることがわかった.
  • 相良 かおる, 小野正子, 小作浩美, 鈴木隆弘, 高崎光浩, 嶋田元
    医療情報学 32(6) 301-307 2012年11月  査読有り招待有り
  • 相良 かおる, 小野 正子, 鈴木 隆弘, 嶋田 元, 小作 浩美
    じんもんこん2010論文集 2010(15) 103-110 2010年12月4日  
  • Abe A, Ohsawa Y, Kuwahara N, Ozaku I.H, Sagara K, Kogure K
    New Mathematics and Natural Computation 6(2) 193-208 2010年7月  査読有り
  • Akinori Abe, Yukio Ohsawa, Hiromi Itoh Ozaku, Kaoru Sagara, Noriaki Kuwahara, Kiyoshi Kogure
    Fundam. Inform. 98(1) 123-142 2010年  査読有り責任著者
  • 黒田裕子, 柏木公一, 小田正枝, 中木高夫, 江川隆子, 山勢博彰, 棚橋泰之, 佐藤栄子, 相良かおる
    看護診断 13(1) 89-99 2008年3月  招待有り
  • Hiromi Itoh Ozaku, Akinori Abe, Kaoru Sagara, Kiyoshi Kogure
    Proceedings of the International Conference on Language Resources and Evaluation(LREC) 2206-2211 2008年  査読有り
  • 柏木公一, 小田正枝, 黒田裕子, 中木高夫, 江川隆子, 山勢博彰, 佐藤栄子, 相良かおる
    看護診断 12(2) 104-105 2007年6月2日  
  • 山勢博彰, 伊東美佐江, 黒田裕子, 岡崎寿美子, 城戸滋里, 中山栄純, 本戸史子, 林みよ子, 脇坂浩, 中木高夫, 柏木公一, 小田正枝, 相良かおる, 棚橋泰之
    看護診断 12(1) 27-34 2007年3月15日  
  • Akinori Abe, Hiromi Itoh Ozaku, Kaoru Sagara, Noriaki Kuwahara, Kiyoshi Kogure
    KES Journal 11(5) 281-289 2007年  査読有り
  • 相良かおる, 黒田裕子, 小田正枝, 岡崎寿美子, 山勢博彰, 城戸滋里, 平尾百合子, 棚橋泰之, 林みよ子, 脇坂浩, 中木高夫
    看護診断 11(1) 18-28-28 2006年3月15日  
  • Hiromi Itoh Ozaku, Akinori Abe, Kaoru Sagara, Noriaki Kuwahara, Kiyoshi Kogure
    Proceedings of the Fifth International Conference on Language Resources and Evaluation(LREC) 2367-2372 2006年  査読有り
  • Ozaku H.I, Abe A, Sagara K, Kuwahara N, Kogure K
    Advances in Natural Language Processing, Research in Computing Science 18 125-136 2006年  査読有り
  • Kaoru Sagara, Akinori Abe, Hiromi Itoh Ozaku, Noriaki Kuwahara, Kiyoshi Kogure
    Consumer-Centered Computer-Suppported Care for Healthy People 122 471-475 2006年  査読有り
  • Hiromi itoh Ozaku, Kaoru Sagara, Noriaki Kuwahara, Akinori Abe, Kiyoshi Kogure
    Consumer-Centered Computer-Suppported Care for Healthy People 122 481-485 2006年  査読有り
  • 相良かおる, 黒田裕子, 林みよ子, 小田正枝, 山勢博彰, 伊東美佐江, 脇坂浩, 平尾百合子, 城戸滋里, 菊地登喜子, 岡崎寿美子, 棚橋泰之, 中木高夫
    看護診断 10(2) 149-150-150 2005年7月2日  
  • Akinori Abe, Futoshi Naya, Hiromi Itoh Ozaku, Kaoru Sagara, Noriaki Kuwahara, Kiyoshi Kogure
    Knowledge-Based Intelligent Information and Engineering Systems 1167-1173 2005年  査読有り
  • Hiromi Itoh Ozaku, Akinori Abe, Noriaki Kuwahara, Futoshi Naya, Kiyoshi Kogure, Kaoru Sagara
    Proceedings of the Sixth International Workshop on Linguistically Interpreted Corpora(LINC@IJCNLP) 2005年  査読有り
  • 相良 かおる, 音成 陽子
    日本教育工学会論文誌 28(2) 99-107 2004年  
    近年,大学生の学力低下,学習意欲の低下が指摘され,1年次を対象に導入教育を実施し,『大学での学び方』を指導する大学も出現している.しかしながら,看護師,保健師,社会福祉士などの国家資格の取得を目指す大学では,必須の専門教育科目が多く,導入教育を行う時間的な余裕はない.そこで,1年次を対象にした必須科目である一般情報処理教育において,レポートの書き方,情報検索などの学び方の指導,著作権やプライバシーの保護,インターネットを安全に利用する方法などの内容を盛り込み,実践を行った.著作権に関する授業,情報検索に関する授業,および,文書作成ソフトを使ったレポート作成の授業の効果を調べるために,本授業を受講した学生と本授業が開講される前の2001年度の入学生を対象に,1年前期終了時7月末提出の看護専門科目におけるレポートについて,文書作成ソフトを利用したレポートの数,参考文献の明記状況,参考文献リストにおけるインターネット検索の有無について,調査を行った.その結果,それぞれについて本授業の受講生の割合が高くなっていた.一方,本授業の受講生の中には,図書検索を行わずにインターネット検索のみでレポートを作成している学生がおり,インターネット検索で得られた情報の信頼性などに関する新たな指導が必要であろうことがわかった.
  • 相良 かおる, 渡邉 勝正
    情報処理学会論文誌 40(12) 4213-4225 1999年12月15日  
    本論文では,英文契約書式集に含まれる名詞間の類似度を求め,機械的に名詞の類概念データを作成する手法について提案する.本手法は,単語の共起頻度に基づく統計的手法の一種であり,内積を用いて類似度を定義している.本研究で取り扱うデータは,技術取引に関する英文契約書という専門領域に特化しており,データ量が162 298語と比較的小さい.また,条文が構文解析を行うには長文でかつ複雑であるという問題がある.これを補うために,Brill Taggerにより品詞タグを付加した後,名詞と動詞,動詞と名詞,形容詞と名詞,前置詞と名詞というように統語構造を意識した2つ組を重複を許して求め,その2つ組間の関連度をベクトルの要素として名詞間の類似度を求めている.本手法により,英文契約書の書式集に含まれる名詞894種からなる209 274組のペアについて類似度を求め,ファジィ類似関係行列を使って99個の同値類を求めた.なお,本研究は,英文契約書の内容抽出のための準備研究である.This paper proposes an approach for similarity measurement between nouns that are used in model forms of English contracts.This approach is a statistics-based computation of word similarity by a vector consisting of co-occurrence statistics.The treated data in the paper is not large enough with 162,298 words, and sentences in the data are long and complex for parsing automatically. Therefore, the current measurements that use the large scale parsed corpus are not appropriate for our work.In addition, because the data is limited in contracts about technologies, the measurements that use a thesaurus (such as Roget's thesaurus) are not appropriate for our work. We allowed to overlap and extract word pairs that are considered syntactic behavior (such as the ordered verb, noun pair) in the tagged data, and calculated correlation degree between the words.With the correlation degrees, we calculated the similarity degree between nouns for 894 nouns in the data and obtained 99 classes that consisted of 283 nouns based on the fuzzy equivalence relation. This work becomes a preparatory work for the information extraction from English contracts.

MISC

 85

書籍等出版物

 2

講演・口頭発表等

 58

担当経験のある科目(授業)

 9

Works(作品等)

 7

共同研究・競争的資金等の研究課題

 5

産業財産権

 5

その他

 1
  • 2003年 - 2003年
    平成14年度厚生労働科学特別研究 次世代育成支援に向けた地方公共団体における行動計画のあり方について 分担研究者