研究者業績

世木 寛之

セギ ヒロユキ  (Hiroyuki SEGI)

基本情報

所属
成蹊大学 理工学部 理工学科 教授
学位
博士(工学)(慶應義塾大学)

J-GLOBAL ID
201501025877783683
researchmap会員ID
B000244685

研究キーワード

 2

論文

 25
  • Ai Mizota, Hiroyuki Segi
    2021 IEEE International Conference on Consumer Electronics (ICCE) 2021年1月10日  査読有り
  • Hiroyuki Segi, Shoei Sato, Kazuo Onoe, Akio Kobayashi, Akio Ando
    Artificial Intelligence: Concepts, Methodologies, Tools, and Applications 3 2021-2037 2016年12月12日  査読有り
    Tied-mixture HMMs have been proposed as the acoustic model for large-vocabulary continuous speech recognition and have yielded promising results. They share base-distribution and provide more flexibility in choosing the degree of tying than state-clustered HMMs. However, it is unclear which acoustic models to superior to the other under the same training data. Moreover, LBG algorithm and EM algorithm, which are the usual training methods for HMMs, have not been compared. Therefore in this paper, the recognition performance of the respective HMMs and the respective training methods are compared under the same condition. It was found that the number of parameters and the word error rate for both HMMs are equivalent when the number of codebooks is sufficiently large. It was also found that training method using the LBG algorithm achieves a 90% reduction in training time compared to training method using the EM algorithm, without degradation of recognition accuracy.
  • Segi Hiroyuki
    INTERNATIONAL JOURNAL OF MULTIMEDIA DATA ENGINEERING & MANAGEMENT 7(2) 53-67 2016年4月  査読有り
  • 世木寛之
    成蹊大学理工学研究報告 52(2) 5-10 2015年12月  
    The 'Kabushiki Shikyo' program broadcast on NHK Radio 2 reports on the daily closing prices and net changes of about 830 stocks listed on the Tokyo Stock Exchange. Reading out the numerical values without making mistakes within the allotted broadcast time can be extremely difficult for the announcers. We have therefore developed an automatic broadcast system for stock-price bulletins, which uses numerical speech synthesis and automatic speech-rate conversion. Our system has been used in experimental digital terrestrial radio broadcasts since October 2006 and also used in NHK radio 2 since March 2010. This article describes the generation of texts to build the speech waveform database, the mechanism used to synthesize numerical speech via the database, and the evaluation of naturalness for the synthesized speech samples.
  • Hiroyuki Segi, Kazuo Onoe, Shoei Sato, Akio Kobayashi, Akio Ando
    Journal of Information Technology Research 7(3) 15-31 2014年7月1日  査読有り
    Tied-mixture HMMs have been proposed as the acoustic model for large-vocabulary continuous speech recognition and have yielded promising results. They share base-distribution and provide more flexibility in choosing the degree of tying than state-clustered HMMs. However, it is unclear which acoustic models to superior to the other under the same training data. Moreover, LBG algorithm and EM algorithm, which are the usual training methods for HMMs, have not been compared. Therefore in this paper, the recognition performance of the respective HMMs and the respective training methods are compared under the same condition. It was found that the number of parameters and the word error rate for both HMMs are equivalent when the number of codebooks is sufficiently large. It was also found that training method using the LBG algorithm achieves a 90% reduction in training time compared to training method using the EM algorithm, without degradation of recognition accuracy.

MISC

 29
  • 世木 寛之, 清山 信正, 田高 礼子
    NHK技研R&D (131) 40-47 2012年1月  
  • 世木 寛之, 田高 礼子, 清山 信正, 都木 徹
    情報処理学会論文誌 50(2) 575-586 2009年2月15日  
    大規模な音声データベースから音声データを選択して接続する波形接続型音声合成が提案されている.この音声合成方式で利用される大規模音声データベースは,音韻バランスなどを考慮して選定された文章を,音声合成に適した話速やスタイルで読み上げることで作成されることが多い.一方,放送局では過去に放送された番組が大量に保存されているため,これらを音声データベースとして利用することが考えられる.本研究では,ニュース番組の収録音声を,波形接続型音声合成システムの音声データベースとして利用することを試みた.高い頻度で音声データベースに存在する音素列を,前後の音素環境を考慮して抽出した"音素環境依存音素列"を探索単位として合成音を作成し,5段階のオピニオン評価実験を行った結果,MOSは4.01となり,「不自然な部分はあるが気にならない」という自然性を持つ合成音が得られた.特に,全体の39.8%が5の「自然である」と評価され,自然音声と変わらない品質の合成音がかなりの頻度で作成されていることが分かった.次に,目標スコアを用いた場合と,用いない場合の合成音とを比較したところ,MOSの差は0.18となり,音声データベースの発話内容と合成する文が類似している場合には,必ずしも韻律予測せず目標スコアを考慮しなくても,自然性の高い合成音を作成できる可能性が示された.Proposals have been made to implement a system that generates synthesized speech by concatenating segments of speech stored in large databases. While these databases are often created by recording sentences with a specific phonetic balance, read at a rate and in a style that are optimal for speech synthesis, this paper explores an alternative method of database creation, one that utilizes broadcast materials archived in networks. In our study, we used samples of recorded speech from news programs to create a speech database. An assessment of speech generated by the speech synthesis method using "context dependent phoneme sequences" as search units yielded the mean opinion score (MOS) of 4.01 in a one-to-five-scale rating. Overall, the samples were considered "somewhat unnatural but not bothersome." In particular, 39.8% of the entire samples scored 5.0, demonstrating their highly natural-sounding quality. In addition, we compared the evaluation on "synthesized speech with target scores" and that on "synthesized speech without target scores." The difference of MOS was 0.18. This result confirmed that prosody prediction or target scores are not necessarily required to create synthesized speech of natural-sounding quality when the content of input sentences is similar to the content of sentences stored in the database.
  • 世木 寛之, 清山 信正, 田高 礼子
    放送技術 61(4) 91-96 2008年4月  
  • 田高 礼子, 世木 寛之, 清山 信正
    聴覚研究会資料 38(2) 159-164 2008年3月20日  

書籍等出版物

 1
  • 八木伸行監修, 世木寛之ほか著 (担当:分担執筆, 範囲:第11章音声合成)
    オーム社 2008年7月

講演・口頭発表等

 47
  • 田辺晴果, 世木寛之
    映像情報メディア学会冬季大会講演予稿集 2021年12月
  • 溝田藍, 世木寛之, 佐野崇
    映像情報メディア学会冬季大会講演予稿集 2019年12月
  • 山田雄斗, 世木寛之, 佐野崇
    映像情報メディア学会冬季大会講演予稿集 2019年12月
  • 加藤悠太, 世木寛之, 酒井浩之
    映像情報メディア学会冬季大会講演予稿集(CD-ROM) 2018年12月6日
  • 世木寛之
    電子情報通信学会サーバーワールド研究会 2016年3月9日  招待有り
  • 世木 寛之, 妹尾 真澄, 小滝 邦宏, 栗原 清, 細谷 宏生, 飯島 慎一, 倉田 淳, 渋谷 朋寛
    映像情報メディア学会冬季大会講演予稿集 2014年12月17日 一般社団法人映像情報メディア学会
  • 世木寛之, 妹尾真澄, 小滝邦宏, 栗原清, 細谷宏生, 飯島慎一, 倉田淳, 渋谷朋寛
    映像情報メディア学会冬季大会講演予稿集(CD-ROM) 2014年11月26日
  • 世木寛之
    日本音響学会研究発表会講演論文集(CD-ROM) 2014年3月3日
  • 清山 信正, 世木 寛之, 今井 篤, 都木 徹
    映像情報メディア学会冬季大会講演予稿集 2013年12月18日
    To develop emotional speech synthesis technology for sound broadcasting services, listening test judging emotion of speech data was conducted. The results show that about 300 data can be available to formulate the rule of controlling emotional characteristics of speech by extracting the data with more than 70% answered correctly.
  • 清山信正, 世木寛之, 今井篤, 都木徹
    映像情報メディア学会冬季大会講演予稿集(CD-ROM) 2013年11月27日
  • 世木寛之
    日本音響学会研究発表会講演論文集(CD-ROM) 2013年3月5日
  • 都木 徹, 今井 篤, 清山 信正, 世木 寛之, 田高 礼子, 田澤 直幸, 岩鼻 幸男
    情報処理学会研究報告. SLP, 音声言語情報処理 2012年10月19日
    放送において音声言語は視聴者に情報を伝達する重要な役割を担っており,音声信号処理を用いて,早口が苦手なお年寄りの聞き取りを支援することや,アナウンサー等の話し手のスキルアップのための訓練装置や語学学習システムなどの技術開発が期待されている.我々は,話速変換や音声変換の研究開発を行い,話速変換技術は,テレビやラジオ受信機の音声聴取補助機能や,インターネットの話速が選べるラジオニュースサービス,スマートフォンの語学学習アプリなどに応用した.また,音声変換の一部として開発したイントネーションやアクセントの分析・変換技術は, PC を用いた語学学習や発声練習を目的に,語学教育番組内や市販の語学学習・発声訓練ソフトウェアとして実用化した.本稿では,それらの技術的特徴と実用化の経緯について述べる.
  • 世木 寛之, 田高 礼子, 清山 信正, 都木 徹, 斎藤 英雄, 小澤 愼治
    映像情報メディア学会冬季大会講演予稿集 2009年11月27日
    We have been conducting research on a high-quality speech synthesis system for automatic audio broadcasting. We propose a method for generating manuscripts for speech database to synthesize definite form sentences.
  • 田高 礼子, 世木 寛之, 清山 信正, 都木 徹
    映像情報メディア学会冬季大会講演予稿集 2008年11月20日
    We are developing a tool that can synthesize concatenate word speech and correct its degradation in order to make it broadcasting quality. In this study, several correction functions in were introduced into this tool. It is available to investigate better correction procedure to generate high quality synthesized speech.
  • 田高 礼子, 世木 寛之, 清山 信正
    聴覚研究会資料 2008年3月20日
  • 田高 礼子, 世木 寛之, 清山 信正, 都木 徹
    電子情報通信学会技術研究報告. SP, 音声 2008年3月13日
    波形接続型音声合成に複数話者の音声データを併用できれば,データベースの不足を補うことができ,有用であると考えられる.その基礎調査として,特定話者の音声中の音素を他話者の音素で代用できるかを調べるため,連続音声中の/CVC/環境の母音または長母音を他話者24名の同音素で置換し,音質の自然性を評価した.その結果,24名中の特定の3名で特に自然性が高く,その他の話者についても,置換箇所の音素時間長が短いか平均F0が低ければ自然性が高い傾向があった.さらに,実験から得られた評価値とスペクトルの関係を検討した結果,評価値と相関のある周波数帯域は主に3つに分かれること,スペクトルの包絡のpeakまたはdipと評価値との関係性が示唆された.
  • 世木 寛之, 田高 礼子, 清山 信正
    音声ドキュメント処理ワークショップ講演論文集 2008年2月29日
  • 世木 寛之, 田高 礼子, 清山 信正, 都木 徹, 有森 英明, 松村 欣司, 清水 俊宏
    映像情報メディア学会冬季大会講演予稿集 2007年11月27日
    We have been conducting research on a high-quality speech synthesis system for automatic audio broadcasting. We propose voice synthesizer to read out a news flash for visually impaired.
  • 松村 欣司, 金次 保明, 世木 寛之, 近藤 悟, 坂井 忠裕, 清水 俊宏
    映像情報メディア学会年次大会講演予稿集 2007年8月1日
    This paper describes our study to implement a service that provides visually impaired people with a read-out presentation of a superimposed news flash text. Data broadcasting is used for automatic start-up of speech that is generated by a speech synthesizer. Four possible solutions are considered and each of them is tested using a trial system.
  • 田高 礼子, 世木 寛之, 清山 信正, 都木 徹
    映像情報メディア学会年次大会講演予稿集 2007年8月1日
    This paper describes a perceptual experiment on naturalness of replacing a phoneme segment to other speaker's one in a speech synthesis and the results of word speech synthesis by the multi speaker database.
  • 清山 信正, 世木 寛之, 田高 礼子, 都木 徹
    映像情報メディア学会冬季大会講演予稿集 2006年11月20日
    A new pause duration setting method for synthesis by compilation of recorded speech is proposed and its effect is confirmed by subjective evaluation test.
  • 世木 寛之, 清山 信正, 田高 礼子, 都木 徹, 戸田 英雄, 小山 隆二
    映像情報メディア学会冬季大会講演予稿集 2006年11月20日
    We have been conducting research on a high-quality speech synthesis system for automatic audio broadcasting. We propose stock prices voice synthesizer with numerical speech synthesis method and speech rate conversion.
  • 田高 礼子, 世木 寛之, 都木 徹
    映像情報メディア学会冬季大会講演予稿集 2005年11月14日
    It is useful to combine multi-speaker's speech database for concatenative speech synthesis system. This paper describes a perceptual study on naturalness and personality by exchanging a phoneme segment to other speaker's one in a word speech synthesis. The experimental result shows some phoneme sequences and speakers are available for the exchangement.
  • 世木 寛之, 都木 徹
    電子情報通信学会技術研究報告. SP, 音声 2003年8月15日
    筆者らはさきに86時間分の大規模な音声データベースを基本とした音声合成システムで利用する探索単位として,単語とクラスタリングされたトライフォンを提案した.しかし,ほとんどの単語は音声データベース内に存在する場合でも,前後の音素環境を満たし,なおかつ十分なデータ数が存在する単語は,評価用オープンデータのテキストに使われる単語の2割程度しかなかった.そこで,本稿では,単語に制限されない音素環境依存音素列を用いることにより,前後の音素環境を満たす音声素片で接続する音声合成手法を提案する.提案法によって得られた合成音声に対して,自然性に関する主観評価実験を行なった結果,1)平均評価が3.6となり,「不自然な部分はあるが気にならない」と「少し気になる」の間の自然性を持つ合成音声が得られること,2)音声データベースが大きくなると自然性も向上するが43時間を越えたところでほぼ飽和すること,3)音声データベースの規模を大きくしても合成処理時間はそれほど増加しないこと,を明らかにした.
  • 世木 寛之, 都木 徹
    聴覚研究会資料 = Proceedings of the auditory research meeting 2003年6月26日
  • 世木 寛之, 都木 徹
    電子情報通信学会技術研究報告. SP, 音声 2003年6月19日
    従来,音声合成システムで利用される大規模音声データベースは,音声合成用に読み上げ文章を選定し,読み上げる速度や,読み方などを指定して,後で合成しやすいように調整して収録することが一般的であった.一方,放送局ではそのような人工的に作られたものではないが,過去に放送された番組が多量に保存されている.そこで,本稿では,多量のニュース番組の音声を音声データベースとして利用する場合において,その膨大な音声データベースの効率的な探索を行うため,単語とクラスタリングされたトライフオンによる探索を提案する.対比較実験を行った結果, 71%の音声で,提案法が音素を探索単位とした従来法に比べ自然であると評価された.また,自然性に関する5段階の絶対評価実験では,平均で原音声の4.7に対し2.6を示した.
  • 小早川 健, 世木 寛之, 松井 淳, 尾上 和穂, 本間 真一, 佐藤 庄衛, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2002年3月18日
  • 小早川 健, 世木 寛之, 松井 淳, 尾上 和穂, 佐藤 庄衛, 今井 亨, 安藤 彰男
    情報処理学会研究報告. SLP, 音声言語情報処理 2001年12月20日
    本研究では音声認識における新たな動的特徴量の計算法を提案する.提案法では, 1)動的特徴量の推定に用いる静的特徴量の時間分解能を上げ, 2)動的特徴量の推定時間をフレーム間隔の整数倍に拘束されることなく任意に設定可能とした.提案法をニュース番組で発声される音声の認識実験によって評価したところ, 特徴量を推定する時間を適切に選べば, 認識率の改善が見られることが分かった.単語正解精度でみた誤認識改善率は, 雑音を含むニュース文の評価セットで24%と効果が大きかった.全体での誤認識改善率は6.5%であった.
  • 小早川 健, 世木 寛之, 松井 淳, 尾上 和穂, 佐藤 庄衛, 今井 亨, 安藤 彰男
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 2001年12月13日
    本研究では音声認識における新たな動的特徴量の計算法を提案する.提案法では, 1)動的特徴量の推定に用いる静的特徴量の時間分解能を上げ, 2)動的特徴量の推定時間をフレーム間隔の整数倍に拘束されることなく任意に設定可能とした.提案法をニュース番組で発声される音声の認識実験によって評価したところ, 特徴量を推定する時間を適切に選べば, 認識率の改善が見られることが分かった.単語正解精度でみた誤認識改善率は, 雑音を含むニュース文の評価セットで24%と効果が大きかった.全体での誤認識改善率は6.5%であった.
  • 小早川 健, 世木 寛之, 松井 淳, 尾上 和穂, 佐藤 庄衛, 今井 亨, 安藤 彰男
    電子情報通信学会技術研究報告. SP, 音声 2001年12月13日
    )本研究では音声認識における新たな動的特徴量の計算法を提案する.提案法では, 1)動的特徴量の推定に用いる静的特徴量の時間分解能を上げ, 2)動的特徴量の推定時間をフレーム間隔の整数倍に拘束されることなく任意に設定可能とした.提案法をニュース番組で発声される音声の認識実験によって評価したところ, 特徴量を推定する時間を適切に選べば, 認識率の改善が見られることが分かった.単語正解精度でみた誤認識改善率は, 雑音を含むニュース文の評価セットで24%と効果が大きかった.全体での誤認識改善率は6.5%であった.
  • 尾上 和穂, 世木 寛之, 小早川 健, 佐藤 庄衛, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年10月1日
  • 佐藤 庄衛, 世木 寛之, 尾上 和穂, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年10月1日
  • 小早川 健, 世木 寛之, 尾上 和穂, 小林 彰夫, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年10月1日
  • 世木 寛之, 小早川 健, 尾上 和穂, 佐藤 庄衛, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年10月1日
  • 尾上 和穂, 世木 寛之, 小早川 健, 佐藤 庄衛, 今井 亨, 安藤 彰男
    電子情報通信学会技術研究報告. SP, 音声 2001年6月22日
    当研究所ではニュース番組の自動字幕化を目的として、音声認識の研究を行っている。ニュースの音声には、現場からの中継や海外からの報告など、様々な雑音が混入した音声があり、雑音が存在しても良好に音声を認識できる技術が必要となる。本報告では、フィルタバンク上で各帯域ごとに独立に雑音成分を除去するフィルタバンク・サブトラクションを提案する。提案手法は、各帯域ごとに、雑音の推定値として過去の一定区間における出力の最小値を使用し、位相とS/N比を考慮して雑音成分を引き去るものである。人工的に雑音を付加した音声および実際の中継音声を対象とした認識実験で、提案手法は従来手法よりも良好な結果を得た。
  • 尾上 和穂, 世木 寛之, 小早川 健, 佐藤 庄衛, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年3月1日
  • 松井 淳, 世木 寛之, 小林 彰夫, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 2001年3月1日
  • 佐藤 庄衛, 世木 寛之, 尾上 和穂, 今井 亨, 田中 英輝, 安藤 彰男
    日本音響学会研究発表会講演論文集 2000年9月1日
  • 小早川 健, 世木 寛之, 今井 亨, 本間 真一, 田中 英輝, 安藤 彰男
    日本音響学会研究発表会講演論文集 2000年9月1日
  • 世木 寛之, 小早川 健, 尾上 和穂, 佐藤 庄衛, 今井 亨, 田中 英輝, 安藤 彰男
    日本音響学会研究発表会講演論文集 2000年9月1日
  • 佐藤 庄衛, 世木 寛之, 尾上 和穂, 今井 亨, 田中 秀樹, 安藤 彰男
    電子情報通信学会技術研究報告. SP, 音声 2000年6月15日
    ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.
  • 松井 淳, 世木 寛之, 小早川 健, 尾上 和穂, 佐藤 庄衛, 本間 真一, 小林 彰夫, 今井 亨, 田中 英輝, 安藤 彰男
    情報処理学会研究報告. SLP, 音声言語情報処理 2000年6月2日
  • 佐藤 庄衛, 世木 寛之, 尾上 和穂, 今井 亨, 田中 英輝, 安藤 彰男
    日本音響学会研究発表会講演論文集 2000年3月1日
  • 尾上 和穂, 世木 寛之, 佐藤 庄衛, 今井 亨, 田中 英輝, 安藤 彰男
    日本音響学会研究発表会講演論文集 2000年3月1日
  • 尾上 和穂, 世木 寛之, 佐藤 庄衛, 今井 亨, 安藤 彰男
    電子情報通信学会技術研究報告. SP, 音声 1999年10月28日
    ニュース番組などの生放送番組に自動的に字幕を付与することを目的に、大語彙音声認識の研究を行っている。これまで、主にスタジオ内でのアナウンサーによる原稿読み上げ部分を対象に研究を行ってきた。しかし、ニュース番組全体に字幕を付与することを目的にすると様々な音響条件の音声が存在する。例えば、アナウンサー以外の話者も認識対象となる。音響環境的には、中継現場からの背景雑音や、オープニング・エンディングなどの背景音楽の含まれた音声も対象になる。本報告では、ニュース番組全体を認識し音響的な条件がどのように認識精度に影響を与えるか調査し、発話者の違いによって認識率の差が得られたので報告する。
  • 尾上 和穂, 世木 寛之, 佐藤 庄衛, 今井 亨, 安藤 彰男
    日本音響学会研究発表会講演論文集 1999年9月1日
  • 世木 寛之, 尾上 和穂, 佐藤 庄衛, 今井 亮, 安藤 彰男
    日本音響学会研究発表会講演論文集 1999年9月1日

共同研究・競争的資金等の研究課題

 1

産業財産権

 72