医療機器医用材料部門人間情報処理学分野

吃音者向け音読支援システム構築のためのフレームレベル吃音検出手法

　吃音とは，発声・発語関連の末梢器官に解剖的・機能的な問題がないにも関わらず，発話が非流暢になる発話障害であり，国内の吃音者数は人口の約1%前後，およそ120万人程度に上ると推定されている．本研究では，吃音治療の効率化を目的として，シャドーイング訓練を言語聴覚士不在時でも実施可能にする音読支援システムの構築を目指している．本システムの実現には，ユーザの発話から吃音が生じた区間を自動検出する手法が必要であるが，従来は十分に研究されていない．本研究では，音声を数十ミリ秒の時刻フレームごとに分割し，各フレームに対して吃音の有無の判定結果を返すフレームレベル吃音検出手法を検討している．これまでに検出手法として，対数パワーを用いた閾値判定と，リカレントニューラルネットワークに基づく分類モデルを比較評価し，後者が前者よりも大幅に高精度であることを確認した．今後は，吃音の長期的かつ複雑な時間依存関係を捉えて更に検出精度を上げるために，Transformerの導入や音声基盤モデルから抽出した特徴量を用いる手法を検討する予定である.

研究室データ

医療機器医用材料部門　人間情報処理学分野
教授　小川　厚徳
講師　相田　敏明