第129回音声言語情報処理研究会 (SIG-SLP)



============================================================================

 音声言語情報処理研究会(音声言語情報処理技術デベロッパーズフォーラム)

============================================================================

●日時:2019年10月11日(金)
●会場:キャンパスプラザ京都
    〒600-8216 京都市下京区西洞院通塩小路下る東塩小路町939
●主催:情報処理学会 音声言語情報処理研究会(SLP)

●内容
 10月のSLP研究会は,「音声言語情報処理技術デベロッパーズフォーラム」と
題し,音声認識・合成・対話などの音声言語情報処理技術の実用化と普及をスコ
ープとした情報交換や議論の活性化を目指して企画しております.本企画は2005
年に始まり本年度で15回目の開催となります.今回は初めて場所を関西に移して
の開催です.世の中ではスマートスピーカーやスマートフォンで当たりまえのよ
うに音声インターフェースが使われるようになり,家庭にも音声言語情報処理技
術が入り込んできています.本研究会では,幅広い分野での音声言語情報処理技
術の応用例を紹介いただき,導入事例と実用化を成功に導いたポイント,それを
取り巻くビジネスについての議論を深め,研究コミュニティと様々な事業との橋
渡しの場を提供できればと考えております.

●招待講演「DCASE 2018 Challenge Task 5における日立のプラクティスとその後の取組み」
 日立製作所の川口様より,DCASE2018のマルチチャンネル音響イベント検知タ
スクで1位となったシステムについてご講演いただきます.音響イベント検出
は音声信号処理技術と共通する点が多いため,音声言語処理にも活かせる知見を
ご紹介いただけると思います.

概要
 音響シーン識別とイベント検出の国際コンペティションDCASE 2018 Challenge
において、日立チームはTask 5に参加し、同率1位の精度を達成した。本発表では、
コンペ参加の狙いとプラクティスについて紹介する。また、この結果を受けて
取り組んでいるその後の活動についても紹介する。

●招待講演「補聴器の小型化を支える信号処理技術」
 リオン株式会社の春原様より,補聴器のための信号処理技術についてご講演い
ただきます.補聴器という限られた計算機リソースのための信号処理という
観点で音声言語処理にも活かせる知見をご紹介いただけると思います.

概要
 小型化は補聴器にとって重要な課題の一つである。未だに多くの難聴者は
「補聴器を装用していることを人に知られたくない」という気持ちを有しており、
補聴器の普及を妨げている要因の一つとなっている。小型化が進むことで、
目立たない補聴器を実現できるだけではなく、デザイン性の高い形状の実現にも
貢献できるといえる。一方で、小型化を達成するためには機構設計の高度化は
もちろん、低消費電力化へ配慮等、様々な技術的な制約をクリアしなければならない。
本発表では、補聴器の小型化を支える各種技術の中で、信号処理が果たしている
役割を中心に紹介する。

●チュートリアル講演「音声波形直接生成モデル「ニューラルボコーダ」の比較」
 NICTの岡本様より,今注目を集めているニューラルボコーダー(waveNet,waveGlow等)
の最近の技術動向に関して,チュートリアル講演をいただきます.

概要
 2016年までの統計的テキスト音声合成や声質変換では,ニューラルネットワークに
基づく音響モデルを用いたとしても,ソースフィルタモデルに基づくボコーダによる
音質劣化が肉声感を阻む大きな壁となっていた.2016年9月,WaveNetからはじまる
ニューラルボコーダの登場により,言語特徴量や音響特徴量からニューラルネットに
より音声波形を直接合成できるようになり,Tacotron 2においては,ついに自然音声と
区別のつかない品質の英語テキスト音声合成が実現された.現在,ニューラルボコーダは
音声合成における基盤技術となり,様々な方式が提案されている.本チュートリアルでは,
WaveNetの登場から最先端のリアルタイムニューラルボコーダまでを紹介し,合成精度,
合成速度,モデルサイズ,学習難易度,学習時間等の観点からの比較を行う.

●動画中継
 今回の研究会では,インターネットを利用した研究発表の動画配信を行う予定
です.なお,企業からの発表など,動画配信をしない,閉じた発表の方がより密度
の高い発表ができる場合もあるかと思います.その場合には,積極的に動画配信を
せずに,会場で深い議論を展開し,聴講者と意見交換して頂ければと考えています.
動画配信の可否は当日担当者にお申し出下さい.
ライブ中継した画像は研究会終了後に編集してYouTubeで限定公開します.
(ただし,研究会として不適切と判断したものについては削除することがあります.)


配信URL


●問い合わせ先
 太刀岡勇気(デンソーアイティーラボラトリ) ytachioka[AT]d-itlab.co.jp
 ※[AT]は@に直してください.

※音声言語情報処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※音声言語情報処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.
当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

●研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

●情報処理学会 音声言語情報処理研究会(SLP)
 主査: 西村 雅史 (静岡大学)
 幹事: 塩田 さやか (首都大学東京), 俵 直弘 (NTT),
    秋田 祐哉 (京都大学), 太刀岡 勇気 (デンソーアイティーラボラトリ)


2019年10月 SP/SLP研究会 発表プログラム

10月11日

13:30〜14:20 [認識]
(SLP-1) 音声認識のためのプライバシー保護音響モデル学習法
〇太刀岡 勇気 (デンソーアイティーラボラトリ)

(SLP-2) 音声波形を入力とする単語単位End-to-End音声認識
〇上乃 聖, 三村 正人, 坂井 信輔, 河原 達也(京都大学)


14:30〜15:30 [チュートリアル講演]
(SLP-3) 音声波形直接生成モデル「ニューラルボコーダ」の比較
〇岡本 拓磨(情報通信研究機構), 戸田 智基(名古屋大学 / 情報通信研究機構), 志賀 芳則, 河井 恒(情報通信研究機構)


15:40〜17:40 [招待講演]
15:40〜16:40
(SLP-4) DCASE 2018 Challenge Task 5での日立のプラクティスとその後の取り組みである機械異常音検知向けデータMIMII Dataset構築
〇川口 洋平, 田邊 亮, 遠藤 隆, 二階堂 悠貴, 市毛 健志, Purohit Harsh, 末房 佳小里, Nguyen Phong, 浜田宏一(日立製作所)

16:40〜17:40
(SLP-5) 補聴器の小型化を支える信号処理技術
〇春原 政浩(リオン株式会社)


17:50〜18:25 [ショートオーラルセッション]
17:50〜18:05
(SLP-6) HMMおよびEnd-to-End音声認識における非線形帯域拡張法の性能調査
〇今泉 遼, 塩田 さやか, 貴家 仁志(首都大学東京)

18:05〜18:25
(SLP-7) JVS:フリーの日本語多数話者音声コーパス
〇高道 慎之介, 三井 健太郎, 齋藤 佑樹, 郡山 知樹, 丹治 尚子, 猿渡 洋(東京大学)