第124回音声言語情報処理研究会 (SIG-SLP)

_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
                                               2018年10月   第124回 音声言語情報処理研究会(音声言語情報処理技術デベロッパーズフォーラム) IEEE SPS Tokyo Joint Chapter, Distinguished Industry Speakers (DIS) 講演会
_/_/_/_/_/_/_/_/_/_/__/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ ○日時:2018年10月10日(水) 13:00〜17:40 ○会場:早稲田大学グリーン・コンピューティング・システム研究開発センター    〒162-0042 東京都新宿区早稲田町27    https://www.waseda.jp/inst/gcs/access/ ○主催:情報処理学会 音声言語情報処理研究会(SLP) IEEE SPS Tokyo Joint Chapter ○招待講演1 脳波信号からの音声言語情報識別に関する研究について 新田 恒雄 先生(豊橋技科大・早大) 概要: 脳波信号から音声言語情報を抽出して識別する研究が始まっている。脳皮質上のセンサーから情報を 検出する研究が先行しているが,頭皮上で観測した脳波(EEG)信号を用いる研究も実現すると応用が 広いため意欲的に進められている。講演では後者の発話時脳波から,10数字と単音節(18 短音節) を識別した著者らの実験を中心に述べると共に,近年の脳における言語情報処理研究について紹介する。 略歴: 豊橋技術科学大学名誉教授・知能情報工学系客員教授,早稲田大学研究院客員教授. 音声認識・音声合成・文字認識アルゴリズムの研究・実用化,マルチモーダル対話記述言語の研究・実用化に 従事してきた.近年は調音運動に基づくワンモデル音声認識・合成の研究とその実用化,および知的エージェントの ための知の体系構築に関する研究,音声言語に関するBCI研究に注力している. 1970 ー 1998 (株)東芝 (総合研究開発センター,マルチメディア技術開発研究所(主幹),この間東北大学より工学博士授与) 1998 ー 2012 豊橋技術科学大学大学院 教授 2012 ー           同大名誉教授, 知能情報工学系客員教授, 早稲田大学研究院客員教授(グリーン・コンピューティング・システム研究機構 客員上級研究員), ジョンズホプキンス大学客員教授ほか IEEE(終身会員),情報処理学会(東海支部長,音声対話技術コンソーシアム(ISTC)代表,情報規格調査会試行標準化専門委員会委員(WG4主査), 音声言語処理(SLP)研究会主査,特集号編集委員長等を歴任. 学会フェロー),信号処理ジャーナル副編集長,経済産業省産業構造審議会委員, 科学技術振興調整費評価WG委員,W3C AC member,電子情報通信学会,日本音響学会,人工知能学会各会員ほかを歴任 論文誌掲載50件,査読付国際会議論文100件以上 ○招待講演2 IEEE Distinguished Industry Speakers (DIS) 講演会 Speech Recognition: What's Left? Michael Picheny(IBM T. J. Watson Research Center) Abstract: Recent speech recognition advances on the SWITCHBOARD corpus suggest that because of recent advances in Deep Learning, we now achieve Word Error Rates comparable to human listeners. Does this mean the speech recognition problem is solved and the community can move on to a different set of problems? In this talk, we examine speech recognition issues that still plague the community and compare and contrast them to what is known about human perception. We specifically highlight issues in accented speech, noisy/reverberant speech, speaking style, rapid adaptation to new domains, and multilingual speech recognition. We try to demonstrate that compared to human perception, there is still much room for improvement, so significant work in speech recognition research is still required from the community. Bio: Michael Picheny is the Senior Manager of Speech Technologies at the IBM T.J. Watson Research Center. He obtained his S.B (1975), S.M. (1978) and PhD (1981) all from MIT. He has worked in the Speech Recognition area since 1981, joining IBM immediately after finishing his doctorate. He has been heavily involved in the development of almost all of IBM's recognition systems, ranging from the world's first real-time large vocabulary discrete system through IBM's product lines for telephony and embedded systems. Dr. Picheny is a Fellow of the IEEE. He has published numerous papers in both journals and conferences on almost all aspects of speech recognition. Dr. Picheny has received several awards from IBM for his work, including a corporate award, three outstanding Technical Achievement Awards and two Research Division Awards. He is the co-holder of over 50 patents and was named a Master Inventor by IBM in 1995 and again in 2000. Dr. Picheny served as Associate Editor, IEEE Transactions on Acoustics, Speech, and Signal Processing (1986-1989); Chair, Speech Processing Technical Committee of the IEEE Signal Processing Society (2002-2004); Member, SPS Awards Board (2004-2007); and Editorial Board Member, IEEE Signal Processing Magazine (2007-2009). Dr. Picheny has served multiple times as Adjunct Professor in the Electrical Engineering Department of Columbia University, most recently in 2016, co-teaching a course in speech recognition. He was a Member of the board of ISCA (International Speech Communication Association) (2005-2013) and named an ISCA Fellow (2014). He was a Technical Program Co-chair, IEEE ASRU (2005 and 2015); Industrial Liaison Co-Chair, INTERSPEECH (2006 and 2016); and Co-General Chair, IEEE ASRU Workshop (2011). Dr. Picheny currently leads a team of researchers at IBM that tries to push the envelope on speech recognition and speech synthesis performance, and also supplies advanced speech technologies to IBM’s Watson Group. ●プログラム [13:00-13:50] デベロッパーズフォーラム1 (1) CTC音響モデルのためのシーケンスレベル知識蒸留法の検討 ◯高島 遼一, 李 勝, 河井 恒(NICT) (2) データ拡張処理の非ネイティブ英語音声認識への効果 ◯福田 隆(日本IBM), ラウル フェルナンデス(米国IBM), サミュエル トーマス(米国IBM), アレキサンダー ソリン(イスラエルIBM), 倉田 岳人(日本IBM) [13:55-14:55] 招待講演1 (3) 脳波信号からの音声言語情報識別に関する研究について ◯新田 恒雄(豊橋技科大/早大) [15:10-16:25] デベロッパーズフォーラム2 (4) 知識構成型ジグソー法における中学生発話を対象とした音声認識の試み ◯長野 徹, 東出 紀之, 倉田 岳人, 立花 隆輝(日本IBM), 中山 隆弘, 白水 始(東大) (5) 番組制作支援のための音声認識を用いた取材映像書き起こしシステム ◯萩原 愛子, 伊藤 均, 小早川 健, 三島 剛, 佐藤 庄衛(NHK技研) (6) フィラー検出機能を持つリアルタイム音声認識システムの開発と応用 ◯芦川 平, 布目 光生, 藤村 浩司(東芝) [16:40-17:40] 招待講演2 (7) IEEE Distinguished Industry Speakers(DIS)講演 Speech Recognition: What's Left? ◯Michael Picheny(IBM T. J. Watson Research Center) ●参加費  以下の通りです(当日お支払いください). http://www.ipsj.or.jp/kenkyukai/sanka.html ・SLP研究会登録会員:無 料 ・情報処理学会会員:1,500円 ・情報処理学会学生会員:500円 ・非 会 員:2,500円 ※招待講演2(IEEE Distinguished Industry Speakers(DIS)講演)のみ参加の場合, 参加費は無料です。 ●動画中継  今回の研究会では, インターネットを利用した研究発表の動画収録・中継を試行する予定です. 基本的にすべての発表を試行の対象とする予定ですが, 発表者の希望に応じられますので, 研究発表の当日にその旨お伝えください. 中継は情報処理学会公式ニコニコチャンネルにて行われます. http://ch.nicovideo.jp/ipsj/live ●問い合わせ先  福田隆(IBM) fukuda1[AT]jp.ibm.com  ※[AT]は@に直してください。 ●情報処理学会 音声言語情報処理研究会(SLP)  主査: 西村雅史 (静大)  幹事: 福田隆(日本IBM),山岸順一(NII),塩田さやか(首都大),俵直弘(早稲田大) ●IEEE Signal Processing Society (SPS) Tokyo Joint Chapter  Chair 牧野昭二(筑波大)