第6回 音声言語シンポジウム

第54回 音声言語情報処理研究会 (SIG-SLP)

日時: 2004年12月20日(月)・21日(火)・22日(水)
場所: 国際電気通信基礎技術研究所(ATR)
    (〒619-0288 京都府相楽郡精華町光台2-2-2)     アクセス

主催: 電子情報通信学会 言語理解とコミュニケーション(NLC)研究会
    電子情報通信学会および日本音響学会 音声(SP)研究会
    情報処理学会 音声言語情報処理(SLP)研究会

協賛: 人工知能学会 言語・音声理解と対話処理(SLUD)研究会

概要:
20日
International Workshop "Beyond HMM"
21日
(午前1)  9:20 - 11:00	雑音下音声処理
(午前2) 11:10 - 12:00	言語モデル
(午後1) 13:00 - 15:00	[招待講演] 音声・言語における標準化動向
(午後2) 15:10 - 15:50	ポスター概要講演
(午後3) 16:00 - 17:30	ポスターセッション
22日
(午前1)  9:20 - 10:35	大語彙音声認識
(午前2) 10:45 - 12:00	対話(1)
(午後1) 13:00 - 13:45	[招待講演] 自然言語処理の展開
(午後2) 13:55 - 15:35	対話(2)
(午後3)	15:45 - 17:25	音声言語応用

----------------------------------------------------------------------

プログラム:

12月20日(月) International Workshop "Beyond HMM"

9:30-10:45   Oral Session

(1) (Invited) Production models for speech recognition
	Erik McDermott (NTT)

(2) (Invited) Robust acoustic modeling for speech recognition
	Koichi Shinoda (Tokyo_Inst_Technology)

(3) (Invited) Design and Implementation of {HMM/BN} Acoustic Models
	Konstantin Markov, Satoshi Nakamura (ATR)

11:00-11:50   Oral Session

(4) (Invited) {SVMs}, Score-Spaces and Maximum Margin Statistical Models
	Mark Gales (Cambridge_Univ)

13:20-15:00   Oral Session

(5) (Invited) What {HMMs} Can't Do: A Graphical Model Perspective
	Jeff Bilmes (Univ_Washington)

(6) (Invited) Minimum Bayes Risk Estimation and Decoding in Large Vocabulary Continuous Speech Recognition
	William Byrne (Cambridge_Univ)

15:15-17:15   Poster Session

(7) Asynchronous Articulatory Feature Recognition using Dynamic Bayesian Networks
	Mirjam Wester, Joe Frankel, Simon King (Univ_Edinburgh)

(8) Reformulating the {HMM} as a Trajectory Model
	Keiichi Tokuda, Heiga Zen, Tadashi Kitamura (Nagoya_Inst_Technology)

(9) Speech recognition method based on trajectories generated by Kalman filters
	Yasuhiro Minami (NTT)

(10) Robustness of acoustic model topology determined by {VBEC} for different speech data sets
	Shinji Watanabe, Atsushi Nakamura (NTT)

(11) Variational Bayesian Based Topology Training and Mixture Component Splitting for Acoustic Modeling
	Takatoshi Jitsuhiro, Satoshi Nakamura (ATR)

(12) Mixtures of Probabilistic Principal Component Analyzers in Speech Recognition
	Mike Schuster (NTT)

(13) Aggregate a Posteriori Linear Regression Adaptation of Hidden Markov Models
	Jen-Tzung Chien, Chih-Hsien Huang (National_Cheng_Kung_Univ)

(14) Speaker recognition without feature extraction process
	Tomoko Matsui, Kunio Tanabe (Inst_Statistical_Mathematics)

(15) Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover's Distance
	Yoshiaki Umeda, Satoru Tsuge, Fuji Ren, Shingo Kuroiwa (Tokusima_Univ)


12月21日(火)

session-1 9:20-11:00 雑音下音声処理 

(16) 頑健な区間検出とモデル適応に基づく雑音下音声認識
	張 志鵬 (NTTドコモ), 古井 貞煕 (東工大)

(17) 音声認識率改善のための波形減算とスペクトル減算の併用による反射音除去法
	大田 健紘, 柳田 益造 (同志社大学)

(18) 雑音モデルに基づく補正音響尤度を用いた音声認識
	佐藤 庄衛, 尾上 和穂, 小林 彰夫, 今井 亨 (NHK)

(19) {SNR} and subband {SNR} estimation based on {Gaussian} mixture modeling in the log power domain with application for speech enhancements
	Tran_Huy Dat, Hiroshi Fujimura, Kazuya Takeda (Nagoya_Univ), Fumitada Itakura (Meijo_Univ)


session-2 11:10-12:00 言語モデル

(20) Trigger-Based Language Model Construction by Combining Different Corpora
	Carlos Troncoso, Tatsuya Kawahara (Kyoto_Univ), Hirofumi Yamamoto, Genichiro Kikui (ATR)

(21) 意味属性を利用したクラスN-gram言語モデルの評価
	池谷 晴生, 福田 隆, 山田 博文, 桂田 浩一, 新田 恒雄 (豊橋技科大)


session-3 13:00:00-15:00 音声・言語における標準化動向

(22) [招待講演] 自動要約評価型ワークショップ:{Text Summarization Challenge (TSC)}
	平尾 努 (NTT)

(23) [招待講演] 多言語翻訳技術に関する公開性能評価 - 音声翻訳技術のための国際評価ワークショップ{IWSLT2004} -
	中岩 浩巳 (NTT/ATR), 秋葉 泰弘, Michael Paul (ATR)

(24) [招待講演] 実環境下音声認識の評価の標準化とその動向
	中村 哲 (ATR), 武田 一哉 (名大), 黒岩 眞吾 (徳島大), 北岡 教英 (豊橋技科大), 山田 武志 (筑波大), 山本 一公 (信州大), 西浦 敬信 (立命館大), 佐宗 晃 (産総研), 水町 光徳 (九工大), 宮島 千代美 (名大), 藤本 雅清, 遠藤 俊樹 (ATR)


session-4 15:10-17:30 ポスターセッション

(25) 文脈情報を利用した構文的曖昧性の解消
	池ヶ谷 有希, 野口 靖浩, 小暮 悟, 小西 達裕, 近藤 真 (静岡大), 高木 朗 (CSK/産総研), 伊東 幸宏 (静岡大)

(26) 依存関係の解釈と概念情報の統合処理
	常盤 大樹, 内田 尚和, 樋本 綾乃 (法政大), 河野 安友未 (お茶の水女子大), 高木 朗 (CSK/産総研), 麻生 英樹 (産総研), 中島 秀之 (はこだて未来大), 伊東 幸宏 (静岡大), 小林 一郎 (お茶の水女子大), 八名 和夫 (法政大学)

(27) 混合正規分布モデルに基づく非可聴つぶやき声({NAM})から通常音声への変換
	戸田 智基 (名工大), 鹿野 清宏 (奈良先端大) 

(28) 部分空間法による感情音声合成
	森 真也, 森山 剛, 小沢 慎治 (慶應大)

(29) 帯域分割型{CSP}法に基づく話者位置推定法の検討
	傳田 遊亀 (和歌山大), 西浦 敬信 (立命館大), 河原 英紀, 入野 俊夫 (和歌山大)

(30) マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討
	浅見 太一, 岩野 公司, 古井 貞煕 (東工大)

(31) Development of Speech Corpus and Speech Recognition System for {Indonesian} Language
	Sakriani Sakti (ATR), Paulus Hutagaol (PT_Telekomunikasi_Indonesia), Arry_Akhmad Arman (Bandung_Inst_Technology), Satoshi Nakamura (ATR)

(32) 複数の信頼度尺度を統合した音声認識
	小林 彰夫, 尾上 和穂, 佐藤 庄衛, 今井 亨 (NHK)

(33) 音節継続長比モデルを用いた音声認識の検討
	蟻生 政秀, 益子 貴史, 田中 信一, 河村 聡典 (東芝)

(34) 子供音声認識のための音響モデルの構築および適応手法の評価
	鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏 (奈良先端大)

(35) Unsupervised Speaker Adaptation Based on {HMM} Sufficient Statistics Using Multiple Acoustic Models Under Noisy Environment
	Randy Gomez, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano (NAIST)

(36) Multi-Channel Estimation of the Power Spectral Density of Noise for Mixtures of Non-Stationary Signals
	Wolfgang Herbordt, Satoshi Nakamura (ATR), Walter Kellermann (Univ_Erlangen)

(37) Two-stage Noise Spectra Estimation and Regression based In-car Speech Recognition using Single Distant Microphone
	Weifeng Li, Katunobu Itou, Kazuya Takeda (Nagoya_Univ), Fumitada Itakura (Meijo_Univ)

(38) 背景雑音を対象とした特徴パラメータ正準化法
	福田 隆, 新田 恒雄 (豊橋技科大)

(39) 雑音抑圧手法の主観・客観品質と音声認識性能の関係
	山田 武志, 熊倉 正和, 北脇 信彦 (筑波大)

(40) {CENSREC-3}: 実走行車内単語音声データベースと評価環境の構築
	藤本 雅清, 中村 哲 (ATR), 武田 一哉 (名大), 黒岩 眞吾 (徳島大),	山田 武志 (筑波大), 北岡 教英 (豊橋技科大), 山本 一公 (信州大),	水町 光徳 (九工大), 西浦 敬信 (立命大), 佐宗 晃 (産総研), 宮島 千代美 (名大), 遠藤 俊樹 (ATR)

(41) {GMM}による雑音抑圧手法選択に基づく雑音下音声認識
	濱口 早太, 北岡 教英, 中川 聖一 (豊橋技科大)


12月22日(水)

session-5 9:20-10:35 大語彙音声認識

(42) 音声理解のための音声認識評価尺度とベイズリスク最小化デコーディング
	南條 浩輝 (龍谷大), 河原 達也 (京大)

(43) Efficient generation of high-order context-dependent weighted finite state transducers for speech recognition
	Schuster Mike, Takaaki Hori (NTT)

(44) Verifying {LVCSR} Output at Different Levels with Generalized Posterior Probability
	Wai_Kit Lo, Frank Soong, Satoshi Nakamura (ATR)


session-6 10:45-12:00 対話(1)

(45) 情報家電の操作のための対話インタフェースの開発
	内田 尚和, 常盤 大樹, 西 末衣 (法政大), 高木 朗 (CSK/産総研), 麻生 英樹, 橋本 政朋, 森 彰 (産総研), 中島 秀之 (はこだて未来大), 伊東 幸宏 (静岡大), 小林 一郎 (お茶の水女子大), 八名 和夫 (法政大)

(46) 異なる端末環境から利用可能な{MMI}アプリケーション開発における記述負担の軽減
	青木 一峰, 桂田 浩一, 山田 博文, 新田 恒雄 (豊橋技科大)

(47) エージェントとの対話によってユーザの操作を支援する{VoiceWeb}システム
	大宮 広義, 荒木 雅弘 (京都工繊大)


session-7 13:00-13:45 自然言語処理の展開

(48) [招待講演] 状況を考慮した言語理解にむけて
	徳永 健伸 (東工大)


session-8 13:55-15:35 対話 (2)

(49) 意味の対応付けと依存関係の解釈を考慮した対話意味表現
	高木 朗 (CSK/産総研), 麻生 英樹 (産総研), 中島 秀之 (はこだて未来大), 伊東 幸宏 (静岡大), 小林 一郎 (お茶の水女子大)

(50) Out-of-Domain Detection Incorporating Dialogue Context and Topic Clustering
	Ian Lane, Tatsuya Kawahara (Kyoto_Univ/ATR), Satoshi Nakamura (ATR)

(51) {TF*AoI}を用いた類似性による発話予測
	木村 泰知, 荒木 健治 (北大)

(52) ユーザ発話の予測に基づく音声対話システム
	西田 昌史, 寺師 弘将, 堀内 靖雄, 市川 熹 (千葉大)


session-9 15:45-17:25 音声言語応用

(53) 混合ガウス分布による多言語音声系統樹の構成
	朱 世イ, 山本 幹雄, 板橋 秀一 (筑波大)

(54) 音声訂正: ``CHOICE'' on Speech
	緒方 淳, 後藤 真孝 (産総研)

(55) 多言語音声ポータルシステムの構築
	大迎 純也, 荒木 雅弘 (京都工繊大)

(56) 知識を用いた音声認識による野球実況中継の構造化
	佐古 淳, 有木 康雄 (神戸大)

シンポジウム実行委員
実行委員長:出羽達也(東芝)
副委員長:広瀬啓吉(東大),中村哲(ATR)
幹事:秋葉友良(豊橋技科大), 篠田浩一(東工大), 畑崎香一郎(NEC)
委員:宇津呂武仁(京大), 中野幹生(HRI-JP), 福本淳一(立命館大), 神崎享子(NICT)
   川端豪(関西学院大), 籠島岳彦(東芝), 大川茂樹(千葉工大), 持田岳美(NTT)
   武田一哉(名古屋大), 山田武志(筑波大)