場所: 早稲田大学理工学部 55S-2F 第3会議室
(〒169 東京都新宿区大久保3-4-1)
電子情報通信学会 音声研究会(SP), 言語理解とコミュニケーション研究会(NLC)と共催
テーマ:「音声言語処理,話し言葉の理解と生成,対話システム」
[12日午前 10:00 〜 11:30] (1) 音声の高さ、大きさ、速さ感覚と物理関連量 小林 聡, 北澤 茂良 (静岡大) [要旨]本実験では、ある発話に対して付けられたラベルと、実際の音響 的な変化との比較を行ない、その関係の調査を行なった。 (2) {TLS}を用いた声道伝達関数の推定精度の声道アナログ合成器による検討 佐々木 幸司, 三木 信弘, 小川 吉彦 (北大) [要旨]声門付近で発生する乱流を組み込んだモデル化は、従来は子音の 生成のみに用 いられてきた。しかし、母音でも声門の開閉による乱流は 生じている。声門の 開閉運動による乱流を組み込んだモデル化を行い、 伝達関数の推定を検討する。 (3) 音素タイプライタ出力結果を用いた発音ネットワークの構築 深田 俊明, 匂坂 芳典 (ATR音声研) [要旨]言語と音響の発音系列のミスマッチの緩和ために、発声内容(音素 系列)と音素タイプライタ出力結果(音声系列)を対応づけ、発音ネットワー クを構築する。 [12日午後 13:00 〜 16:30] (4) 表層表現と用例を用いた動詞の省略の補完 村田 真樹, 長尾 真 (京大) [要旨]省略された動詞を表層表現と用例から補完する.小説の会話文な どで実験を行ない手法の有効性を確かめる. (5) 話し言葉における冗長表現の解釈 川森 雅仁, 島津 明 (NTT) [要旨]言い直し,言い淀み,言い換え,繰り返しなどは自然な話し言葉 の特徴である.これらの現象の意味的特徴およびその解釈について論ずる. (6) 対話における情報の活性化とピッチ情報 緒方 典裕 (筑波大) [要旨]一貫した対話の系列を構成するには、どのような情報がその場で 活性化されているかを管理することが重要である。本発表では、情報の活 性化とピッチとの関係を、焦点化、倒置、省略、反復, インプリカチャの 導入, という現象に関して、実験・考察する。 (7) 対話システムにおける知識の相違および認識誤りの解消 渡邉 太郎, 荒木 雅弘, 堂下 修司 (京大) [要旨]音声言語をチャネルとした対話システムにおいて、音声認識誤り による誤解、および、知識の相違によりユーザとの競合が生じる可能性が ある。本研究では、これらの競合の検出および解消の過程のモデル化を行 う。 (8) 姓名漢字表記を説明する対話システムの試作と評価 大山 芳史, 浅野 久子, 高木 伸一郎 (NTT) [要旨]漢字構成要素等から説明文(木にクチ→杏)を生成(音声出力)し、 対話によりさらに曖昧さを解消するシステムを構築した。 (9) データ入力システムの性能と使用感に関する調査 山本 寛樹, 山田 雅章, 小坂 哲夫, 小森 康弘, 藤田稔 (キヤノン) [要旨]音声およびマウスを用いたデータ入力システムのテストを行ない, システムの性能とその使用感の関わりを調査したので報告する. [13日午前 10:00 〜 11:30] (10) {Taylor}展開による音響モデルの適応 山口 義和, 高橋 淳一, 高橋 敏, 嵯峨山 茂樹 (NTT) [要旨]変動する環境雑音に対して, 音響モデルの変動分を雑音の変動分 についてのTaylor展開で近似するため処理量が少なく, 高速な音響モデル の適応が可能である. (11) 情報量基準を用いた状態クラスタリングによる音響モデルの作成 篠田 浩一, 渡辺 隆夫 (NEC) [要旨]記述長最小基準を用いて学習データに対し適切な規模の環境依存 認識単位セットを自動作成する。 (12) 音素決定木に基づく逐次状態分割法による{HM-Net}の性能改善の検討 堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀 (山形大) [要旨]音素決定木に基づく逐次状態分割法によるHM-Netの性能改善に関 して、今回の報告では、時間方向の状態分割の導入、種々の初期モデル から状態分割したHM-Netの性能比較、過度に分割された状態の再共有化、 について検討する. [13日午後 13:00 〜 16:30] (13) 対話音声認識のための事前タスク適応の検討 伊藤 彰則, 好田 正紀 (山形大) [要旨]特定ドメインの対話の統計的言語モデルを作成するためには,サ ンプルを大量に集めなければならない.これに対して,既存の言語コー パスに特定ドメインの対話テキストを少量混合することで,言語モデル の適応を試みる. (14) 単語 trigram を用いた大語彙連続音声認識 吉田 航太郎, 松岡 達雄, 大附 克年, 古井 貞煕 (NTT) [要旨]新聞記事コーパスを用いて大語彙連続音声認識の研究を進めてい る。従来のシステムに、単語trigramを導入することにより大語彙連続音 声認識の精度を約90%まで向上することができた。 (15) 統計的翻訳言語モデルを用いた音声理解 松岡 達雄, 古井 貞煕 (NTT) [要旨]自然言語から意味言語への翻訳(すなわち理解)を行う言語モデ ルをテキストコーパスから自動的に学習する方法を既に提案した。本報 告では、N-best仮説を出力する音声認識を用いて、実際に音声を入力と した音声理解システムの性能評価の結果を報告する。 (16) 構文規則と前終端記号バイグラムを併用する対話音声認識手法の高速化と高性能化 竹澤 寿幸, 森元 逞 (ATR音声研) [要旨]構文規則と前終端記号バイグラムを併用する対話音声認識手法の 高速化と高性能化について報告する。 (17) 効率的な仮説のマージ機能を持つ{LR}パーザ制御による音声認識 山田 智一, 松永 昭一, 嵯峨山 茂樹 (NTT) [要旨]環境独立音素を終端記号とする文脈自由文法と、一般化 LR パー ザを用いて、環境依存音素モデルからなる有限状態オートマトンを動的 に生成し、フレーム同期の one-pass サーチ・アルゴリズムに基づいて 処理を行う新しい認識アルゴリズムの提案。 (18) Key-Phrase Detection and Verification for Flexible Speech Understanding 河原 達也 (京大), Chin-Hui Lee, Biing-Hwang Juang (Bell-Labs) [要旨]音声対話システムなどのための柔軟な音声理解のために、キーフ レーズの検出と検証を組み合わせた方式を提案し、その有効性を示す。