共催:情報処理学会 自然言語処理研究会(NL)
プログラム:
5月22日(木) 14:00〜16:20 ■14:00〜15:00 語彙・固有表現・同義語 (3件) ■ (1) 非頻出語に対して頑健な日本語固有表現の抽出 ○土屋 雅稔, 肥田 新也, 中川 聖一 (豊橋技科大) 本稿は,固有表現がタグ付けされた学習コーパスに頻出しない語(非頻出 語)を含む機能表現も頑健に抽出できるような手法を提案する.固有表現 がタグ付けされていない大量のコーパスを使って非頻出語に頻出語を対応 付けた上で,統計的な固有表現抽出を行う. (2) 単語類似度ネットワークを通じた自動同義語獲得 ○王 玉馨, 清水 伸幸, 吉田 稔, 中川 裕志 (東大) Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network induced by the similarity metric. Our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -- a mutual re-ranking method (MRM). We apply our method to a specific domain: technical synonym acquisition from aviation reports in Japanese. The results show that MRM boosts the quality of acquired synonyms. ■15:20〜16:20 翻訳・要約 (2件) ■ (3) 日中英3言語6方向音声翻訳システム ○知野 哲朗, 釜谷 聡史, 降幡 建太郎, 住田 一男 (東芝) 試作した日中英3言語6方向音声翻訳システムの概要と、日中英のネイティ ブ被験者が実際の環境で発声した音声データを用いて実施した、評価実験 の結果を報告する。 (4) 文書要約の最大充足化問題によるモデル化 ○高村 大也, 奥村 学 (東工大) 文抽出による文書の自動要約タスクが、制約付き最大充足化問題として定 式化されうることを示す.また,この問題を解くためのアルゴリズムを提 案し,実験によりその性能を評価する. 5月23日(金) 10:00〜16:50 ■10:00〜11:30 学生セッション I (3件)■ (5) ポッドキャストを対象とした類似エピソード検索手法 ○水野 淳太 (奈良先端大), 緒方 淳, 後藤 真孝 (産総研) 音声認識結果のConfusion Networkを用いてキーワードを抽出 し、それを利用した類似エピソード検索を実現した。 (6) ポッドキャスト音声認識の性能向上手法:集合知によって更新されるWebキーワードを活用した言語モデリング 松原 勇介 (東大), ○緒方 淳, 後藤 真孝 (産総研) Webキーワード活用した言語モデリングにより、新出単語や複合語に頑健 な音声認識を実現した。 (7) 表層・語彙的特徴量に基づくブログの面白さ分析 ○萩行 正嗣, 柴田 知秀, 黒橋 禎夫 (京大) 249件のブログ記事において、文字数などの表層的特徴量や評価表現など の語彙的特徴量の抽出に基づく自動判定結果と、人手による採点結果を比 較することにより、面白さの分析を行なった。 ■13:00〜15:00 学生セッション II (4件)■ (8) Raising Compatibility of Heterogeneous Annotations: A Case Study on Protein Mention Recognition ○Yue Wang, Kazuhiro Yoshida, Jin-Dong Kim, Jun'ichi Tsujii (東大) In this work, we seek a way of removing or relaxing heterogeneity of annotated corpora by identifying and removing specific differences between them. (9) 単語の類似尺度に基づくシソーラス辞書への用例付与 ○Nik Adilah Hanin Binti Zahri, 福本 文代 (山梨大) Linらの類似尺度により得た単語クラスを用いることで、シソーラス辞書 へ用例を付与した結果について報告する。 (10) ロボットに装着されたマイク信号中からの音韻キュー探索による話者方向の同定 ○沼波 宰, 川端 豪 (関西学院大) ロボットに装着されたマイク信号中から、複合類似度に基づき音韻キュー を探索し、不特定話者の方向を同定する。 (11) 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張 ○勝丸 真樹, 駒谷 和範, 尾形 哲也, 奥乃 博 (京大) 音声対話システムでは,ユーザは単語の一部を省略した表現をしばしば 用いる.我々はこれらの簡略表現を認識するため,語彙増加による認識 誤り増加を抑制しながら,音声認識辞書に簡略表現を自動追加する. ■15:30〜17:00 音声言語処理 (3件) ■ (12) 集合知を利用した語彙情報の収集・共有・管理システム ○中野 鐵兵, 佐々木 浩, 藤江 真也, 小林 哲則 (早大) 音声認識・言語処理アプリケーションにとって適切な語彙情報の効率的 な作成・維持を可能にする,語彙情報の自動収集と開発者間での共有の 枠組みを提案する. (13) 話し言葉の整形作業における削除箇所の自動同定 尾嶋憲治, ○河原達也, 秋田祐哉 (京大), 内元清貴 (NICT) 講演の書き起こし・音声認識結果から、講演録などを作成する際に削除 される箇所について、言い淀みとの関係から分析を行い、その自動推定 を行った結果を報告する。 (14) 文書分類手法を応用したインタラクティブプレゼンテーションにおける視聴者発話の理解 簑津 真一郎 (東大), ○中野 幹生, 船越 孝太郎 (HRI-JP), 木村 法幸, 岩橋 直人 (NICT), 石塚 満 (東大), 辻野 広司 (HRI-JP) 音声認識結果に現れる単語を用いて発話の分類を行うことにより,プレ ゼンテーション中の視聴者の要求や質問を理解する手法を提案する.