NLP2011本会議三日目(午前)

午前中は言語資源・コーパスのセッション.
一件目は英語学習者コーパスの話.そもそも学習者コーパスというのが数がなくて,それに誤り情報や品詞情報が付与された物はほとんどないらしい.ポイントは学習者なので書いたテキストに誤りを含んでいること.品詞のアノテーションに対して,スペルミスならまだもとの単語が分かるし,品詞の違いもないのだけれど,そうでないような誤りに対しては品詞がどうなのかは分からないことが多い.
二件目はLCS.何度か聞いている話で,何となく分かっているけど,やっぱりその枠組みでどこまで書けるのか,というのがきれいに見えない,つまりやってみないと分からない,というのが問題.例えば,アスペクチュアルな動詞,事態を項に取るような動詞に対しての記述とか.何となく,述語を項に取る,という高階論理みたいなアプローチがあるなあと思うけど,そうなると発散してしまいそうで.後は事態の成立をどこまで含めるか,というのも記述の点では難しい話.例えば,「投げる」には「投げた物が目的地まで届く」というのを含めるのかどうか,とか.
三件目は最初の部分を聞き逃してしまったので,どういう話かはちょっと予稿を読まないと…… 構文情報から論理式のような意味形式への変換という話があって,意味記述まで付与したコーパスを作る,とか.
四件目はクラスタリングを用いた能動学習.境界面に近い事例をクラスタリングして冗長なものを排除するという先行研究があるが,それだと境界面をまたいでクラスタを形成したり,重心が境界面から少し離れるという問題があって,それに対応するという話.結果としてはわずかながら向上が見られているけど,こういった枠組みだと確信度が高いものはそのラベルを信用してしまうのでそれが果たしてどれだけ本当に正しいのか,というのをちゃんと見ておかないといけない.
五件目は音声コーパスの目録検索.音声コーパスはテキストコーパスに比べて,収録環境などのようなコーパス自体の情報が多くあって,それらを検索しやすいようにしましょうという話.
六件目は標準規格に基づいてデータを変換して複数の異なる言語資源を統合して扱えるようにしましょうという話.
七件目は英語プレゼンテーションコーパスの話.スライドだけではなくてトランススクリプトやドラフト,映像,評価など様々な情報を含めたコーパスを作っているそうで.大元の目的は学習支援なんだけど,分析がまだ出来ていなくてそのためにコーパスを作らなければいけないというのが今の話.やっぱり問題は学習者の英語能力で最低限ないとそもそもプレゼンテーションにならないみたい.