本会議三日目(午後)

最初は言語学のセッション.
一件目は言語の系統を数理的に求めるという話.といっても,使っているデータは恐らく今の言葉なので系統,というよりは類型を求めている感じ.となると,時間軸を入れて三次元で考えられると本当に系統が求められるのではないかという気がするが,問題はそんな昔のテキストが手にはいるのか,ということか.
二件目は終助詞のCCGでの形式化.終助詞がなくても文として成立しているので,基本的にはカテゴリはS/Sになるけど,疑問文とかの場合はS/(S/S)になるとか.質問にもあったけど,「〜よね」はいけて「〜ねよ」はいけないという順番の問題にどう対応するかが問題か.「〜かしらね」の方が問題かも.
三件目は英語量化詞の強意用法の分析.極端な点数のレビューには強意表現が使われるだろうという仮説はなるほど,と思ったけどちょっと調査がざっくりとしている感じがした.
四件目は「名詞のような形容詞名詞」の分析.比喩の話で,「血のように赤いリンゴ」をどう考えるか,とか.「血のようなリンゴ」でも良いわけで,それよりも説明的なので比喩性は低い,と考えるか.血の赤いとリンゴの赤いは違うよね,と考えてもいいかも.
ここで休憩が入って,語彙・辞書のセッションへ.
後半一件目はオノマトペの言い換えの話.手法的にはほぼ予想通り.でも,微妙な違いもちゃんと言い換えられていて感心する.ただ一語で言い換えられないオノマトペをどうするのかという問題は残っている.
二件目はwikipediaからのオントロジー構築の話.拡張固有表現の上の方の分類に接続することできれいなオントロジーとしてまとめている.ただ性質上is-a関係でもよりinstanceに近い方はきれいに取れているけど,class-class関係は難しいみたい.
午後二にして大会最後のセッションは教育応用へ.
一件目は児童作文自動点検.実際にシステムを作ったというよりは展望に近い話.ただ,自動評価にどうしてもつきまとうのは「システムが間違っていたらいけないから結局人が見なければいけないんじゃないの」という懸念.まあ,いきなりそこに行くのではなくてまずは支援という方向から進めていった方が良いとは思う.
二件目は助詞の誤用判定.コスト削減のために日本語への翻訳をNNSにやってもらうというのがなんともなあ,と思わなくもないけど.それでいて質を求めるんだから…… 勿論研究に対してではなくて,そういうことをしている企業に対してだけど.さておき,先行研究は局所的な情報しか見てなかったのをもう少し広げたり,といった拡張で精度を上げることができたという話.対象の助詞に"は"が入っていたのが気になる点."は"を使うかどうかは文内だけではなくて,それこそ前文脈でのentityの出現の仕方が影響するような.
三件目はみんなの翻訳の話.みんなの要約は主に翻訳ボランティアなどの自立的に翻訳をする人に対してのもので,それを翻訳教育に使うにはどうすればいいかという話.特に実務翻訳とかだと翻訳者以外にも1つの翻訳に関わる人がいるのでその人たちの知識共有のフレームワークをどうするのか,とか.内容とは全く関係ないけど,なんでK先生ってあんなにトークがうまいのかなあと常々思っていて,その原因にはゆっくりとかみ砕けるように話してくれるのもあるけど,あとフィラーが少ないんじゃないか,とか思ってしまい,質疑の辺りからそっちが気になってしまった……
四件目は時制誤りの検出.単純に考えると,文の時制を推定してそれに基づいて検出すればいいという話になるんだけど,その推定は難しいらしい.なので代わりに「現在の動詞に対して単純現在を使うのは制限を受ける」という制約に基づいて,判定する,という流れ.とは言え,それも結局問題を少し簡単にして同じことをしているのではないか,という疑問も.
五件目は特許検索の履歴から関連語集合を取ってくるという話.ある概念に対してそれを表す言語表現は複数あることが多く,それらは検索時にORで結ばれる.それを利用して関連語集合を取るのだけれど,そのために検索語の履歴をグラフで考えて極大クリークを取るという問題に考えている.ふと思ったけど,semantic drift的なことは起きないのかなと思ってみたり.
六件目はリアルタイム字幕の特徴の話.サッカーや相撲の生中継での字幕にどういう特徴があるのか,で当然展開が早いサッカーの方が量が多い,とか.字幕の作成に時間がかかって,でも流れている画面とラグがあるといけない,という状況なので,それだったら字幕表示用にあらかじめ遅らせた映像を流すチャンネルを用意すればいいんじゃない,という雑談が.
そんなわけで今年度の年次大会は終了.やっぱり発表できなかったのが個人的にはだいぶ痛い.