NLP界を支える人

T先生曰く「データを見ている人が一番強い」.
NLPで扱う対象は言語であるが,それを生成する機構(つまり人間)は明らかになっていないので,基本的には出力されたデータであるところのテキストなり何なりを見て,言語の特質を掴もうとしなければならない.なので,そのためには何をするにもまずデータを見るということが必要となる.どういう問題に取り組もうとしているのか,どうすれば解けるのか,ということを見つけるためにはデータを見なければならない.逆に言えば,データを多く見ている人は言語についての何かしらの情報を多く持っているということになる.勿論,それが体系的なものか,とか,言語表現で説明できるか,というのはあるけど,それは別の問題.
ところで,NLPの研究では生のテキストを使うということもあるけれど,多くはそのテキストに何らかの情報を付与したものを使って研究をする.この情報の付与は研究者自身がやる場合もあるけど,量が多かったりすると専門の人にお願いすることになる.なので,その専門の人は発注した研究者と同じ問題を見ることになる.しかも,ラベルなり何なりを付与しなければいけないので,念入りに見なければいけなくなり,いつの間にかかなりの知見を得ている,ということもあったりする.なので,そういう人からの意見というのは非常に参考になる.
ということで,個人的にはこの業界はアノテータの方々によって支えられている,と思っているのである.そもそも,作業をボイコットされたらかなり苦しくなるわけだし.