コトバのインフラ整備 - Nothing ventured, nothing gained.

コトバのインフラ整備、著作権処理で法外なコスト国立国語研究所が大規模コーパスを試験公開（@ITより）

　1960年代に英国を中心に開始されたコーパス作りは、欧米を中心にさまざまな言語圏で進められてきた。現在、英語、米語、スペイン語、中国語などで大規模なコーパスが入手できるが、日本語では長らく大規模コーパスが整備されてこなかった。言語研究の世界でも情報処理の世界でもコーパスが果たす役割の重要性は増しているが、コストがかさむことから、大学などの研究機関ではコーパス作成は難しかった。
＜中略＞
　現代日本語書き言葉均衡コーパスでは今後、バランスよく現代日本語を収録するために、国会議事録、新聞記事、文芸作品、ブログなどもデータに加える予定だ。
　課題は著作権処理だ。

国立国語研究所はYahoo!知恵袋のデータを含んでいるが、これはヤフーが最初から権利処理を的確に行っていたため。日本の多くの著作物の場合、個別に著作権者に許諾を求めなければいけず、コストが莫大になるという。

クリエイティブコモンズの認知がもっと高まり、自らの著作物を積極的にクリエイティブコモンズ対応をするようになれば、大分解決するようになるのではないか。

ブログをホスティングする企業はこれからはクリエイティブコモンズの対応を設定画面に含めるするようにし*1、検索エンジンはクリエイティブコモンズの有無を検索オプションとして指定できるように*2して欲しい。

*1:すでにサポートしているところもある

*2:すでにサポートしているところもある