スキップしてメイン コンテンツに移動

京大テキストコーパスのパーサを書いた

要旨

CaboCha やなんかの出力形式であるところの京大テキストコーパス形式のパーサモジュールを Perl で書いたので紹介します。

これを使うと例えば CaboCha の出力した係り受け関係を Perl のオブジェクトグラフとして取得できます。

使用例

単なる文節区切りの例。

#!/usr/bin/env perl

use v5.18;
use utf8;
use IPC::Open3;
use Parse::KyotoUniversityTextCorpus;
use Parse::KyotoUniversityTextCorpus::MorphemeParser::MeCab;
use Symbol qw//;

my ($in, $out, $err);
my $pid;

BEGIN {
  ($in, $out, $err) = (Symbol::gensym, Symbol::gensym, Symbol::gensym);
  $pid = open3($in, $out, $err, cabocha => '-f1');
}

END {
  close $out;
  close $err;
  waitpid $pid => 0 if defined $pid;
}

binmode STDOUT, ':encoding(utf8)';
binmode $in, ':encoding(utf8)';
binmode $out, ':encoding(utf8)';

my $parser = Parse::KyotoUniversityTextCorpus->new(
  morpheme_parser =>
    Parse::KyotoUniversityTextCorpus::MorphemeParser::MeCab->new,
);

say $in '星から出るのに、その子は渡り鳥を使ったんだと思う。';
say $in '出る日の朝、自分の星の片付けをした。';
close $in;
my $sentence_trees = $parser->parse(fh => $out);
for my $sentence_tree (@$sentence_trees) {
  for my $chunk (@{ $sentence_tree->as_arrayref }) {
    printf(
      "\%d: \%s -> \%d\n",
      $chunk->id,
      $chunk->surface,
      $chunk->is_root ? '-1' : $chunk->dependency->id,
    );
  }
  print "\n";
}

実行すると:

0: 星から -> 1
1: 出るのに、 -> 5
2: その -> 3
3: 子は -> 5
4: 渡り鳥を -> 5
5: 使ったんだと -> 6
6: 思う。 -> -1

0: 出る -> 1
1: 日の -> 2 
2: 朝、 -> 6 
3: 自分の -> 4
4: 星の -> 5
5: 片付けを -> 6
6: した。 -> -1

立志

日本語係り受け解析器 CaboCha1 は大変便利ですごく便利ですが (便利なので2回言いました) 公式の Perl バインディングは SWIG 製で API 的にあんまり良い感じじゃないし CPAN にも上がっていないのが悲しい点です。MeCab に対する Text::MeCab のような素敵なバインディングも今のところありません。

簡単に使って幸せになるには cabocha コマンドをパイプで繋いで出力をパースするのが手っ取り早いです。CaboCha の出力形式には人間用のツリー形式の他に京都大学テキストコーパス (以下 KC)2/XML/CoNLL の各形式があります。 この中でパースし易いのは XML 形式ですが、これは CaboCha の独自形式 (だと思う) なので対応してもあまり面白くありません。KC 形式と CoNLL 形式は他のツールでも使われています。例えば日本語の構文解析器として CaboCha の他に KNP3 や J.DepP4 が知られていて、これらも KC 形式で出力ができるので必要になったら CaboCha から切り替えて使えます。多分これを処理する車輪は知の高速道路の路肩に一杯転がっているはずなんですが、見つからなくて辛いので自分で書くことにしました。

導入

Tarball を cpanm で突っこむのが早いです:

cpanm http://sekia.github.io/Parse-KyotoUniversityTextCorpus-0.01.tar.gz

リポジトリから最新版を入れる場合は Dist::Zilla (dzil) でビルドする必要があります:

git clone git@github.com/sekia/Parse-KyotoUniversityTextCorpus.git
cd Parse-KyotoUniversityTextCorpus
dzil install

そのうち CPAN に上げるので気の長い人はそれまで待っててください。

使い方

だいたい perldoc 参照ですが Parse::KyotoUniversityTextCorpusnew して parse したら係り受け関係の木構造の根 (即ち最後の文節) に相当する Parse::KyotoUniversityTextCorpus::Chunk を含んだ配列リファレンスが返ってくるので、ここからトラバースするのが基本的な使い方です。 上のコード例のように as_arrayref を呼ぶと文節が順番に並んだ配列リファレンスが返ってくるので単に文節を分割したいだけの時なんかは便利です。

MorphemeParser について

KC の文節中の形態素の出力形式は形態素解析器 JUMAN のものですが、CaboCha は内部で MeCab を使っているので当然 MeCab の形式になります。また MeCab は出力形式や辞書が設定で変更できるので、KC 形式でも形態素の出力形式は様々あることになります。 なので Parse::KyotoUniversityTextCorpus では形態素のパースはせず、一行一形態素とみなして MorphemeParser というオブジェクトに丸投げするようになっています。 ディストリビューションに含まれている MorphemeParser は Parse::KyotoUniversityTextCorpus::MorphemeParser::MeCab で、これは IPA 辞書を使った MeCab が出力するデフォルトの出力をパースできます。JUMAN とか ChaSen とか Unidic を使った MeCab とかの形式がパースしたい人は頑張って自分で書いてください。

TODO

  • Chunk にもっとメソッドを生やす
  • JUMAN の MorphemeParser も追加する
  • CPAN にアップロード

コメント

このブログの人気の投稿

部分継続チュートリアル

この文書についてこれはCommunity Scheme Wikiで公開されているcomposable-continuations-tutorial(2010年09月30日版)の日本語訳です。誤字脱字・誤訳などがありましたらコメントあるいはメールで御指摘いただけると幸いです。本訳は原文のライセンスに基づきCreative Commons Attribution-ShareAlike 2.0 Genericの下で公開されます。Original text: Copyright© 2006-2010 Community Scheme WikiJapanese translation: Copyright© 2011 SATOH Koichi本文部分継続(Composable continuation)は継続区間を具象化することで制御を逆転させるものです。 ウンザリするほど複雑な概念を表す長ったらしいジャーゴンのように聞こえますが、実際はそうではありません。今からそれを説明します。resetとshiftという2つのスペシャルフォームを導入するところから始めましょう[1]。 (reset expression)は特別な継続を作るなりスタックに目印を付けるなりしてからexpressionを評価します。簡単に言えば、expressionが評価されるとき、あとから参照できる評価中の情報が存在するということです。 実際にはshiftがこの情報を参照します。(shift variable expression)は目印のついた場所、つまりresetを使った場所にジャンプし、その場所からshiftを呼び出した場所までのプログラムの断片を保存します; これはプログラムの区間を「部分継続」として知られる組み合わせ可能な手続きに具象化し、この手続きにvariableを束縛してからexpressionを評価します。組み合わせ可能(Composable)という語はその手続きが呼び出し元に戻ってくるため、他の手続きと組み合わせられることから来ています。 Composable continuationの別名として例えば限定継続(Delimited continuation)や部分継続(Partial continuation)もありますが、ここでは一貫して「組み合わせ可能」という用語を使います(訳注: …

多分週刊チラシの裏 (Sep 21-27, 2020)

Killed by MozillaMozilla がディスコンにした製品およびサービスのリスト。COVID-19 パンデミックで収入が激減し全社の四分の一にあたる従業員の解雇と収益を得られる製品への集中に踏み切った Mozilla Corp. の最初の犠牲はノートアプリ Firefox Notes とファイル送信サービス Firefox Send となった。過去には第三のモバイル OS を目指した Firefox OS とか Mac ネイティブな Gecko ベースブラウザ Camino など懐かしい名前も見られる。ちなみに元ネタは Google が終了したサービスをリストしている Killed by Google で、こちらは 2020 年 9 月 26 日現在 205 個の製品とサービスが挙がっている。Firefox 81.0 リリースノートMozilla Firefox 81.0 が Release チャンネルに公開された。最大の新機能はメディア再生のキーボードないしヘッドセットからの制御である。要はバックグランドで再生している YouTube タブを AirPods から一時停止できるようになった。Developer Tools における色覚異常シミュレーションの改善やブラウザ標準 audio/video 要素のアクセシビリティ改善なども含まれている。Facebook が自社プラットフォーム上での複数国による組織的政治工作を認識しながら放置していたFacebook が大量の偽アカウントを動員した政治工作を認識していながら、特に小国のそれに対して対策を放棄していたという内部告発。元 Facebook のデータ科学者である Sophie Zhang 氏の告発によれば、ホンジュラスで大統領派の工作が行われていることを氏が報告してから実際に対策が為されるまでに 9 ヶ月、アゼルバイジャンでの与党の工作を同様に報告してから組織的な調査が始まるまでに実に 1 年を要したという。本来この手の濫用に対応するはずの専任チームは濫用の圧倒的な割合を占めるスパム対応にかかりきりで、政治工作については対象が合衆国か西欧である場合を除いて積極的に行動せず、小国の民主主義は Zhang 氏の空き時間を利用した片手間の対応にかかっていたとのこと。Rust じゃダメな理由近年人気が出てい…

多分週刊チラシの裏 (Sep 14-20, 2020)

自分にとってのニュースは自らまとめるしかないと思い至ったので興味深かったものをまとめる。Moment.js 開発終了JavaScript における日時処理の定番であった Moment.js の開発がメンテナンスモードへの移行を宣言した。歴史のあるライブラリであり、オブジェクトが可変で flux アーキテクチャと相性が悪いとか、自前の国際化リソースが全部バンドルされているので昨今の Dead Code Elimination (a.k.a. Tree-Shaking) を伴うバンドラでもサイズが縮まらないといった問題が指摘されていた。 互換性を保ったまま問題を解決できる見込みがなく、非互換な新バージョンをリリースして移行の混乱を生むよりは設計段階で問題を解決している別ライブラリに移行せよとのこと。参考に個人的な見解を述べると、代替候補として挙げられている dayjs はお勧めしない。タイムゾーンのサポートなど多くの場合に必要な機能がプラグインで実現されており、それらプラグインは dayjs オブジェクトにメソッドを実行時に追加したり差し替えたりするので TypeScript や flow の型定義と一致しなくなるためである。結局利用するプラグインを適用したバージョンの型定義ファイルを自分で作る羽目になるのだ。dayjs に限らず TypeScript や flow はプラグイン機構を持った JavaScript ライブラリと相性が悪いので、オールインワンなモジュールを採用する方が良い。代替候補の中では最初に挙がっている Luxon が無難である。20年来の銀英伝ファンからみた今回の揉め事「銀河英雄伝説」という古いスペースオペラ小説を原作とするアニメについて以下のツイートが炎上した件: 銀河英雄伝説のリメイク。3期以降も続くのかな。もしそうなら、男女役割分業の描き方は変更せざるをえない気がする。旧アニメのままだと、さすがに時代にそぐわない。作品として大変に面白いのは踏まえたうえで。…なんてことを書いたら炎上するかな。 — Shotaro TSUDA (@brighthelmer) September 11, 2020どう読んでもただの感想だが、話題がジェンダーかつ発言者の津田正太郎教授の所属が「社会学部」ということで表現の自由戦士の標的にされたもの。「社会学者1が『…