スキップしてメイン コンテンツに移動

Perl 5 to 6 - 正規表現の逆襲

これはMoritz Lenz氏のWebサイトPerlgeek.deで公開されているブログ記事"Perl 5 to 6" Lesson 19 - Regexes strike backの日本語訳です。

原文はCreative Commons Attribution 3.0 Germanyに基づいて公開されています。

本エントリにはCreative Commons Attribution 3.0 Unportedを適用します。

Original text: Copyright© 2008-2010 Moritz Lenz

Japanese translation: Copyright© 2011 SATOH Koichi

NAME

"Perl 5 to 6" Lesson 19 - 正規表現の逆襲

SYNOPSIS

# 通常のマッチング:
if 'abc' ~~ m/../ {
    say $/;                 # ab
}

# 暗黙的な:sigspace修飾子を使ったマッチング
if 'ab cd ef'  ~~ mm/ (..) ** 2 / {
    say $1;                 # cd
}

# :sigspace修飾子を使った文字列置換
my $x = "abc     defg";
$x ~~ ss/c d/x y/;
say $x;                     # abx     yefg

DESCRIPTION

正規表現の基本はLesson 07で既に述べたので、役に立つ(が体系立っていない)内容をいくらか補足します。

マッチング

正規表現マッチングのためにグラマーを書かないといけない訳ではなく、昔ながらのm/.../はまだ動きます。 新しい兄弟分としてmm/.../形式があり、:sigspace修飾子を暗黙的に有効にします。これは正規表現中の空白を<.ws>ルールで置換するものだったことを思い出して下さい。

このルールのデフォルトは、2つの単語文字で囲まれている(つまりそれぞれが\wにマッチする)場合は\s+にマッチし、さもなくば\s*にマッチします。

文字列置換において:samespace修飾子は<ws>ルールにマッチした空白を保存します。 同様に:samecase及び短縮形の:ii(:iの親戚だからです)修飾子は大文字小文字の違いを保存します。

my $x = 'Abcd';
$x ~~ s:ii/^../foo/;
say $x;                     # Foocd
$x = 'ABC'
$x ~~ s:ii/^../foo/;
say $x                      # FOO

これはモジュールFooをすべてBarに改名したいけれど、例えば環境変数がすべて大文字で書かれているときに非常に便利です。:ii修飾子が大文字小文字の違いを自動で保存してくれます。

これは大文字か小文字かという情報を文字毎にコピーしますが、より頭の良いバージョンもあります; :sigspace(短縮形は:s)修飾子と一緒に使うと、大文字小文字のパターンをソース文字列から探します。 .lc.uc.lc.ucfirstuc.lcfirstlc.capitalize(Str.capitalizeは各単語の最初の文字を大文字にするメソッド)が認識されます。このようなパターンを見つけると置換後の文字列にも適用します。

my $x = 'The Quick Brown Fox';
$x ~~ s :s :ii /brown.*/perl 6 developer/;
# $xは'The Quick Perl 6 Developer'

選択肢

選択肢は相変わらず|で表現されますが、Perl5とは違った意味になります。 選択肢を順番にマッチングしていって最初にマッチしたものを取るのではなく、全選択肢を並列にマッチングして最長一致のものを取ります。

'aaaa' ~~ m/ a | aaa | aa /;
say $/                          # aaa

つまらない変更に見えるかも知れませんがこれは広範囲に影響し、また拡張性のあるグラマーにとって極めて重要です。 Perl6はグラマーを使って解析されるので、++$a++が2つのprefix:<+>トークンではなく1つのトークンとして解析されるのはこのためです。

順番にマッチングする古い方式は||で利用できます:

grammar Math::Expression {
    token value {
        | <number>
        | '(' 
          <expression> 
          [ ')' || { fail("Parenthesis not closed") } ]
    }
    ...
}

{ ... }はクロージャを実行し、その中でのfailの呼び出しは式を失敗させます。 この枝は前のマッチング(ここでは')')が失敗したときだけ呼び出されることが保証されているので、解析中に役立つエラーメッセージを出すのに使えます。

選択肢を書く方法は他にもあり、例えば配列を「展開」すると要素の選択肢としてマッチさせることができます:

$_ = '12 oranges';
my @fruits = <apple organge banana kiwi>;
if m:i:s/ (\d+) (@fruits)s? / {
    say "You've got $0 $1, I've got { $0 + 2 } of them. You lost.";
}

自動的に最長一致にマッチする選択肢の構築方法がもう1つあります: 多重正規表現です。 これはmulti token nameのように書かれるか、protoを使って次のように書かれます:

grammar Perl {
    ...
    proto token sigil { ... }
    token sigil:sym<$> { <sym> }
    token sigil:sym<@> { <sym> }
    token sigil:sym<%> { <sym> }
    ...
    token variable { <sigil> <twigil>? <identifier> }
}

この例はsigilという多重トークンを表しており、これはsymでパラメータ化されています。 短い名前、つまりsigilが使われた場合は全トークンを選択肢としてマッチします。 選択肢を書くのにこれは非常に面倒くさいと思うかも知れませんが、これには'$'|'@'|'%'と書くのに比べてとても大きな利点があります: 多重正規表現は容易に拡張可能です。

grammar AddASigil is Perl {
    token sigil:sym<!> { <sym> }
}
# わあ、新しいシジルを持ったPerl6グラマーができたぞ!

さらに、既存の選択肢を上書きすることもできます:

grammar WeirdSigil is Perl {
    token sigil:sym<$> { '°' }
}

このグラマーではスカラーのシジルは°なので、このグラマーはシジルを探すときは毎回$の代わりに°を探索しますが、コンパイラにはそれにマッチした正規表現がsigil:sym<$>であることが分かります。

次のレッスンでは実際の、Rakudoで動作するグラマーをお見せしましょう。

コメント

このブログの人気の投稿

部分継続チュートリアル

この文書についてこれはCommunity Scheme Wikiで公開されているcomposable-continuations-tutorial(2010年09月30日版)の日本語訳です。誤字脱字・誤訳などがありましたらコメントあるいはメールで御指摘いただけると幸いです。本訳は原文のライセンスに基づきCreative Commons Attribution-ShareAlike 2.0 Genericの下で公開されます。Original text: Copyright© 2006-2010 Community Scheme WikiJapanese translation: Copyright© 2011 SATOH Koichi本文部分継続(Composable continuation)は継続区間を具象化することで制御を逆転させるものです。 ウンザリするほど複雑な概念を表す長ったらしいジャーゴンのように聞こえますが、実際はそうではありません。今からそれを説明します。resetとshiftという2つのスペシャルフォームを導入するところから始めましょう[1]。 (reset expression)は特別な継続を作るなりスタックに目印を付けるなりしてからexpressionを評価します。簡単に言えば、expressionが評価されるとき、あとから参照できる評価中の情報が存在するということです。 実際にはshiftがこの情報を参照します。(shift variable expression)は目印のついた場所、つまりresetを使った場所にジャンプし、その場所からshiftを呼び出した場所までのプログラムの断片を保存します; これはプログラムの区間を「部分継続」として知られる組み合わせ可能な手続きに具象化し、この手続きにvariableを束縛してからexpressionを評価します。組み合わせ可能(Composable)という語はその手続きが呼び出し元に戻ってくるため、他の手続きと組み合わせられることから来ています。 Composable continuationの別名として例えば限定継続(Delimited continuation)や部分継続(Partial continuation)もありますが、ここでは一貫して「組み合わせ可能」という用語を使います(訳注: …

多分週刊チラシの裏 (Sep 21-27, 2020)

Killed by MozillaMozilla がディスコンにした製品およびサービスのリスト。COVID-19 パンデミックで収入が激減し全社の四分の一にあたる従業員の解雇と収益を得られる製品への集中に踏み切った Mozilla Corp. の最初の犠牲はノートアプリ Firefox Notes とファイル送信サービス Firefox Send となった。過去には第三のモバイル OS を目指した Firefox OS とか Mac ネイティブな Gecko ベースブラウザ Camino など懐かしい名前も見られる。ちなみに元ネタは Google が終了したサービスをリストしている Killed by Google で、こちらは 2020 年 9 月 26 日現在 205 個の製品とサービスが挙がっている。Firefox 81.0 リリースノートMozilla Firefox 81.0 が Release チャンネルに公開された。最大の新機能はメディア再生のキーボードないしヘッドセットからの制御である。要はバックグランドで再生している YouTube タブを AirPods から一時停止できるようになった。Developer Tools における色覚異常シミュレーションの改善やブラウザ標準 audio/video 要素のアクセシビリティ改善なども含まれている。Facebook が自社プラットフォーム上での複数国による組織的政治工作を認識しながら放置していたFacebook が大量の偽アカウントを動員した政治工作を認識していながら、特に小国のそれに対して対策を放棄していたという内部告発。元 Facebook のデータ科学者である Sophie Zhang 氏の告発によれば、ホンジュラスで大統領派の工作が行われていることを氏が報告してから実際に対策が為されるまでに 9 ヶ月、アゼルバイジャンでの与党の工作を同様に報告してから組織的な調査が始まるまでに実に 1 年を要したという。本来この手の濫用に対応するはずの専任チームは濫用の圧倒的な割合を占めるスパム対応にかかりきりで、政治工作については対象が合衆国か西欧である場合を除いて積極的に行動せず、小国の民主主義は Zhang 氏の空き時間を利用した片手間の対応にかかっていたとのこと。Rust じゃダメな理由近年人気が出てい…

多分週刊チラシの裏 (Oct 12 - 18, 2020)

プログラミング言語のエネルギィ効率性おなじみ Computer Language Benchmark Game にある言語のうちプロプライエタリな Smalltalk を除く 27 言語の、時間効率性と空間効率性に加えて「エネルギィ効率性」を検証したという研究。結果は大方の予想を外れない (コンパイラ言語 - VM 言語 - インタプリタ言語の序列) のだが、言語毎によって単位時間あたりのエネルギィ効率 (換言すると CPU 最適化性能) が異なるので「速ければより省エネ」とは必ずしも言えないことや、最大メモリ消費量は言語のパラダイムによって大方が決まり、エネルギィ効率とはほとんど相関がない (ので Java でもエネルギィ効率は高い) ことなど面白い事実が見られる。『アメリカのインターネット』の終焉1994 年に Netscape が設立されたとき、世界にはおよそ一億台の PC があり、その半数は合衆国にあった。 WWW はスイスで開発されたしコンピュータは英国の発明だが、インターネットは米国製だった。 米国の企業がその課題を与え、重要な製品とサービスを作り、規制や言論は米国の立場、文化、法が支配した。 (引用者訳)合衆国政府による TikTok 分割騒動に寄せての現在と未来のインターネットの話。今日のインターネットの利用者のうち 80 - 90% は米国外の住人である。中国のスマートフォン台数は米国と欧州を合わせたよりも多く、ソフトウェア・スタートアップの半数はシリコンバレーの外で起きている。テクノロジーは規制産業になったが、その規則はもはや合衆国の一存では決まらないのである。まつもとゆきひろのツイッターを見てRuby使うのをやめようと思ったRuby の原開発者にして「寛大なる就寝独裁官 (BFDL)」の Twitter における言動が差別主義とは言えないまでもマイクロアグレッションに満ちていたので製品としての Ruby にも悪印象がついたという話。不要に攻撃的な人やコミュニティから距離を置く理性は心身の健康のためにも重要である。FTP のフェードアウトChrome をはじめとする Web ブラウザにおいてファイル転送プロトコル (FTP) のサポート終了が迫っていることに寄せて、半世紀に渡ってインターネットの主流であり続けたサービスの歴史の概説。MIT の院…