RegEx

Date
2005-03-31 (Thu)
Category
Tech

正規表現わかんな過ぎる!

何がイヤって、見た目にあびる優しくないのがよくないね。scary! やってる事自体は単純なのに。それに POSIX と PCRE とでこんなにもなんというか、表現方法が違うとどうしていいのやら。これこそ Bad know-how の固まりの様な気がするし Good Wrapper 書けると思うけどな。Human-friendly な高級 Regex 言語みたいなのをつくって、出力先を選べるの。もうあったりして。

っていうかやってる事はチョー単純で、そんな事もわかんねぇのかよ、って突っ込まれそうですけど。

改行タグ BR を実際の改行 (new line) に変換して、white space の実体参照を実際の空白 (white space) に変換して、残りの HTML tag はみんな除去、と。最初は日本語など考えなくても良かったので、マニュアルに速いって書いてある preg と strip_tags() でやっていたのだけど、


$dest = preg_replace( "'&(nbsp|#160);'i", " ", $orig);
$dest = strip_tags($orig, '<br>');
$dest = preg_replace( "'<(br)>'i", "<br />", $orig);

日本語を入れると当たり前のようにブッち切ってくれるので、あえなく mb_ereg 系に移行。正確には上と下はやってる事違います。っていうか、違う場所で使ってるんで、当然なんだけど。


$dest = mb_eregi_replace("<br[^>]*>", "¥n", $orig);
$dest = mb_eregi_replace("&nbsp;", " ", $orig);
$dest = mb_ereg_replace("<[^>]*>", "", $orig);

マイノリティなのか、あんまりサンプルコード無いのね。なので今回は自分でマニュアル読みましたよ。時間掛け過ぎだけど…

本格的に正規表現必要っぽくなってきた。がんばんねぇと。。

Comment:0

Comment Form

Remember Me?


Trackback:0

TrackBack URL for this entry
http://blogs.grf-design.com/mt/mt-tb.cgi/66
Listed below are links to weblogs that reference
RegEx from The Croton

Return to Page Top