RegEx
- Date
- 2005-03-31 (Thu)
- Category
- Tech
正規表現わかんな過ぎる!
何がイヤって、見た目にあびる優しくないのがよくないね。scary! やってる事自体は単純なのに。それに POSIX と PCRE とでこんなにもなんというか、表現方法が違うとどうしていいのやら。これこそ Bad know-how の固まりの様な気がするし Good Wrapper 書けると思うけどな。Human-friendly な高級 Regex 言語みたいなのをつくって、出力先を選べるの。もうあったりして。
っていうかやってる事はチョー単純で、そんな事もわかんねぇのかよ、って突っ込まれそうですけど。
改行タグ BR を実際の改行 (new line) に変換して、white space の実体参照を実際の空白 (white space) に変換して、残りの HTML tag はみんな除去、と。最初は日本語など考えなくても良かったので、マニュアルに速いって書いてある preg と strip_tags() でやっていたのだけど、
$dest = preg_replace( "'&(nbsp|#160);'i", " ", $orig);
$dest = strip_tags($orig, '<br>');
$dest = preg_replace( "'<(br)>'i", "<br />", $orig);
日本語を入れると当たり前のようにブッち切ってくれるので、あえなく mb_ereg 系に移行。正確には上と下はやってる事違います。っていうか、違う場所で使ってるんで、当然なんだけど。
$dest = mb_eregi_replace("<br[^>]*>", "¥n", $orig);
$dest = mb_eregi_replace(" ", " ", $orig);
$dest = mb_ereg_replace("<[^>]*>", "", $orig);
マイノリティなのか、あんまりサンプルコード無いのね。なので今回は自分でマニュアル読みましたよ。時間掛け過ぎだけど…
本格的に正規表現必要っぽくなってきた。がんばんねぇと。。
Comment:0
Trackback:0
- TrackBack URL for this entry
- http://blogs.grf-design.com/mt/mt-tb.cgi/66
- Listed below are links to weblogs that reference
- RegEx from The Croton