リンク抽出フィルタ † 
- 優先度/需要: 低
- 状態: 完成
- カテゴリー: その他
- 投稿日: 2005-01-05 (水) 11:02:02
メッセージ † 
ページ内のリンクを抽出します。 相対パスは5階層下まで対応。
ただしjavascriptなどで生成されたリンクは抽出出来ません。
2つで1つのフィルタです。 必ずpart1が上になるようにして下さい。
キーボードの Lキー を押しながらページを読みこむと動作します。
[Patterns]
Name = "GET LINKpart1"
Active = TRUE
Multi = TRUE
URL = "$KEYCHK(L)"
Limit = 32767
Match = " *<a(^(^\s))[^>]++\shref=$AV((^mailto:)\0)*</a>"
Replace = "GETLINKAAA\uGETLINKBBB\0GETLINKCCC"
[Patterns]
Name = "GET LINKpart2"
Active = TRUE
URL = "$KEYCHK(L)"
Bounds = "$NEST(GETLINKAAA,GETLINKCCC)"
Limit = 32767
Match = "(*GETLINKBBB((http(s|)|ftp|mms|rtsp|pnm)://*)\0GETLINKCCC|"
"GETLINKAAA(*/)\0[^/]+/[^/]+/[^/]+/[^/]+/[^/]++GETLINKBBB../../../../\1GETLINKCCC|"
"GETLINKAAA(*/)\0[^/]+/[^/]+/[^/]+/[^/]++GETLINKBBB../../../\1GETLINKCCC|"
"GETLINKAAA(*/)\0[^/]+/[^/]+/[^/]++GETLINKBBB../../\1GETLINKCCC|"
"GETLINKAAA(*/)\0[^/]+/[^/]++GETLINKBBB../\1GETLINKCCC|"
"GETLINKAAA(*/)\0[^/]++GETLINKBBB(./|/|)(\1)GETLINKCCC)"
Replace = "<A HREF="\0\1">\0\1</A><BR>\n"