GoogleCache, Archive.org などのキャッシュにもマッチさせる Edit

概要
GoogleCache, Archive.org などのキャッシュページの頭の部分にマッチするリスト
URL Match が「www.example.com/」の場合、
www.example.com/ | $LST(cache_prefix)($TST(uesc_url=www.example.com/*)|www.example.com/)」の様に置き換えると、Archive.org や GoogleCache などでもマッチするようになります。
「($LST(cache_prefix)|)www.example.com/ | $TST(uesc_url=www.example.com/*)」でもOK。
テスト用リンク
http://pukiwiki.sourceforge.jp/?cmd=diff&page=FrontPage
http://web.archive.org/*/http://pukiwiki.sourceforge.jp/?cmd=diff&page=FrontPage
http://www.google.co.jp/search?q=cache:http%3A%2F%2Fpukiwiki.sourceforge.jp%2F%3Fcmd%3Ddiff%26page%3DFrontPage
http://megalodon.jp/?url=http%3A%2F%2Fpukiwiki.sourceforge.jp%2F%3Fcmd%3Ddiff%26page%3DFrontPage
[Patterns]
Name = "$LST(cache_prefix) TEST (1/3)"
Active = TRUE
URL = "pukiwiki.sourceforge.jp/\?cmd=diff\&page="
Limit = 256
Match = "<start>"
Replace = "[TEST OK (1/3)]"

Name = "$LST(cache_prefix) TEST (2/3)"
Active = TRUE
URL = "pukiwiki.sourceforge.jp/\?cmd=diff\&page= | $LST(cache_prefix)($TST(uesc_url=pukiwiki.sourceforge.jp/\?cmd=diff\&page=*)|pukiwiki.sourceforge.jp/\?cmd=diff\&page=)"
Limit = 256
Match = "<start>"
Replace = "[TEST OK (2/3)]"

Name = "$LST(cache_prefix) TEST (3/3)"
Active = TRUE
URL = "($LST(cache_prefix)|)pukiwiki.sourceforge.jp/\?cmd=diff\&page= | $TST(uesc_url=pukiwiki.sourceforge.jp/\?cmd=diff\&page=*)"
Limit = 256
Match = "<start>"
Replace = "[TEST OK (3/3)]"

長いURL  Archive.org  GoogleCache  魚拓
2ch  Archive.org  GoogleCache  魚拓
[Blocklists]
List.cache_prefix = "..\Lists\cache_prefix.txt"
#
# cache_prefix.txt  $LST(cache_prefix)
# http://local.ptron/.pinfo/lists/cache_prefix
#
# マッチ欄:URL Match
# 戻り値:グローバル変数 uesc_url
#
# GoogleCache, Archive.org などのキャッシュページの頭の部分
# URL Match が「www.example.com/」の場合、
# 「www.example.com/ | $LST(cache_prefix)($TST(uesc_url=www.example.com/*)|www.example.com/)」の様に置き換えると、Archive.org や GoogleCache などでもマッチするようになります。
# 「($LST(cache_prefix)|)www.example.com/ | $TST(uesc_url=www.example.com/*)」でもOK。


### GoogleCache  勝手にUTF-8に変換している様子
(
  ([^/]++.|)google.co(m|.jp)
  |
  webcache.googleusercontent.com
  |
  [0-9]+.[0-9]+.[0-9]+.[0-9]+
 )/search\?(q|[^#]++\&q)=cache(:|%3A)
  ((^http)[^:]+:|)
  (http(s|)(:|%3A)(/|%2F)+|)   \0&$SET(uesc_url=$UESC(\0))

# [0-9]+.[0-9]+.[0-9]+.[0-9]+ は適当過ぎるので、$LST(GoogleIP) のようにして別のリストにした方が良いかも 参考:http://search.web-sun.com/zatu/data_center.html



### Internet Archive Wayback Machine
## archive.org
web.archive.org/web/[0-9]+/(http(s|)(:|%3A)(/|%2F)+|)

## bibalex.org
web.petabox.bibalex.org/web/[0-9]+/(http(s|)(:|%3A)(/|%2F)+|)



### ウェブ魚拓
megalodon.jp/\?url=http(s|)(:|%3A)(/|%2F)(/|%2F) \0\&date=[0-9]+(^?)  $SET(uesc_url=$UESC(\0))
s[0-9]+.megalodon.jp/[0-9-]+/



複製名前変更