여러분께 검색 봇 Agent 목록 완성을 부탁합니다! 정보
여러분께 검색 봇 Agent 목록 완성을 부탁합니다!본문
아래는 서버에 들어오는 레퍼러를 체크한 봇 리스트입니다.
인터넷에서 검색해서 붙여넣은 NaverBot, Baiduspider 등등도 포함되 있습니다.
또 한 Java, Wget, linux-gnu 등 용도를 알 수 없는 레퍼러도 크롤러 목록으로 포함 시켰습니다.
각 봇에 대해 한마디씩 해 주시고 빠진 녀석이 있으면 제보 부탁드립니다.
제 서버는 방문자와 크롤링을 분리하여 로그를 쌓아둡니다.
혼자 방문로그를 보고 정리한 거라 많이 부족함을 느낍니다.
앞으로도 크롤링 로그 데이터를 완전히 구분하기 위한 자료입니다.
댓글로 추가하거나, 수정, 삭제를 요청하시면 보고 업데이트를 하겠습니다.
업데이트 자료는 여기 남아서 두루두루 널리 퍼질껍니다!
아래는 제가 사용하고 있는 함수 안에서 체크하는 Agent 목록입니다.
부디 완성 할 수 있게 부탁드려요!
글이 뒤로 밀리면 다른 게시판으로 옮기는 것을 검토해 보겠습니다.
리자언니가 판단해서 옮겨주셔도 괜찮습니닷.
//공통 문자열
bot
Spider
Crawler
Web Crawler
//자체 리스트업
AdnormCrawler
GrapeshotCrawler
CommonCrawler
DomainSONOCrawler
facebookexternalhit
page scorer
Baiduspider
TelegramBot
Googlebot-Mobile
NaverBot
naverbookmarkcrawler
naver-blog ogcrawler
bingbot
Msnbot
daumoa
Daumoa
zum
AhrefsBot
MJ12bot
YandexBot
IP*Works!
LiveCheckSites
psycheclone
WISEnutbot
wisebot
Indy Library
Konqueror
Analyzer
AddThis
kisaBot
Java Browser
proximic
linux-gnu
python
Python
DuckDuckBot
Ask Jeeves/Teoma
//CRAWLERS
008
ABACHOBot
Accoona-AI-Agent
AddSugarSpiderBot
AnyApexBot
Arachmo
B-l-i-t-z-B-O-T
Baiduspider
BecomeBot
BeslistBot
BillyBobBot
Bimbot
Bingbot
BlitzBOT
boitho.com-dc
boitho.com-robot
btbot
CatchBot
Cerberian Drtrs
Charlotte
ConveraCrawler
cosmos
Covario IDS
DataparkSearch
DiamondBot
Discobot
Dotbot
EARTHCOM.info
EmeraldShield.com WebBot
envolk[ITS]spider
EsperanzaBot
Exabot
FAST Enterprise Crawler
FAST-WebCrawler
FDSE robot
FindLinks
FurlBot
FyberSpider
g2crawler
Gaisbot
GalaxyBot
genieBot
Gigabot
Girafabot
Googlebot
Googlebot-Image
GurujiBot
HappyFunBot
hl_ftien_spider
Holmes
htdig
iaskspider
ia_archiver
iCCrawler
ichiro
igdeSpyder
IRLbot
IssueCrawler
Jaxified Bot
Jyxobot
KoepaBot
L.webis
LapozzBot
Larbin
LDSpider
LexxeBot
Linguee Bot
LinkWalker
lmspider
lwp-trivial
mabontland
magpie-crawler
Mediapartners-Google
MJ12bot
MLBot
Mnogosearch
mogimogi
MojeekBot
Moreoverbot
Morning Paper
msnbot
MSRBot
MVAClient
mxbot
NetResearchServer
NetSeer Crawler
NewsGator
NG-Search
nicebot
noxtrumbot
Nusearch Spider
NutchCVS
Nymesis
obot
oegp
omgilibot
OmniExplorer_Bot
OOZBOT
Orbiter
PageBitesHyperBot
Peew
polybot
Pompos
PostPost
Psbot
PycURL
Qseero
Radian6
RAMPyBot
RufusBot
SandCrawler
SBIder
ScoutJet
Scrubby
SearchSight
Seekbot
semanticdiscovery
Sensis Web Crawler
SEOChat::Bot
SeznamBot
Shim-Crawler
ShopWiki
Shoula robot
silk
Sitebot
Snappy
sogou spider
Sosospider
Speedy Spider
Sqworm
StackRambler
suggybot
SurveyBot
SynooBot
Teoma
TerrawizBot
TheSuBot
Thumbnail.CZ robot
TinEye
truwoGPS
TurnitinBot
TweetedTimes Bot
TwengaBot
updated
Urlfilebot
Vagabondo
VoilaBot
Vortex
voyager
VYU2
webcollage
Websquash.com
wf84
WoFindeIch Robot
WomlpeFactory
Xaldon_WebSpider
yacy
Yahoo! Slurp
Yahoo! Slurp China
YahooSeeker
YahooSeeker-Testing
YandexBot
YandexImages
YandexMetrika
Yasaklibot
Yeti
YodaoBot
yoogliFetchAgent
YoudaoBot
Zao
Zealbot
zspider
ZyBorg
//OFFLINE BROWSERS
Offline Explorer
SuperBot
Web Downloader
WebCopier
WebZIP
Wget
//E-MAIL CLIENTS
Thunderbird
//LINK CHECKERS
AbiLogicBot
Link Valet
Link Validity Check
LinkExaminer
LinksManager.com_bot
Mojoo Robot
Notifixious
online link validator
Ploetz + Zeller
Reciprocal Link System PRO
REL Link Checker Lite
SiteBar
Vivante Link Checker
W3C-checklink
Xenu Link Sleuth
//E-MAIL COLLECTORS
EmailSiphon
//VALIDATORS
CSE HTML Validator
CSSCheck
Cynthia
HTMLParser
P3P Validator
W3C_CSS_Validator_JFouffa
W3C_Validator
WDG_Validator
//FEED READERS
Awasu
Bloglines
everyfeed-spider
FeedFetcher-Google
GreatNews
Gregarius
MagpieRSS
NFReader
UniversalFeedParser
//LIBRARIES
BinGet
cURL
Java
libwww-perl
Microsoft URL Control
Peach
PHP
pxyscand
PycURL
Python-urllib
//CLOUD PLATFORMS
AppEngine-Google
//OTHERS
!Susie
Amaya
Cocoal.icio.us
DomainsDB.net MetaCrawler
gPodder
GSiteCrawler
iTunes
lftp
MetaURI
MT-NewsWatcher
Nitro PDF
Snoopy
URD-MAGPIE
WebCapture
Windows-Media-Player
부디 완성 할 수 있게 부탁드려요!
0
댓글 10개
참고하세요