여러분께 검색 봇 Agent 목록 완성을 부탁합니다! > 자유게시판

자유게시판

여러분께 검색 봇 Agent 목록 완성을 부탁합니다! 정보

여러분께 검색 봇 Agent 목록 완성을 부탁합니다!

본문

아래는 서버에 들어오는 레퍼러를 체크한 봇 리스트입니다.

인터넷에서 검색해서 붙여넣은 NaverBot, Baiduspider 등등도 포함되 있습니다.

또 한 Java, Wget, linux-gnu 등 용도를 알 수 없는 레퍼러도 크롤러 목록으로 포함 시켰습니다. 

각 봇에 대해 한마디씩 해 주시고 빠진 녀석이 있으면 제보 부탁드립니다.

 

제 서버는 방문자와 크롤링을 분리하여 로그를 쌓아둡니다.

혼자 방문로그를 보고 정리한 거라 많이 부족함을 느낍니다. 

앞으로도 크롤링 로그 데이터를 완전히 구분하기 위한 자료입니다.

댓글로 추가하거나, 수정, 삭제를 요청하시면 보고 업데이트를 하겠습니다.

업데이트 자료는 여기 남아서 두루두루 널리 퍼질껍니다! 

 

아래는 제가 사용하고 있는 함수 안에서 체크하는 Agent 목록입니다. 

부디 완성 할 수 있게 부탁드려요!

글이 뒤로 밀리면 다른 게시판으로 옮기는 것을 검토해 보겠습니다.

리자언니가 판단해서 옮겨주셔도 괜찮습니닷. 

 

//공통 문자열

bot

Spider

Crawler

Web Crawler


//자체 리스트업

AdnormCrawler

GrapeshotCrawler

CommonCrawler

DomainSONOCrawler

facebookexternalhit

page scorer

Baiduspider

TelegramBot

Googlebot-Mobile

NaverBot

naverbookmarkcrawler

naver-blog ogcrawler

bingbot

Msnbot

daumoa

Daumoa

zum

AhrefsBot

MJ12bot

YandexBot

IP*Works!

LiveCheckSites

psycheclone

WISEnutbot

wisebot

Indy Library

Konqueror

Analyzer

AddThis

kisaBot

Java Browser

proximic

linux-gnu

python

Python

DuckDuckBot

Ask Jeeves/Teoma



//CRAWLERS

008

ABACHOBot

Accoona-AI-Agent

AddSugarSpiderBot

AnyApexBot

Arachmo

B-l-i-t-z-B-O-T

Baiduspider

BecomeBot

BeslistBot

BillyBobBot

Bimbot

Bingbot

BlitzBOT

boitho.com-dc

boitho.com-robot

btbot

CatchBot

Cerberian Drtrs

Charlotte

ConveraCrawler

cosmos

Covario IDS

DataparkSearch

DiamondBot

Discobot

Dotbot

EARTHCOM.info

EmeraldShield.com WebBot

envolk[ITS]spider

EsperanzaBot

Exabot

FAST Enterprise Crawler

FAST-WebCrawler

FDSE robot

FindLinks

FurlBot

FyberSpider

g2crawler

Gaisbot

GalaxyBot

genieBot

Gigabot

Girafabot

Googlebot

Googlebot-Image

GurujiBot

HappyFunBot

hl_ftien_spider

Holmes

htdig

iaskspider

ia_archiver

iCCrawler

ichiro

igdeSpyder

IRLbot

IssueCrawler

Jaxified Bot

Jyxobot

KoepaBot

L.webis

LapozzBot

Larbin

LDSpider

LexxeBot

Linguee Bot

LinkWalker

lmspider

lwp-trivial

mabontland

magpie-crawler

Mediapartners-Google

MJ12bot

MLBot

Mnogosearch

mogimogi

MojeekBot

Moreoverbot

Morning Paper

msnbot

MSRBot

MVAClient

mxbot

NetResearchServer

NetSeer Crawler

NewsGator

NG-Search

nicebot

noxtrumbot

Nusearch Spider

NutchCVS

Nymesis

obot

oegp

omgilibot

OmniExplorer_Bot

OOZBOT

Orbiter

PageBitesHyperBot

Peew

polybot

Pompos

PostPost

Psbot

PycURL

Qseero

Radian6

RAMPyBot

RufusBot

SandCrawler

SBIder

ScoutJet

Scrubby

SearchSight

Seekbot

semanticdiscovery

Sensis Web Crawler

SEOChat::Bot

SeznamBot

Shim-Crawler

ShopWiki

Shoula robot

silk

Sitebot

Snappy

sogou spider

Sosospider

Speedy Spider

Sqworm

StackRambler

suggybot

SurveyBot

SynooBot

Teoma

TerrawizBot

TheSuBot

Thumbnail.CZ robot

TinEye

truwoGPS

TurnitinBot

TweetedTimes Bot

TwengaBot

updated

Urlfilebot

Vagabondo

VoilaBot

Vortex

voyager

VYU2

webcollage

Websquash.com

wf84

WoFindeIch Robot

WomlpeFactory

Xaldon_WebSpider

yacy

Yahoo! Slurp

Yahoo! Slurp China

YahooSeeker

YahooSeeker-Testing

YandexBot

YandexImages

YandexMetrika

Yasaklibot

Yeti

YodaoBot

yoogliFetchAgent

YoudaoBot

Zao

Zealbot

zspider

ZyBorg


//OFFLINE BROWSERS

Offline Explorer

SuperBot

Web Downloader

WebCopier

WebZIP

Wget


//E-MAIL CLIENTS

Thunderbird


//LINK CHECKERS

AbiLogicBot

Link Valet

Link Validity Check

LinkExaminer

LinksManager.com_bot

Mojoo Robot

Notifixious

online link validator

Ploetz + Zeller

Reciprocal Link System PRO

REL Link Checker Lite

SiteBar

Vivante Link Checker

W3C-checklink

Xenu Link Sleuth


//E-MAIL COLLECTORS

EmailSiphon


//VALIDATORS

CSE HTML Validator

CSSCheck

Cynthia

HTMLParser

P3P Validator

W3C_CSS_Validator_JFouffa

W3C_Validator

WDG_Validator


//FEED READERS

Awasu

Bloglines

everyfeed-spider

FeedFetcher-Google

GreatNews

Gregarius

MagpieRSS

NFReader

UniversalFeedParser


//LIBRARIES

BinGet

cURL

Java

libwww-perl

Microsoft URL Control

Peach

PHP

pxyscand

PycURL

Python-urllib


//CLOUD PLATFORMS

AppEngine-Google


//OTHERS

!Susie

Amaya

Cocoal.icio.us

DomainsDB.net MetaCrawler

gPodder

GSiteCrawler

iTunes

lftp

MetaURI

MT-NewsWatcher

Nitro PDF

Snoopy

URD-MAGPIE

WebCapture

Windows-Media-Player

 

 

부디 완성 할 수 있게 부탁드려요!

 

추천
0

댓글 10개

종결자.......!!! 제가 수집한것과 첫 번째 링크 데이터를 조합해면 충분하겠는데요? 두번째는 긁기 불편해서 패스! 둘 다 풍부해서 하나만 해도 되겠어요!! 시간내서 두번째도 섟어 보겠습니다.!
일단 ceoseo님이 주신 링크 첫 번째와 레퍼러 수집항목을 섟고, 진서기님이 주신 링크에서 몇개 추가했습니다. 현재 데이터만으로도 충분히 만족할만한 수준이네요 ㅎ 감사합니다!
전체 195,300 |RSS
자유게시판 내용 검색

회원로그인

진행중 포인트경매

  1. 참여71 회 시작24.04.19 15:40 종료24.04.26 15:40
(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT