[그누6실서비스]=Uvicorn_server에서 크롤러(crawler)를 차단할 방법을 알고 싶습니다.
본문
Localhost에 아파치(2.4.52)와 그누보드6(6.0.3)실서비스(https://sir.kr/g6_tip?sca=&sfl=wr_subject&stx=%EA%B7%B8%EB%88%846%EC%8B%A4%EC%84%9C%EB%B9%84%EC%8A%A4)를 사용 중입니다.
그누보드6_설치_루트(DocumentRoot)에 robots.txt와 사이트맵(xxx.xml)을 업로드 하였으나,
읽히지 않는군요(https://policy.glitter.kr/qa_php/map_txt.png).
여러모로 노력하였으나, FastAPI 프레임워크를 모른체 범접한 이가
Uvicorn_server에서 크롤러(crawler)를 차단하는 방법을 찾기란 쉽지 않습니다.
- Localhost 정보는 아래와 같습니다.
root@HumanpcNAS:~# uname && uname -r
Linux
6.1.20-efm-standard
.
root@HumanpcNAS:~# python3 -V
Python 3.9.9
.
root@HumanpcNAS:~# cat requirements.txt
.
fastapi>=0.103.2
.
root@HumanpcNAS:~# httpd -v
Server version: Apache/2.4.52 (Unix)
.
= = = 조언 부탁드립니다. = = =
!-->답변 2
몇가지 방법을 응용해서 한번 해보시겠어요..
1. FastAPI 미들웨어로 User-Agent 기반 차단
from fastapi import FastAPI, Request, Response
from starlette.middleware.base import BaseHTTPMiddleware
from starlette.responses import JSONResponse
app = FastAPI()
class BlockCrawlerMiddleware(BaseHTTPMiddleware):
async def dispatch(self, request: Request, call_next):
user_agent = request.headers.get('user-agent', '')
if 'crawler' in user_agent.lower() or 'bot' in user_agent.lower():
return JSONResponse(status_code=403, content={"detail": "Access forbidden: Crawler detected"})
response = await call_next(request)
return response
app.add_middleware(BlockCrawlerMiddleware)
@app.get("/")
def read_root():
return {"message": "Hello, world"}
@app.get("/robots.txt")
def get_robots_txt():
return Response(content="User-agent: *\nDisallow: /", media_type="text/plain")
2. .htaccess 파일 설정 (Apache 서버)
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (crawler|bot) [NC]
RewriteRule ^ - [F,L]
</IfModule>
3. IP 차단
from fastapi import FastAPI, Request, HTTPException
from starlette.middleware.base import BaseHTTPMiddleware
app = FastAPI()
BLOCKED_IPS = ["192.168.0.1", "10.0.0.1"]
class BlockIPMiddleware(BaseHTTPMiddleware):
async def dispatch(self, request: Request, call_next):
client_ip = request.client.host
if client_ip in BLOCKED_IPS:
raise HTTPException(status_code=403, detail="Access forbidden: Your IP is blocked")
response = await call_next(request)
return response
app.add_middleware(BlockIPMiddleware)
@app.get("/")
def read_root():
return {"message": "Hello, world"}
※ 필자는 다음과 같이 해결하였습니다.
== main.py 수정 사항 ==
!. Server의 특정 디렉터리에 robots.txt와 site_map.xml을 두고
static 파일로 그누보드6에 마운트하는 방법을 사용하였다.
!. main.py에 추가된 소스 -
import httpx
import aiohttp
.
from ipaddress import ip_network, ip_address
.
from fastapi.responses import PlainTextResponse, StreamingResponse
from fastapi.staticfiles import StaticFiles
.
.
.
ROBOTS_TXT_PATH = "/mnt/VOL1/hwi/m.robots.txt"
M_GLITTER_SITEMAP_PATH = "/mnt/VOL1/hwi/m.glitter_sitemap.xml"
FAVICON_ICO_PATH = "/mnt/VOL1/hwi/gimg/favicon/favicon.ico"
async def fetch_local_file(path: str, response_class=PlainTextResponse):
if os.path.exists(path):
with open(path, "rb") as file:
content = file.read()
if response_class == PlainTextResponse:
return response_class(content.decode("utf-8", errors="ignore"))
elif response_class == StreamingResponse:
return response_class(iter([content]), media_type="application/octet-stream")
else:
return PlainTextResponse(f"{path} file not found", status_code=404)
@app.get("/robots.txt", include_in_schema=False)
async def robots_txt():
return await fetch_local_file(ROBOTS_TXT_PATH)
@app.get("/m.glitter_sitemap.xml", include_in_schema=False)
async def m_glitter_sitemap():
return await fetch_local_file(M_GLITTER_SITEMAP_PATH)
@app.get("/", response_class=HTMLResponse)
async def read_root():
return """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
</head>
<body>
<h1>그누보드6 본문</h1>
</body>
</html>+
"""
@app.get("/favicon.ico", include_in_schema=False)
async def favicon():
return await fetch_local_file(FAVICON_ICO_PATH, response_class=StreamingResponse)
☆ import 코드 이외의 코드(함수 5개)는 main_middleware 함수의 아래에,
regist_core_middleware(app) 위에; 즉 사이에 놓아야 한다.
☆ /mnt/VOL1/hwi/, /mnt/VOL1/hwi/gimg/favicon/ 이 폴더들은 사용자 특정 폴더임.
-그누보드6은 /mnt/VOL1/base2/에 설치됨.
!. uvicorn server를 재시작 - 사용자를 root로 가정한 명령어 임.
cd <누보드6 설치 디렉토리("/mnt/VOL1/base2")로 변경>
systemctl daemon-reload
python -m venv venv
source venv/bin/activate
uvicorn main:app --reload --host 0.0.0.0 --port 8000
!. http://사용자 IP(DNS)/robots.txt , 이 URL의 실행 확인 -
★ 필자의 "/mnt/VOL1/hwi/m.robots.txt"은 이렇게( https://m.glitter.kr/robots.txt ) 마운트 되었다.
/mnt/VOL1/base2/ ( 그누보드6 )
│ ├── .env
│ ├── api/
│ ├── core/
│ ├── lib/
│ ├── service/
│ ├── venv/
│ ├── . . .
│ └── main.py
│
/mnt/VOL1/hwi/ ( static 파일 디렉터리 )
│ ├── gimg/
│ │ ├── img/
│ │ └── favicon/
│ ├── css/
│ │ ├── glitter.css
│ │ ├── m.glitter_default.css
│ │ ├── . . .
│ │ └── policy.glitter_default.css
│ ├── robots.txt
│ ├── m.robots.txt
│ ├── policy.robots.txt
│ ├── . . .
│ ├── glitter_sitemap.xml
│ ├── m.glitter_sitemap.xml
│ ├── policy.glitter_sitemap.xml
│ └── site_map.xml
│