생각없이 수집한 게시물이 2만6천여개.. > 자유게시판

자유게시판

생각없이 수집한 게시물이 2만6천여개.. 정보

생각없이 수집한 게시물이 2만6천여개..

본문

데모 홈페이지를 만들어 놓고 내용이 없어서 

아 귀찮아 해서 파싱을 해놓았는데 해놓고 잊어버리고있었음...

 

한 3-4개월 된듯한데요.. 서버에 용량이 급작스럽게 줄어들어서 보니...

2만 6천여개의 게시물이 파싱되어있네요 원본 이미지와 썸네일만 105기가 ㄷㄷㄷ

 

2e2981522786f0a1bdfce37733942903_1493785308_5022.png
 

 

500개씩 지우고있는데 500개 한꺼번에 지우는데 5분정도 걸리네요 ㅠㅠ;

모니터 한켠에 켜놓고 생각날때마다 지우는 중인데..

한 일주일 됐나 이제 1만9천여개(80기가)까지 내려왔네요 

 

2e2981522786f0a1bdfce37733942903_1493785353_0772.png

 

2e2981522786f0a1bdfce37733942903_1493786027_3742.png
 

 

어느세월에 다지우나... 이럴때는 이미지나 썸네일이 

게시판별로 있었으면 좋겠다 생각 한다는... ^^;

 

다들 즐거운 휴일 보내고 계신건가요? ㅎ

 

PS. 수집게시물이 레이싱걸과 여자연예인 쪽이었는데요 ..

지우면서 가끔 게시물을 보는데 지우면서도 아 안지우고싶은 게시물이 많은? 음? ㅋㅋ

 

안지우고 싶은 게시물 예제샘플을 올리자면 ㅋㅋ

제목과 내용 관련성이 ㅎㅎ

 

제목 : 이제 곧 여름이 오네요 건강한 여름나기

내용 : 건강하세요

 

2e2981522786f0a1bdfce37733942903_1493785869_6637.png
2e2981522786f0a1bdfce37733942903_1493785869_7512.png
 

이글을 몇몇분(묵*님, 지*아빠님,리*님등....)이 격하게 공감,,,, 추천 ,,,,

 

 

.. 아....아닙니다.

 

장나라가 부릅니다 

나도 남자랍니다 ^^;

 

추천
0

댓글 5개

컴퓨터 과학에서 파싱((syntactic) parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.

컴퓨팅에서 파서(parser)는 인터프리터나 컴파일러의 구성 요소 가운데 하나로, 입력 토큰에 내재된 자료 구조를 빌드하고 문법을 검사한다. 파서는 일련의 입력 문자로부터 토큰을 만들기 위해 별도의 낱말 분석기를 이용하기도 한다. 파서는 수작업으로 프로그래밍되며 도구에 의해 (일부 프로그래밍 언어에서) (반)자동적으로 만들어질 수 있다.
파싱이 무슨말인지 궁금해서 찾아보았는데, 또 이상한 파스 트리도 나오고 그러네요ㅋ
머리아파서 머리에 파스붙여야할듯.ㅋ
저같은 경우 휘발성으로 수집 하고 db를 클론 시켜서 대략 10만~100만으로 db를 세팅 해둡니다.

써먹을곳은 없다는게... ㅋㅋ
페이지당 목록을 1,500개로 설정하는 것 까지는 해봤는데, 5,000개로 설정하는 것은 무리가 있을런지 ...

파싱, 크롤러,  scrapy 공부하다 어려워서 잊고 있었는데, 소스 오픈된 것이 있는지 다시 알아봐야겠습니다.
전체 199,640 |RSS
자유게시판 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1402호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT