간단한 파싱에 관련 문의 드려도 되나요?

간단한 파싱에 관련 문의 드려도 되나요?

QA

간단한 파싱에 관련 문의 드려도 되나요?

본문


 
    // 1번 시작
    <tr>
     <td class="no">1(추출)</td>
     <td><a href="/item/main.php?code=9106(추출)" class="tltle">오랜지(추출)</a></td>
     <td class="number">5,400</td>
     <td class="number">
    <img src="" width="7" height="6" style="margin-right:4px;" alt="상승(추출)">
    <span class="tah p11 red02">1,150(추출)</span>
   </td>
     <td class="number">
    <span class="tah p11 red01">2.06(추출)</span>
   </td>
     <td class="number">9,823,920(추출)</td>
     <td class="number">9,390(추출)</td>
     <td class="number">9,400(추출)</td>
   
     <td class="number">90,322(추출)</td>
   
     <td class="number">93,376(추출)</td>
     <td class="number">-999.42(추출)</td>
   
     <td class="number">-2999.57(추출)</td>
    </tr>
    //1번 종료 2...3..4.. 10까지 추출해야되요..
그럼 2번 시작은
    // 2번 시작
    <tr>
     <td class="no">2(추출)</td>
     .............
    </tr>
    //2번 종료 2...3..4.. 10까지 추출해야되요..
기존에 스누피 클레스 사용하고 있습니다.
function fnc_Exchange(){
   $mUrl = "http://가져올 주소.com";
   $ch   = curl_init();
   curl_setopt($ch, CURLOPT_URL, $mUrl);
   curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
   $mHtml = curl_exec($ch);
   curl_close ($ch);
   $mHtml = strip_tags($mHtml);
   $mHtml = str_replace(chr(9),"",$mHtml);
   $mHtml = str_replace(" ","",$mHtml);
   $mHtml = trim($mHtml);
   $mHtml = explode("\n",$mHtml);
   return $mHtml;
}
$maa = fnc_Exchange();
print_r($maa);
 

가끔 추가된 내용이 있으면 값이 틀어져서 사용할 수가 없어서 고수님게 부탁을 드려 봅니다.

스누피 기준으로 설명 해주셔도 됩니다.

아는게 없어서 찾아서 위 소스 사용하고 있습니다.

 

php.net/manual/en/function.preg-match-all.php

 

위 부분을 봐도 잘 이해가 되지 않아서 도움을 부탁 드립니다.

 

이 질문에 댓글 쓰기 :

답변 3

http://php.net/manual/kr/function.preg-match-all.php

한글로 읽어보세요.

이해가 안된다면 기본 지식이 없어서 그런겁니다.

정규식과 같은 부분을 알고 있어야 합니다.



<?php
//Snoopy.class.php를 불러옵니다
require($_SERVER['DOCUMENT_ROOT'].'/snoopy/Snoopy.class.php');
 
//스누피를 생성해줍시다
$snoopy = new Snoopy;
 
//스누피의 fetch함수로 제 웹페이지를 긁어볼까요? :)
$snoopy->fetch('http://finance.naver.com/sise/sise_rise.nhn?sosok=0');
 
//결과는 $snoopy->results에 저장되어 있습니다
//preg_match 정규식을 사용해서 이제 본문인 article 요소만을 추출해보도록 하죠
preg_match('/<td class="no">(.*?)<\/tr>/is', $snoopy->results, $text);
 
//이제 결과를 보면...?
echo $text[1];
?>



원하는 방법을 좀더 쉽게 접근해서 찾았습니다.
이걸 반복적으로 접근하는 방법을 알고 싶습니다.
2, 3, 4 이런식으로,,

채찍(기본지식이 없어서)을 들어주셔서 답을 찾고 이해을 하기 위해서 지금까지 컴터 앞에서 작업 해서 결과를 얻었습니다.

앞으로 질문 하시는 분에게 이렇게 답변해주셔요. 기본 지식이 없어서 그런 거라고,.,,

이곳에 질문은 기본 지식과 정규식을 알고 있어야 질문을 할수 있다고.

감사합니다. (저의 결과물이 당근이라 생각 합니다. )

PHP Simple HTML DOM Parser 를 이용해 보세요.

html 문서에서 DOM 을 이용해서 필요한 값들을 쉽게 가져올 수 있습니다. 

https://sourceforge.net/projects/simplehtmldom/

 


<?php
// Snoopy.class.php를 불러옵니다
require($_SERVER['DOCUMENT_ROOT'].'/snoopy/Snoopy.class.php');
// 스누피를 생성해줍시다
$snoopy = new Snoopy;
 
// 스누피의 fetch함수로 제 웹페이지를 긁어볼까요? :)
$snoopy->fetch('http://finance.naver.com/sise/sise_rise.nhn?sosok=0');
// $snoopy->proxy_host = "프록시서버";
// $snoopy->proxy_port = "프록시 서버 포트번호"; // 8080
// set browser and referer:
// $snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
// $snoopy->referer = "http://www.jonasjohn.de/";
// 스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.
// 사이트에서 사용하는 세션변수를 찾아내야한다. 사실 세션변수라기 보다 쿠키값이다.
// 자바스크립트로 생성해서 쓰는 경우가 많기 때문에 사이트의 소스를 면밀히 관찰하면 대충 세션변수와 넣어야하는 값을 알아 낼 수가 있었다.
// $snoopy->cookies["SessionID"] = 세션값;
// 상대방 로그기록에는 네이버에서 방문한것처럼 보일것이다.
// $snoopy->referer = "naver.com";

// 결과는 $snoopy->results에 저장되어 있습니다
// preg_match 정규식을 사용해서 이제 본문인 article 요소만을 추출해보도록 하죠
$max = 10; // 최대 종목 추출
$i = 1; // 첫번째 부터 추출할 시작
while($i<=$max) // 이 $max 보다 작거나 같을 때 반복합니다.
{
 preg_match("/<td class=\"no\">".$i."(.*?)<\/tr>/is", $snoopy->results, $text); // 종목정보 (이름,현재가...)
 preg_match("/code=(.*?)\" class=\"tltle\">/is", $text[1], $k_code); // 종목코드
// 이제 결과를 보면...?
echo $i." ".$k_code[1];
$kospi = $text[1];
echo $kospi."<br>";
$i++; //i를 1씩 증가합니다.
}
?>

 

답변을 작성하시기 전에 로그인 해주세요.
전체 149
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT