간단한 파싱에 관련 문의 드려도 되나요?
본문
// 1번 시작
<tr>
<td class="no">1(추출)</td>
<td><a href="/item/main.php?code=9106(추출)" class="tltle">오랜지(추출)</a></td>
<td class="number">5,400</td>
<td class="number">
<img src="" width="7" height="6" style="margin-right:4px;" alt="상승(추출)">
<span class="tah p11 red02">1,150(추출)</span>
</td>
<td class="number">
<span class="tah p11 red01">2.06(추출)</span>
</td>
<td class="number">9,823,920(추출)</td>
<td class="number">9,390(추출)</td>
<td class="number">9,400(추출)</td>
<td class="number">90,322(추출)</td>
<td class="number">93,376(추출)</td>
<td class="number">-999.42(추출)</td>
<td class="number">-2999.57(추출)</td>
</tr>
//1번 종료 2...3..4.. 10까지 추출해야되요..
그럼 2번 시작은
// 2번 시작
<tr>
<td class="no">2(추출)</td>
.............
</tr>
//2번 종료 2...3..4.. 10까지 추출해야되요..
기존에 스누피 클레스 사용하고 있습니다.
function fnc_Exchange(){
$mUrl = "http://가져올 주소.com";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $mUrl);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$mHtml = curl_exec($ch);
curl_close ($ch);
$mHtml = strip_tags($mHtml);
$mHtml = str_replace(chr(9),"",$mHtml);
$mHtml = str_replace(" ","",$mHtml);
$mHtml = trim($mHtml);
$mHtml = explode("\n",$mHtml);
return $mHtml;
}
$maa = fnc_Exchange();
print_r($maa);
가끔 추가된 내용이 있으면 값이 틀어져서 사용할 수가 없어서 고수님게 부탁을 드려 봅니다.
스누피 기준으로 설명 해주셔도 됩니다.
아는게 없어서 찾아서 위 소스 사용하고 있습니다.
php.net/manual/en/function.preg-match-all.php
위 부분을 봐도 잘 이해가 되지 않아서 도움을 부탁 드립니다.
!-->
답변 3
http://php.net/manual/kr/function.preg-match-all.php
한글로 읽어보세요.
이해가 안된다면 기본 지식이 없어서 그런겁니다.
정규식과 같은 부분을 알고 있어야 합니다.
PHP Simple HTML DOM Parser 를 이용해 보세요.
html 문서에서 DOM 을 이용해서 필요한 값들을 쉽게 가져올 수 있습니다.
https://sourceforge.net/projects/simplehtmldom/
<?php
// Snoopy.class.php를 불러옵니다
require($_SERVER['DOCUMENT_ROOT'].'/snoopy/Snoopy.class.php');
// 스누피를 생성해줍시다
$snoopy = new Snoopy;
// 스누피의 fetch함수로 제 웹페이지를 긁어볼까요? :)
$snoopy->fetch('http://finance.naver.com/sise/sise_rise.nhn?sosok=0');
// $snoopy->proxy_host = "프록시서버";
// $snoopy->proxy_port = "프록시 서버 포트번호"; // 8080
// set browser and referer:
// $snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
// $snoopy->referer = "http://www.jonasjohn.de/";
// 스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.
// 사이트에서 사용하는 세션변수를 찾아내야한다. 사실 세션변수라기 보다 쿠키값이다.
// 자바스크립트로 생성해서 쓰는 경우가 많기 때문에 사이트의 소스를 면밀히 관찰하면 대충 세션변수와 넣어야하는 값을 알아 낼 수가 있었다.
// $snoopy->cookies["SessionID"] = 세션값;
// 상대방 로그기록에는 네이버에서 방문한것처럼 보일것이다.
// $snoopy->referer = "naver.com";
// 결과는 $snoopy->results에 저장되어 있습니다
// preg_match 정규식을 사용해서 이제 본문인 article 요소만을 추출해보도록 하죠
$max = 10; // 최대 종목 추출
$i = 1; // 첫번째 부터 추출할 시작
while($i<=$max) // 이 $max 보다 작거나 같을 때 반복합니다.
{
preg_match("/<td class=\"no\">".$i."(.*?)<\/tr>/is", $snoopy->results, $text); // 종목정보 (이름,현재가...)
preg_match("/code=(.*?)\" class=\"tltle\">/is", $text[1], $k_code); // 종목코드
// 이제 결과를 보면...?
echo $i." ".$k_code[1];
$kospi = $text[1];
echo $kospi."<br>";
$i++; //i를 1씩 증가합니다.
}
?>
!-->
답변을 작성하시기 전에 로그인 해주세요.