그누보드 QA - PHP simple html dom parser 크롤링 관련 질문드립니다.

PHP simple html dom parser 크롤링 관련 질문드립니다.

꼴랑2 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

2024.04.02 19:55:14 조회 518 (112.♡.♡.3)

본문

api 사용하지 않고 할 수 있는 유튜브 채널페이지에서 채널이름을 가져오는 걸 알아보고 있는 크롤링이라는 재미있는게 있네요.

https://pikabu.tistory.com/124

에서 알려주는데로 아래와 같이 해보았더니, 엄청 많은 정보를 얻을 수 있었습니다.

아직 구조자체가 어려워서 그러는데, 어떤 값을 주면 채널명을 얻을 수 있을까요??

<?php
$url = "https://www.youtube.com/@syukaworld";
$str = file_get_contents_curl($url);
$html = new simple_html_dom();
$html->load($str);
foreach($html->find("text") as $data){
echo $data;
echo ' ';
}

<?php
function file_get_contents_curl($url){
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 웹 사이트가 https일 때 필요
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
?>

위 페이지 실행시 출력되는 소스 중 일부 : "슈카월드" 를 뽑을 수 있으면 됩니다.

#php

답변 2

마르스컴퍼니 홈페이지 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색 님의 답변

2024-04-02 20:18:21 221.♡.♡.139

foreach($html->find("text") as $data){
echo $data;
echo ' ';
}

→

$title = $html->find('meta[property="og:title"]', 0)->getAttribute('content');
echo $title;

↳ 꼴랑2 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

2024-04-03 01:15:42112.♡.♡.3

감사합니다. 덕분에 채널명, 키워드, 상세설명, 이미지 까지 잘 뽑아 왔습니다.
한가지 아직 안되는게, 구독자 수 인데요, 아래와 같이 하면 에러가 떨어지네요.
어떤식으로 해야할지 궁금합니다.

<yt-formatted-string id="subscriber-count" class="style-scope ytd-c4-tabbed-header-renderer" aria-label="구독자 238만명">구독자 238만명</yt-formatted-string>‧

//$watch = $html->find('yt-formatted-string[id="subscriber-count"]',0)->getAttribute('aria-label'); //에러떨어짐

↳ 마르스컴퍼니 홈페이지 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

2024-04-03 16:45:09221.♡.♡.139

브라우저에서 해당 페이지 소스 원본 기반으로 체크해야 됩니다.
소스 원본에는 <yt-fommated-string ~> 태그는 없습니다.

에러가 난 것도, yt-formatted-string 태그를 찾지 못했다는 의미입니다.

HTML 소스 원본에서는 다음과 같은 텍스트를 찾을 수 있습니다.
"subscriberCountText":{"accessibility":{"accessibilityData":{"label":"구독자 313만명"}}


if (preg_match('/subscriberCountText.*구독자 (.*?)명/', $html->innertext, $matches))
  $s_cnt = '구독자 : ' . $matches[1] . '명';

echo $s_cnt;

꼴랑2 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색 님의 답변

2024-04-16 19:50:05 91.♡.♡.190

마르스컴퍼니님 정말 감사합니다.

답변을 작성하시기 전에 로그인 해주세요.

전체 1,108

로그인

PHP simple html dom parser 크롤링 관련 질문드립니다.

QA

PHP simple html dom parser 크롤링 관련 질문드립니다.

본문

이 질문에 댓글 쓰기 :

답변 2

마르스컴퍼니 홈페이지 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색 님의 답변

↳ 꼴랑2 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

↳ 마르스컴퍼니 홈페이지 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색

꼴랑2 자기소개 전체게시물 회원게시물 회원 질문검색 회원 답변검색 회원 댓글검색 님의 답변

회원로그인