정규표현식 관련 내장함수 preg_match_all > 개발강좌

개발강좌

프로그램 강좌 :
1. 유창화님의 썸네일, 정규표현식, 이미지관련 강좌
2. Sphinx 검색엔진을 이용한 도로명 주소 검색 시스템 구축

정규표현식 관련 내장함수 preg_match_all 정보

정규표현식 정규표현식 관련 내장함수 preg_match_all

본문


대단할것은 없는 강좌이지만,
제 강좌를 출처를 밝히고 외부로 퍼가는 것은 허용하지만,
다른 강좌의 자료나 책의 자료로 사용되거나 부분적인 인용은 허용하지 않습니다.

강좌는 php 5. 대를 기준으로 하며, PCRE (펄과 호환 되는 정규표현식)을 다룹니다.
PCRE 는 preg_ 로 시작되는 내장함수와 함께 사용되어지는 정규표현식을 말합니다.

PCRE > 정규표현식 관련 내장함수 preg_match_all

이전 내용에서는 내장함수 preg_grep 과 preg_match 에 대하여 알아보았습니다.
이번 내용에서는 내장함수 preg_match_all 에 대해서 알아보겠습니다 .

int preg_match_all ( string $pattern , string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0 ]]] )

설명 : 입력받은 문자열이 주어진 패턴과 일치하는 검사, 단, preg_match 와는 다르게 한번만 찾고 마는 것이 아니라 모두 찾습니다.

인자 :
    -> string $pattern : 문자열로 된 정규 표현식 패턴
    -> string $subject : 검사하고자 하는 문자열
    -> array &$matches : 생략 가능하며, 사용시 패턴에 매치되는 내용을 $matches 배열에 담아줌
    -> int $flags : 생략가능하며, PREG_PATTERN_ORDER (1) , PREG_SET_ORDER (2) , PREG_OFFSET_CAPTURE (256) 상수와 같이 사용할수 있으며 생략시 PREG_PATTERN_ORDER 가 기본값
    -> int $offset : 생략가능하며, 검사 시작 지점을 지정할수 있음

결과값 :
    패턴과 매치되는 문자열을 찾았을 때는 전체 매치된 횟수를 반환, 못 찾았을 때는 false 를 반환.
용도 :
    특정 패턴의 문자열이 몇개 존재하는지 여부를 확인 할때나,
    특정 패턴의 문자열을 모두 찾아서 그 문자열을 모두 알고 싶을때 사용합니다
예제25> test25.php

<?

$subject = '
<ul>

<li><a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li>
<li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li>
<li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li>
<li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li>
<li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a></li>            </ul>
';

$pattern = '`<a href="([^>]+)">([^<]+)`'; // 링크와 링크 제목을 뽑음

preg_match_all($pattern, $subject, $matches, PREG_PATTERN_ORDER);

echo "PREG_PATTERN_ORDER 을 사용한 결과 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

preg_match_all($pattern, $subject, $matches, PREG_SET_ORDER);

echo "PREG_SET_ORDER 을 사용한 결과 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

preg_match_all($pattern, $subject, $matches, PREG_OFFSET_CAPTURE);

echo "PREG_OFFSET_CAPTURE 을 사용한 결과 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

?>


결과 :

PREG_PATTERN_ORDER 을 사용한 결과 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
            [1] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실
            [2] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌
            [3] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰
            [4] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인
        )

    [1] => Array
        (
            [0] => ../../bbs/board.php?bo_table=pg_talk
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [2] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [3] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [4] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
        )

    [2] => Array
        (
            [0] => 개발자 토크
            [1] => 개발자 팁자료실
            [2] => 프로그램 강좌
            [3] => 프로그램 의뢰
            [4] => 개발자 구인
        )

)


PREG_SET_ORDER 을 사용한 결과 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
            [1] => ../../bbs/board.php?bo_table=pg_talk
            [2] => 개발자 토크
        )

    [1] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [2] => 개발자 팁자료실
        )

    [2] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌
            [1] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [2] => 프로그램 강좌
        )

    [3] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰
            [1] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [2] => 프로그램 의뢰
        )

    [4] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인
            [1] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
            [2] => 개발자 구인
        )

)


PREG_OFFSET_CAPTURE 을 사용한 결과 $matches : 
Array
(
    [0] => Array
        (
            [0] => Array
                (
                    [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
                    [1] => 14
                )

            [1] => Array
                (
                    [0] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실
                    [1] => 92
                )

            [2] => Array
                (
                    [0] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌
                    [1] => 190
                )

            [3] => Array
                (
                    [0] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰
                    [1] => 290
                )

            [4] => Array
                (
                    [0] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인
                    [1] => 430
                )

        )

    [1] => Array
        (
            [0] => Array
                (
                    [0] => ../../bbs/board.php?bo_table=pg_talk
                    [1] => 23
                )

            [1] => Array
                (
                    [0] => ../../bbs/board.php?bo_table=pg_tip
                    [1] => 101
                )

            [2] => Array
                (
                    [0] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
                    [1] => 199
                )

            [3] => Array
                (
                    [0] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
                    [1] => 299
                )

            [4] => Array
                (
                    [0] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
                    [1] => 439
                )

        )

    [2] => Array
        (
            [0] => Array
                (
                    [0] => 개발자 토크
                    [1] => 61
                )

            [1] => Array
                (
                    [0] => 개발자 팁자료실
                    [1] => 138
                )

            [2] => Array
                (
                    [0] => 프로그램 강좌
                    [1] => 256
                )

            [3] => Array
                (
                    [0] => 프로그램 의뢰
                    [1] => 382
                )

            [4] => Array
                (
                    [0] => 개발자 구인
                    [1] => 510
                )

        )

)

※ 위 테스트 결과에서 알수 있듯이
PREG_PATTERN_ORDER 를 사용하면 () 를 친 순서대로 배열이 담긴다는 것을 알수 있습니다.
[0] 에는 패턴과 일치 하는 전체 문자열,
[1] 에는 첫번째 () 와 일치하는 문자열,
[2] 에는 두번째 () 와 일치하는 문자열이 각각 매치되는 순서대로 저장되는 것을 알수 있습니다.

PREG_SET_ORDER 를 사용하면 괄호 순서대로 배열에 저장하는 것이 아니라,
전체 문자열, 첫번째 문자열, 두번째 문자열을 한 세트로 하여 배열이 저장되는 것을 알수 있습니다.

PREG_OFFSET_CAPTURE 를 사용하면 기본 저장 방식은 PREG_PATTERN_ORDER 와 같되 preg_match 에서와 마찬가지로 해당 매치되는 문자열이 전체 문자열에서 어디서 시작되는지 시작 지점을 같이 배열로 저장되는 것을 알수 있습니다.

네번째인자를 생략 할 경우 PREG_PATTERN_ORDER 와 같습니다. 즉, PREG_PATTERN_ORDER 이 기본값입니다.

※ 유용한 표현 두가지

1. 배열키명 지정 서브패턴
(?P<받을키명>패턴) 와 같은 형태로 쓰이며,
해당 () 안의 정규표현식에 매치되는 문자열은 세번째인자의 배열에 지정된 키명으로 저장하겠다는 뜻입니다.
이렇게 하면 숫자배열키를 기본적으로 사용할때 혼돈될수 있는 부분을 해결할수 있습니다.

2. 특정문자 최대매치 메타문자
문자*?패턴 나 문자+?패턴 와 같이 수량을 나타내는 메타문자 * 나 + 과 ? 의 결합 형태로 쓰이며,
다음 패턴을 최초로 만나기 전까지 바로 앞의 문자가 최대로 매치하도록 지정합니다.
기존 문자* 와 문자+ 와 다른것은 다음패턴을 포함하지 않습니다.


예제26> test26.php

<?

$subject = '
<ul>

<li><a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li>
<li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li>
<li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li>
<li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li>
<li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a></li>            </ul>
';

$pattern = '`<a href="(?<link>[^>]+)">(?<title>[^<]+)`'; // 링크와 링크 제목을 뽑음

preg_match($pattern, $subject, $matches);

echo "preg_match를 사용한 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

preg_match_all($pattern, $subject, $matches);

echo "preg_match_all를 사용한 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

preg_match_all($pattern, $subject, $matches, PREG_SET_ORDER);

echo "preg_match_all 과 PREG_SET_ORDER 를 사용한 \$matches : " . PHP_EOL ;
print_r($matches);

?>


결과 :

preg_match를 사용한 $matches : 
Array
(
    [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
    [link] => ../../bbs/board.php?bo_table=pg_talk
    [1] => ../../bbs/board.php?bo_table=pg_talk
    [title] => 개발자 토크
    [2] => 개발자 토크
)


preg_match_all를 사용한 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
            [1] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실
            [2] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌
            [3] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰
            [4] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인
        )

    [link] => Array
        (
            [0] => ../../bbs/board.php?bo_table=pg_talk
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [2] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [3] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [4] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
        )

    [1] => Array
        (
            [0] => ../../bbs/board.php?bo_table=pg_talk
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [2] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [3] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [4] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
        )

    [title] => Array
        (
            [0] => 개발자 토크
            [1] => 개발자 팁자료실
            [2] => 프로그램 강좌
            [3] => 프로그램 의뢰
            [4] => 개발자 구인
        )

    [2] => Array
        (
            [0] => 개발자 토크
            [1] => 개발자 팁자료실
            [2] => 프로그램 강좌
            [3] => 프로그램 의뢰
            [4] => 개발자 구인
        )

)


preg_match_all 과 PREG_SET_ORDER 를 사용한 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크
            [link] => ../../bbs/board.php?bo_table=pg_talk
            [1] => ../../bbs/board.php?bo_table=pg_talk
            [title] => 개발자 토크
            [2] => 개발자 토크
        )

    [1] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실
            [link] => ../../bbs/board.php?bo_table=pg_tip
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [title] => 개발자 팁자료실
            [2] => 개발자 팁자료실
        )

    [2] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌
            [link] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [1] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [title] => 프로그램 강좌
            [2] => 프로그램 강좌
        )

    [3] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰
            [link] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [1] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [title] => 프로그램 의뢰
            [2] => 프로그램 의뢰
        )

    [4] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인
            [link] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
            [1] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
            [title] => 개발자 구인
            [2] => 개발자 구인
        )

)


예제27> test27.php

<?

//뽑아내고자 하는 내용이 여러개가 붙어있다.
$subject = '<ul><li><a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li><li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li><li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li><li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li><li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a></li>            </ul>';

$pattern = '`<a href="(.+)">(.+)</a>`'; // 링크와 링크 제목을 뽑음, .+ 안에 </a> 도 포함됨

preg_match_all($pattern, $subject, $matches);

echo htmlspecialchars($pattern) . " 을 사용한 \$matches : " . PHP_EOL ;
print_r($matches);
echo PHP_EOL . PHP_EOL ;

$pattern = '`<a href="(.+?)">(.+?)</a>`'; // 링크와 링크 제목을 뽑음, .+ 안에 </a> 가 포함 안됨

preg_match_all($pattern, $subject, $matches);

echo htmlspecialchars($pattern) . " 을 사용한 \$matches : " . PHP_EOL ;
print_r($matches);

?>


결과 :

`<a href="(.+)">(.+)</a>` 을 사용한 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li><li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li><li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li><li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li><li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a>
        )

    [1] => Array
        (
            [0] => ../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li><li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li><li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li><li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li><li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
        )

    [2] => Array
        (
            [0] => 개발자 구인
        )

)


`<a href="(.+?)">(.+?)</a>` 을 사용한 $matches : 
Array
(
    [0] => Array
        (
            [0] => <a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a>
            [1] => <a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a>
            [2] => <a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a>
            [3] => <a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a>
            [4] => <a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a>
        )

    [1] => Array
        (
            [0] => ../../bbs/board.php?bo_table=pg_talk
            [1] => ../../bbs/board.php?bo_table=pg_tip
            [2] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
            [3] => ../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8
            [4] => ../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90
        )

    [2] => Array
        (
            [0] => 개발자 토크
            [1] => 개발자 팁자료실<span>13</span>
            [2] => 프로그램 강좌
            [3] => 프로그램 의뢰<span>9</span>
            [4] => 개발자 구인
        )

)

문제) 위 예제에서 공통적으로 [2] => ../../bbs/board.php?bo_table=pg_lecture" class="lnb_div
와 같이 class 까지 매치되는 부분이 있습니다.
원래 원하는 결과는 순수한 링크 부분 이므로, 위 예제들의 정규표현식을 수정하여
완전한 결과가 되도록 만들어 보십시오.

추천
8

댓글 21개

좋은자료 항상 감사드립니다....^^
빨리 하던일 마무리하고 정독하고 복습도 해야 할텐데......
오늘도 슬쩍 수박 겉할기식으로 보고 갑니다....ㅠㅠ
감사합니다.


$content  = "<ul>
<li><a href="../../bbs/board.php?bo_table=pg_talk">개발자 토크</a></li>
<li><a href="../../bbs/board.php?bo_table=pg_tip">개발자 팁자료실<span>13</span></a></li>
<li><a href="../../bbs/board.php?bo_table=pg_lecture" class="lnb_div">프로그램 강좌</a></li>
<li><a href="../../bbs/board.php?bo_table=request&sca=%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8">프로그램 의뢰<span>9</span></a></li>
<li><a href="../../bbs/board.php?bo_table=guin&sca=%EA%B0%9C%EB%B0%9C%EC%9E%90">개발자 구인</a></li>            </ul>";
일경우 저는

preg_match_all("`<li><a href="(.+)">(.+)</a></li>`iU", $content, $data);
처럼 사용중입니다 ㅎㅎㅎ
전체 53
개발강좌 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT