최신 그누보드5 common.lib.php 내의 정규표현식 관련 풀이 (3)
4. function url_auto_link($str)
이것의 원래 의도는 href 나 src 에 들어가있는 url은 제외하고 http|https|ftp|telnet|news|mms 로 시작되는 url 에 링크를 걸어주는 것입니다.
그러나 이것 역시 이전 것과 마찬가지로 앞부분이 정확히 동작하지 않습니다.
[] 은 문자 하나하나 지정하거나 어디에서 어디까지리 라는 범위를 지정하는 용도로 사용됩니다.
그리고 그것이 포함되지 않는 그 이외의 문자를 표현할때는 [^] 형태와 같이 사용되어집니다.
즉, 문자열을 [] 속에 지정하는 것이 아닙니다.
그리고 [] 속에서는 정규식에서 의미있는 메타 문자라 할지라도 모두 일반문자와 같이 취급됩니다.
일반 문자로 취급되기때문에 정규식 전체를 묶는 " 나 [] 를 제외하고는 \(에스케이프)를 사용하지 않습니다.
결국,
[^(HREF=\"?'?)|(SRC=\"?'?)] 은
[^()=\"'?hrefsrc] 같은 의미가 됩니다.
따라서, href 나 src 가 없을 경우에 매치할려고 하면
[^(HREF=\"?'?)|(SRC=\"?'?)] 이렇게 하는 것이 아니라
(((href|src)\s*=\s*(\"|'|)){0}) 와 같이 사용하여야 합니다.
[a-zA-Z0-9\.-]+ 도메인(서브도메인포함)으로 올수 있는 문자가 하나 이상 있다는 의미입니다.
사실, 도메인이 한자로 이루어 질수 없기 때문에 + 대신에 {4,} 이런식으로 네자 이상이라고 붙여 주는것이 더 좋을것 같습니다.
a.co 라고 해도 4자가 되니까 말입니다.
[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+
이부분은 도메인을 제외한 url 부분에 올수 있는 문자들을 나열하고
그것이 하나 이상인것을 의미합니다.
그러나 이부분 역시 검색어 stx=<> 나 다른 특수문자를 걸었을수도 있기 때문에 딱 맞다고는 할수 없습니다.
그리고, 완벽하게 패턴을 만들수도 없는 부분입니다.
원래 원하는 패턴이 href 나 src 와 붙지 않은 모든 url 이니.....
와 같은 패턴을 제안할수 있습니다.
(다음에 ?: 은 () 은 서브패턴으로 이것은 모두 순서대로 매치된것이 번호가 매겨지는데,
?: 을 사용함으로 해서 그부분은 번호로 매기지 않게 됩니다.
따라서 원래 \\5 로 쓰여야 하지만 \\1 로 쓴것입니다.
이메일은 아이디@도메인 이므로
@를 기준으로 앞부분은 아이디에 대한 패턴이고
뒷부분은 도메인에 대한 패턴입니다.
아이디 부분에 . 이 들어갈 일이 있는지는 모르겟지만
아이디 부분의 패턴은 [0-9a-z_-]+ 정도로 하면 될것 같고,
도메인부분은 [a-z0-9._-]{4,} 정도로 하면 될것 같습니다.
따라서
\\0 은 서브패턴으로 지정된 부분 말고 전체 패턴에 매치되는 부분을 뜻합니다.
이것은 이전에도 나왓듯이 단순 문자열 치환의 반복이므로
$str = preg_replace("/([^(HREF=\"?'?)|(SRC=\"?'?)]|\(|^)((http|https|ftp|telnet|news|mms):\/\/[a-zA-Z0-9\.-]+\.[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+)/i", "\\1<A HREF=\"\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);
이것의 원래 의도는 href 나 src 에 들어가있는 url은 제외하고 http|https|ftp|telnet|news|mms 로 시작되는 url 에 링크를 걸어주는 것입니다.
그러나 이것 역시 이전 것과 마찬가지로 앞부분이 정확히 동작하지 않습니다.
[] 은 문자 하나하나 지정하거나 어디에서 어디까지리 라는 범위를 지정하는 용도로 사용됩니다.
그리고 그것이 포함되지 않는 그 이외의 문자를 표현할때는 [^] 형태와 같이 사용되어집니다.
즉, 문자열을 [] 속에 지정하는 것이 아닙니다.
그리고 [] 속에서는 정규식에서 의미있는 메타 문자라 할지라도 모두 일반문자와 같이 취급됩니다.
일반 문자로 취급되기때문에 정규식 전체를 묶는 " 나 [] 를 제외하고는 \(에스케이프)를 사용하지 않습니다.
결국,
[^(HREF=\"?'?)|(SRC=\"?'?)] 은
[^()=\"'?hrefsrc] 같은 의미가 됩니다.
따라서, href 나 src 가 없을 경우에 매치할려고 하면
[^(HREF=\"?'?)|(SRC=\"?'?)] 이렇게 하는 것이 아니라
(((href|src)\s*=\s*(\"|'|)){0}) 와 같이 사용하여야 합니다.
[a-zA-Z0-9\.-]+ 도메인(서브도메인포함)으로 올수 있는 문자가 하나 이상 있다는 의미입니다.
사실, 도메인이 한자로 이루어 질수 없기 때문에 + 대신에 {4,} 이런식으로 네자 이상이라고 붙여 주는것이 더 좋을것 같습니다.
a.co 라고 해도 4자가 되니까 말입니다.
[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+
이부분은 도메인을 제외한 url 부분에 올수 있는 문자들을 나열하고
그것이 하나 이상인것을 의미합니다.
그러나 이부분 역시 검색어 stx=<> 나 다른 특수문자를 걸었을수도 있기 때문에 딱 맞다고는 할수 없습니다.
그리고, 완벽하게 패턴을 만들수도 없는 부분입니다.
원래 원하는 패턴이 href 나 src 와 붙지 않은 모든 url 이니.....
$str = preg_replace("`(?:(?:(?:href|src)\s*=\s*(?:\"|'|)){0})((http|https|ftp|telnet|news|mms)://[^\"'\s()]+)`", "<A HREF=\"\\1\" TARGET='{$config['cf_link_target']}'>\\1</A>", $str);
와 같은 패턴을 제안할수 있습니다.
(다음에 ?: 은 () 은 서브패턴으로 이것은 모두 순서대로 매치된것이 번호가 매겨지는데,
?: 을 사용함으로 해서 그부분은 번호로 매기지 않게 됩니다.
따라서 원래 \\5 로 쓰여야 하지만 \\1 로 쓴것입니다.
$str = preg_replace("/([0-9a-z]([-_\.]?[0-9a-z])*@[0-9a-z]([-_\.]?[0-9a-z])*\.[a-z]{2,4})/i", "<a href='mailto:\\1'>\\1</a>", $str);이것은 이메일이 발견 되면 이메일 링크로 치환 해주는 것입니다.
이메일은 아이디@도메인 이므로
@를 기준으로 앞부분은 아이디에 대한 패턴이고
뒷부분은 도메인에 대한 패턴입니다.
아이디 부분에 . 이 들어갈 일이 있는지는 모르겟지만
아이디 부분의 패턴은 [0-9a-z_-]+ 정도로 하면 될것 같고,
도메인부분은 [a-z0-9._-]{4,} 정도로 하면 될것 같습니다.
따라서
$str = preg_replace("/[0-9a-z_-]+@[a-z0-9._-]{4,}/i", "<a href='mailto:\\0'>\\0</a>", $str);정도로 제안 할수 있습니다.
\\0 은 서브패턴으로 지정된 부분 말고 전체 패턴에 매치되는 부분을 뜻합니다.
$str = preg_replace("/\t_nbsp_\t/", " " , $str);
$str = preg_replace("/\t_lt_\t/", "<", $str);
$str = preg_replace("/\t_gt_\t/", ">", $str);
이것은 이전에도 나왓듯이 단순 문자열 치환의 반복이므로
$str = str_replace(array(), araay(), $str);형태로 사용하는 좋습니다.
|
댓글을 작성하시려면 로그인이 필요합니다.
로그인
프로그램
태그 필터 (최대 3개)
전체
개발자
소스
기타
mysql
팁자료실
javascript
php
linux
flash
정규표현식
jquery
node.js
mobile
웹서버
os
프로그램
강좌
썸네일
이미지관련
도로명주소
그누보드5
기획자
견적서
계약서
기획서
마케팅
제안서
seo
통계
서식
통계자료
퍼블리셔
html
css
반응형
웹접근성
퍼블리싱
표준화
반응형웹
홈페이지기초
부트스트랩
angularjs
포럼
스크린리더
센스리더
개발자톡
개발자팁
퍼블리셔톡
퍼블리셔팁
기획자톡
기획자팁
프로그램강좌
퍼블리싱강좌
댓글 7개
"<", ">" 이두개가 < > 로 변환 되어 버리네요
common.lib.php 소스와 비교해서 보시는게 좋을듯 합니다.
나중에 시간내서 정말 이 강좌를 꼼꼼히 봐야하는데 말입니다..
감사합니다.
정규식에 너무 약한데 위토즈님 글대로 꿀같은 강좌입니다
감사합니다 :)