본문 바로가기

Programming Language/Python

정규표현식 모음

import re

 

1. 이메일이 본문에 포함되어 있는지 검사

p = re.compile('.*[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+.*')

 

2. HTML tag 

p = re.compile('.*\<+[a-zA-Z0-9-.]+\>.*')

p = re.compile('\<.+?\>') 

 

3. Hash tag

p = re.compile('\\#([0-9a-zA-Z가-힣]*)')

 

4. 개체명 추출

p = re.compile('\<.+?:.+?\>')

 

5. 특수문자 추출

result = re.sub('[^0-9a-zA-Zㄱ-힗]', '', myStr)

 

6. 괄호 내 문자 포함

\([^)]*(일보|기자|미디어)\)

7. 문서 분리

from pathlib import Path

file_path = Path(file_path)

raw_text = file_path.read_text().strip()
raw_docs = re.split(r"\n\t?\n", raw_text)

 

m = p.match(input)

bool(m)