Programming Language/Python
정규표현식 모음
바나나인간
2019. 6. 24. 13:16
import re
1. 이메일이 본문에 포함되어 있는지 검사
p = re.compile('.*[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+.*')
2. HTML tag
p = re.compile('.*\<+[a-zA-Z0-9-.]+\>.*')
p = re.compile('\<.+?\>')
3. Hash tag
p = re.compile('\\#([0-9a-zA-Z가-힣]*)')
4. 개체명 추출
p = re.compile('\<.+?:.+?\>')
5. 특수문자 추출
result = re.sub('[^0-9a-zA-Zㄱ-힗]', '', myStr)
6. 괄호 내 문자 포함
\([^)]*(일보|기자|미디어)\)
7. 문서 분리
from pathlib import Path
file_path = Path(file_path)
raw_text = file_path.read_text().strip()
raw_docs = re.split(r"\n\t?\n", raw_text)
m = p.match(input)
bool(m)