import re
1. 이메일이 본문에 포함되어 있는지 검사
p = re.compile('.*[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+.*')
2. HTML tag
p = re.compile('.*\<+[a-zA-Z0-9-.]+\>.*')
p = re.compile('\<.+?\>')
3. Hash tag
p = re.compile('\\#([0-9a-zA-Z가-힣]*)')
4. 개체명 추출
p = re.compile('\<.+?:.+?\>')
5. 특수문자 추출
result = re.sub('[^0-9a-zA-Zㄱ-힗]', '', myStr)
6. 괄호 내 문자 포함
\([^)]*(일보|기자|미디어)\)
7. 문서 분리
from pathlib import Path
file_path = Path(file_path)
raw_text = file_path.read_text().strip()
raw_docs = re.split(r"\n\t?\n", raw_text)
m = p.match(input)
bool(m)
'Programming Language > Python' 카테고리의 다른 글
Python 특정 디렉토리 하위 항목 리스트 가져오고 파일 전체 옮기기 (0) | 2019.08.19 |
---|---|
[펌] 도란쓰-뽀마 (Attention is all you need) (0) | 2019.06.28 |
우분투 16.04 python설치 (0) | 2018.12.26 |
Librosa python library로 음성파일 분석하기 (10) | 2018.10.25 |
matplotlib에서 한글이 안써질 때 (0) | 2018.10.24 |