웹 페이지 파징을 쉽고 빠르게 하는 방법 중 하나는
파이썬의 BeautifulSoup 모듈을 사용하는 것 입니다.
링크 : http://www.crummy.com/software/BeautifulSoup/
Documentation : http://www.crummy.com/software/BeautifulSoup/bs4/doc/
soup.findAll('a',{'class':'class_name'}) 이 함수만 보더라도
충분히 BeautifulSoup 의 강점을 느끼실 수 있을겁니다.
아래는 urllib2 모듈과 BeautifulSoup 모듈을 이용한 간단한 파징 예제 입니다.
from BeautifulSoup import BeautifulSoup import urllib2 url="http://웹페이지 주소" page=urllib2.urlopen(url) soup = BeautifulSoup(page.read()) # 'a' 태그 중에서 class 이름이 class_name 인 element 를 저장 elements=soup.findAll('a',{'class':'class_name'}) for element in elements: print element['href']+","+ element.string
댓글 없음:
댓글 쓰기