깃허브 오픈소스를 활용하여 네이버 뉴스기사 크롤링하기
2019. 9. 6. 12:50ㆍ크롤링
네이버 기사 프로젝트를 Fork 해서 작업
전부터 네이버 기사를 크롤링해서 데이터베이스에 저장하는 웹 크롤러를 만들어야겠다 생각하고 미루다가 이번에 만들어 보았습니다.
네이버 Open API에 뉴스 검색 api도 있지만 앞으로 개발을 계속해서 하면서 github를 사용할 일이 많아질 거 같아서 github를 많이 이용해보려고 github에 있는 원하는 기능과 유사한 네이버 뉴스&댓글 크롤링 프로젝트가 있어서 해당 소스코드로 작업했습니다.
아직 다른 사람의 프로젝트에 바로 push 할 능력이 안되기 때문에 저장소를 제 저장소로 fork 해서 작업했습니다.
api를 활용하거나 파이썬 scrapy를 활용하면 더 빠르고 간편하게 작업할 수 있을 거 같다.
참고자료)
https://github.com/lovit/naver_news_search_scraper
작업 결과)
https://github.com/zara9006/naver_news_search_scraper
- 몽고 DB 저장 기능
- 네이버 css path가 조금 변경된 부분들 찾아서 수정
< 실행화면 >
검색어 설정
데이터 베이스 주소 설정
실행
로그
저장
'크롤링' 카테고리의 다른 글
파이썬 Beautifulsoup을 활용한 크롤링 공부 (0) | 2019.08.04 |
---|---|
노드 cheerio-httpcli를 사용한 기사제목 크롤링 해보기 (1) | 2019.06.27 |