깃허브 오픈소스를 활용하여 네이버 뉴스기사 크롤링하기

2019. 9. 6. 12:50크롤링

네이버 기사 프로젝트를 Fork 해서 작업

전부터 네이버 기사를 크롤링해서 데이터베이스에 저장하는 웹 크롤러를 만들어야겠다 생각하고 미루다가 이번에 만들어 보았습니다.

네이버 Open API에 뉴스 검색 api도 있지만 앞으로 개발을 계속해서 하면서 github를 사용할 일이 많아질 거 같아서 github를 많이 이용해보려고 github에 있는 원하는 기능과 유사한 네이버 뉴스&댓글 크롤링 프로젝트가 있어서 해당 소스코드로 작업했습니다.

아직 다른 사람의 프로젝트에 바로 push 할 능력이 안되기 때문에 저장소를 제 저장소로 fork 해서 작업했습니다.

api를 활용하거나 파이썬 scrapy를 활용하면 더 빠르고 간편하게 작업할 수 있을 거 같다.

 

참고자료)

https://github.com/lovit/naver_news_search_scraper

 

lovit/naver_news_search_scraper

검색어 기준으로 네이버뉴스와 댓글을 수집하는 파이썬 코드. Contribute to lovit/naver_news_search_scraper development by creating an account on GitHub.

github.com

 

작업 결과)

https://github.com/zara9006/naver_news_search_scraper

 

zara9006/naver_news_search_scraper

검색어 기준으로 네이버뉴스와 댓글을 수집하는 파이썬 코드. Contribute to zara9006/naver_news_search_scraper development by creating an account on GitHub.

github.com

  • 몽고 DB 저장 기능
  • 네이버 css path가 조금 변경된 부분들 찾아서 수정

 

< 실행화면 >

검색어 설정

 

데이터 베이스 주소 설정

실행

로그

저장