소프트웨어 (과거)/자바 GUI & C# 등...
46. 자바 웹 크롤링
dgmayor
2022. 4. 28. 16:50
728x90
1. 개요
크롤링(Crawling) 이란?
정식명칭은 Scraping 또는 Web Scraping 으로 웹 사이트에서 원하는 정보를 추출하는 것을 의미합니다. 보통 웹 사이트는 기본적으로 Html 기반입니다. 크롬에서 Ctrl + U 또는 우클릭 - 페이지 소스보기를 클릭하시면 다음과 같은 화면을 볼 수 있습니다.

네이버 금융 웹 사이트 소스코드
위 사진은 네이버 금융 https://finance.naver.com/ 홈페이지의 소소를 확인한 것입니다.
2. 활용
그렇다면 이 소스들을 가지고 우리는 무엇을 할 수 있을까요?
Html 소스들을 자세히 들여다 보시면 우리가 웹 사이트에서 보는 모든 정보들이 담겨있습니다.
이 정보들 중 원하는 정보만 가져와서 자신만의 프로그램에 사용하는 것 입니다.
불법아닙니까?
-> 크롤링 한 데이터를 소장하고 활용하는것 까지는 불법이 아닙니다. 다만, 영리를 위한 목적, 배포 시 문제가 될 수 있습니다. 후자의 경우 해당 사이트의 허락을 꼭 맡으시기 바랍니다.
예제로 네이버 금융 사이트에서 국제시장환율 란의 환율 데이터를 긁어와서 화면에 출력해 보겠습니다.

3. 소스코드

4. 실행화면

위 코드를 실행하면 다음과 같이 콘솔창에 크롤링 한 데이터가 출력됩니다.
프로그램에 따라 윈도우 창에 출력 할 수도 있고 변수에 저장하거나 데이터베이스에 저장 할 수 도 있겠습니다.
사실 문자열을 조금만 다룰 줄 안다면 쉽게 처리 가능한 기술입니다.
출처: https://yeolco.tistory.com/28?category=757619 [열코의 프로그래밍 일기]
728x90