검색 엔진이 데이터 더미를 모으고 구성하는 방법

비디오: 웹 데이터 수집의 기술(13강) - 트윗 수집하기 2024

구글, 야후!, 묻는다. com 및 Microsoft Live Search는 데이터를 매우 빨리 수집하고 구성합니다. 기술의 경이로움을 보라!

첫째, 검색 엔진은 데이터를 수집해야합니다. spidering 라고 알려진 자동화 된 프로세스는 웹 페이지 데이터를 서버에 수집하여 인터넷을 지속적으로 크롤링합니다. Google은 거미를 Googlebot 이라고 부릅니다. 당신은 거미 , 로봇 , 로봇 또는 크롤러 라고 부를 수 있지만 모두 똑같습니다. 당신이 프로세스라고 부르는 것이 무엇이든, 원시 데이터를 대량으로 끌어 들이고 계속해서 그렇게합니다. 이것이 귀하의 웹 사이트 변경이 하루 만에 나타나거나 검색 엔진 결과에 반영되기까지 최대 몇 주가 소요될 수있는 이유입니다.

두 번째 단계에서 검색 엔진은 데이터를 사용할 수 있도록 색인을 생성해야합니다. 사용자가 수행 한 각 쿼리에 대해 검색 엔진은 알고리즘 을 적용하여 표시 할 목록을 어떤 순서로 결정합니다. 알고리즘은 상당히 단순하거나 다층이고 복잡 할 수 있습니다.

업계 컨퍼런스에서 Google 담당자는 알고리즘이 주어진 쿼리에 검색 순위를 적용하기 위해 200 개 이상의 변수를 분석한다고 말했습니다. 당신은 아마도 "그들의 변수는 무엇입니까? "구글은 정확하게 말하지 않을 것이고, 이것이 SEO를 어렵게 만드는 요인이다. 그러나 당신은 교육적인 추측을 할 수 있습니다. (야후!와 다른 것들과 동일합니다.)