로봇 텍스트 파일을 사용하여 검색 엔진에서 웹 페이지 또는 사이트 제외

로봇 텍스트 파일을 사용하여 검색 엔진 스파이더가 웹 사이트 또는 사이트의 일부를 크롤링하지 못하도록 차단할 수 있습니다. 예를 들어 웹 사이트의 개발 버전을 사용하여 변경 및 추가 작업을 수행하여 실제 웹 사이트에 포함되기 전에 테스트 할 수 있습니다. 검색 엔진이 웹 사이트의 "진행중인"복사본을 인덱싱하지 않도록하면 실제 웹 사이트와 중복 콘텐츠 충돌이 발생할 수 있습니다. 또한 사용자가 진행중인 페이지를 찾길 원하지 않을 것입니다. 따라서 검색 엔진이 해당 페이지를 보지 못하도록 차단해야합니다.

로봇 텍스트 파일의 작업은 웹 사이트에서 거미에게 가 아닌 검색 엔진 지침을 제공하는 것입니다. 메모장과 같은 프로그램을 사용하여 만들 수있는 간단한 텍스트 파일로, 파일 이름 로봇과 함께 저장합니다. txt. 파일을 웹 사이트의 루트 (예: www. yourdomain .com / robots. txt)에 놓습니다. 여기에서 거미가 찾을 것으로 예상됩니다. 사실, 검색 엔진 스파이더가 귀하의 사이트에 올 때마다 그들이 찾는 첫 번째 것은 로봇 텍스트 파일입니다. 그렇기 때문에 로봇 텍스트 파일이 비어 있어도 항상 로봇 텍스트 파일을 보유해야합니다. 스파이더가 사이트의 첫인상을 404 오류 (파일을 찾을 수 없을 때 발생하는 오류)로 만들고 싶지는 않습니다.

로봇 텍스트 파일을 사용하면 특정 페이지, 디렉토리 또는 전체 사이트를 선택적으로 제외 할 수 있습니다. HTML 코드를 작성해야합니다. 그렇지 않으면 거미가 무시합니다. 사용할 명령 구문은 모든 웹 사이트의 표준 프로토콜 인 로봇 제외 프로토콜 (REP)에서 가져온 것입니다. 그리고 그것은 매우 정확합니다. 특정 명령 만 허용되며 특정 배치, 대문자 / 소문자, 구두점 및 간격을 사용하여 올바르게 작성해야합니다. 이 파일은 웹 마스터가 창의력을 발휘하지 못하도록하는 곳입니다.

User-agent: * Disallow: / personal /

이 로봇 텍스트 파일은 모든 검색 엔진 로봇에게 환영한다고 알려줍니다. / personal / 디렉토리에 대해

를 제외하고 웹 사이트 어디에서나 크롤링하십시오.

명령 행 (예: Disallow: / personal /)을 작성하기 전에 먼저 상대방이 어떤 로봇인지 식별해야합니다. 이 경우 User-agent: * 행은 모든 문자를 나타 내기 때문에 와일드 카드 문자로 알려진 별표를 사용하므로 모든 로봇을 처리합니다. 여러 사이트가하는 것처럼 다른 검색 엔진에 다른 지침을 제공하려면 별도의 사용자 에이전트 행을 작성한 다음 특정 명령 행을 작성하십시오.각 User-agent: 행에서 별표 (*) 문자를 특정 로봇의 이름으로 바꿉니다.

User-agent: Googlebot 은 Google의주의를 끌 것입니다. 사용자 에이전트: Slurp

는 Yahoo!. 사용자 에이전트: MSNBot

는 Microsoft Live Search를 처리합니다. 로봇 텍스트 파일에 User-agent: * 지침과 특정 로봇을 지정하는 다른 User-agent: 행이있는 경우 특정 로봇은 사용자가 지정한

대신 개별적으로 지정한 명령을 따릅니다. 보다 일반적인 지침.

로봇에 몇 가지 다른 명령을 입력 할 수 있습니다. txt 파일: 전체 사이트 제외. 전체 서버에서 로봇을 제외하려면 다음 명령을 사용합니다.

Disallow: /

이 명령은 실제로 검색 색인에서 모든 사이트의 웹 페이지를 제거하므로 가 아니어야합니다 > 이것이 정말로 당신이 원하는 것이 아니라면 그렇게하십시오.
```
디렉토리 제외.
```
(주의 사항 - 일반적으로 디렉토리 전체를 제외하는 것보다 훨씬 더 선택적인 방법이 필요합니다.) 디렉토리 (모든 내용과 하위 디렉토리 포함)를 제외 시키려면 디렉토리를 슬래시로 묶으십시오. Disallow: / 개인 / 페이지 제외.
특정 페이지 만 제외하는 명령을 작성할 수 있습니다. 처음에는 슬래시 만 사용하고 끝 부분에 파일 확장자를 포함해야합니다. 예를 들면 다음과 같습니다. Disallow: / private-file. htm
```
거미를 사이트 맵으로 안내합니다.
```

Disallow: 이외에도 SEO 노력을위한 또 다른 유용한 명령은 로봇이 사이트 맵

(목차와 같이 사이트 조직 전체에 링크가 포함 된 페이지)를 찾을 수있는 위치를 지정합니다.

Sitemap: http: // www. 너의. co.kr / sitemap. xml 앞서 나열한 명령 외에도 Google은 Allow도 인식합니다. 이는 Google에만 적용되며 다른 엔진을 혼동시킬 수 있으므로 사용하지 마십시오. 항상 로봇 텍스트 파일 끝에 Sitemap: 명령 줄을 포함해야합니다. 이렇게하면 로봇이 사이트 맵을 찾을 수 있으므로 사이트를보다 완벽하게 탐색 할 수 있으므로 더 많은 사이트가 색인 생성됩니다. 로봇 텍스트 파일 구문에 대한 몇 가지 참고 사항:

명령은 대소 문자를 구별하므로 Disallow에서 대문자 D가 필요합니다.

명령 뒤에 콜론 다음에 항상 공백이 있어야합니다.

전체 디렉토리를 제외하려면 디렉토리 이름 앞에

와

뒤에 슬래시
와
를 넣습니다. UNIX 시스템에서 실행중인 경우 모든 는 대소 문자를 구분합니다. 특별히 제외되지 않은 모든 파일은 스파이더 링 및 색인 생성에 사용할 수 있습니다.
명령, 로봇 이름 및 로봇 텍스트 파일 작성에 대한 전체 목록을 보려면 웹 로봇 페이지로 이동하십시오. 추가 안전 장치로 로봇 텍스트 파일을 확인하기 위해 주간 사이트 유지 관리에 사이트를 추가하십시오. 그것은 당신의 위치의 SEO 노력을위한 그런 강력한 on / off 스위치입니다. 그것은 여전히 "켜져 있고"제대로 작동 하는지를 정기적으로 들여다 볼 수 있습니다.