[구글SEO] 검색엔진이 특정 폴더를 크롤링 (Index) 하지 못하게 하려면

특정 폴더를 검색 엔진이 검색하지 못하도록 하려면 robots.txt 파일을 사용할 수 있다.
robots.txt는 웹 사이트의 루트 디렉토리에 위치하며, 검색 엔진이 사이트를 크롤링할 때 어떤 부분을 무시해야 하는지 지시하는 역할을 한다.

예를 들어, /private-folder라는 디렉토리를 검색 엔진이 크롤링하지 못하게 하려면, robots.txt 파일에 다음과 같이 작성할 수 있다.


User-agent: *
Disallow: 
/private-folder/

위의 내용은 '모든 검색 엔진이 /private-folder/ 디렉토리를 크롤링하는 것을 금지하라'는 의미이다.

그러나 robots.txt 파일은 권장 사항이며, 모든 검색 엔진이 이를 준수하지는 않다.
특히나 악의적인 크롤러는 이 파일을 무시하고 웹사이트를 크롤링할 수 있다.
따라서 민감한 정보를 포함한 디렉토리는 추가적인 보안 조치를 통해 보호해야 한다.

※ 특정 폴더를 악의적인 검색엔진 또는 크롤러로부터 보호하는 몇 가지 방법은 다음과 같다.

파일/디렉토리 권한 설정: 디렉토리에 대한 권한을 제한하여 웹 서버를 통해 접근할 수 없도록 할 수 있다.
이는 특히나 민감한 데이터를 포함한 디렉토리에 대해 적용할 수 있다.
.htaccess 파일 사용: Apache 웹 서버에서 .htaccess 파일을 사용하여 특정 IP 주소 또는 IP 범위의 접근을 제한할 수 있다.
인증 요구: 폴더에 대한 접근에 대해 사용자 이름과 비밀번호를 요구하도록 설정하여, 인증 없이는 접근할 수 없도록 할 수 있다.
이는 HTTP 기본 인증을 통해 구현할 수 있다.
웹 애플리케이션 방화벽 사용: 웹 애플리케이션 방화벽(WAF)은 악의적인 트래픽을 필터링하고 차단하는데 사용할 수 있다.
일부 WAF는 악의적인 크롤러와 봇을 감지하고 차단하는 기능을 제공한다.
콘텐츠 전송 네트워크(CDN) 사용: 일부 CDN 서비스는 크롤러와 봇을 감지하고 차단하는 기능을 제공한다.
이는 웹사이트의 보안을 높이는 데 도움이 될 수 있다.