HTML 로봇 메타 태그 중 noindex 값은 자동화 인터넷 봇이 웹 페이지의 색인(인덱스) 처리를 하지 못하도록 요청한다.[1][2] 이 메타 태그를 사용하는 이유로는 로봇이 매우 큰 데이터베이스, 매우 변화가 많은 웹 페이지, 개발 중인 웹 페이지, 조금 더 비공개로 유지하기를 원하는 웹 페이지, 프린터/모바일 친화 버전의 페이지를 색인 처리하지 못하게 하는 일이 포함된다. 웹사이트 noindex 태그를 검사하는 책임은 검색 로봇의 개발자에게 부여되기 때문에 이 태그들은 무시되기도 한다. 또, noindex 태그를 해석하는 방식은 검색 엔진 회사마다 조금씩 다른 경우가 있다.

모든 문서의 noindex 처리 편집

<html>
<head>
  <meta name="robots" content="noindex">
  <title>Don't index this page</title>
</head>

메타 태크 콘텐츠의 이용 가능한 값은 다음과 같다: "none", "all", "index", "noindex", "nofollow", "follow". 값들의 조합 또한 가능한데,[1] 예를 들면 다음과 같다:

<meta name="robots" content="noindex, follow">

봇 특화 디렉티브 편집

noindex 디렉티브는 메타 태그에 각기 다른 "name" 값을 지정함으로써 특정 봇에만 한정하여 제한시킬 수 있다.

이를테면, 구글 봇만 특정해서 차단하려면,[3] 다음과 같이 지정한다:

<meta name="googlebot" content="noindex">

야후의 봇을 차단하려면,[4] 다음과 같이 지정한다:

<meta name="slurp" content="noindex">

MSN의 봇을 차단하려면 다음을 지정한다:

<meta name="msnbot" content="noindex">

robots.txt 파일 편집

robots.txt 파일을 사용하여 크롤링을 차단할 수 있다.

페이지 일부의 noindex 처리 편집

이를테면 내비게이션 텍스트처럼 웹페이지의 일부분을 색인 처리하지 못하도록 배제시키는 것이 가능하다. 이를 위한 다양한 기법들이 있으며 조합하여 여러 개를 사용할 수 있다. 구글의 주 인덱싱 스파이더 구글봇은 이 기법들을 인식하는 것으로 확인되지는 않고 있다.

<noindex> 태그 편집

러시아의 검색 엔진 얀덱스는 태그 간 내용의 색인 처리를 방지하는 <noindex> 태그를 선보였다. 소스 코드 확인을 허용하기 위해, <!--noindex-->를 대신 사용할 수 있다:[5]

<p>
이 텍스트는 색인 처리된다.
<noindex>이 텍스트는 색인 처리되지 않는다.</noindex>
<!--noindex-->이 텍스트는 색인 처리되지 않는다.<!--/noindex-->
</p>

Atomz를 포함한 다른 인덱싱 스파이더 또한 <noindex> 태그를 인식한다.[6]

마이크로포맷 편집

동일한 기능을 갖춘 2005년 마이크로포맷 초안 사양이 있다. 로봇 배제 프로파일은 HTML 태그의 class="robots-noindex"의 속성과 값을 찾는다:[7]

<p>이 텍스트는 색인 처리된다.</p>
<div class="robots-noindex">이 텍스트는 색인 처리되지 않는다.</div>
<span class="robots-noindex">이 텍스트는 색인 처리되지 않는다.</span>
<p class="robots-noindex">이 텍스트는 색인 처리되지 않는다.</p>

여러 값들을 조합하는 것도 가능한데,[7] 이를테면 다음과 같다:

<div class="robots-noindex robots-follow">텍스트.</div>

야후! 편집

2007년, 야후!는 자사의 스파이더에 마이크로포맷과 비슷한 기능을 도입했다. 그러나 야후!의 스파이더는 class="robots-nocontent" 값과는 호환되지 않으며 다음의 값만 찾는다:[8]

<p>이 텍스트는 색인 처리된다.</p>
<div class="robots-nocontent">이 텍스트는 색인 처리되지 않는다.</div>
<span class="robots-nocontent">이 텍스트는 색인 처리되지 않는다.</span>
<p class="robots-nocontent">이 텍스트는 색인 처리되지 않는다.</p>

셰어포인트 편집

셰어포인트 2010의 iFilter는 class="noindex"의 속성과 값이 있는 <div> 태그 내부의 내용을 배제시킨다. 내부 <div>는 내부적으로는 배제되지 않으나 변경된 상태일 수 있다. 속성이 <div> 이외의 태그에 적용될 수 있는지의 여부는 알려져 있지 않다.[9]

<p>이 텍스트는 색인 처리된다.</p>
<div class="noindex">이 텍스트는 색인 처리되지 않는다.</div>

구조화된 코멘트 편집

구글 검색 어플라이언스는 구조화된 코멘트를 사용한다:[10]

<p>
이 텍스트는 색인 처리된다.
<!--googleoff: all-->
이 텍스트는 색인 처리되지 않는다.
<!--googleon: all-->
</p>

다른 인덱싱 스파이더는 자신만의 구조화된 코멘트를 사용한다.

같이 보기 편집

각주 편집

  1. Robots and the META element, Official W3 specification
  2. About the Robots <META> tag
  3. Using meta tags to block access to your site, Google Webmasters Tools Help
  4. How to Prevent Yahoo! Search From Indexing Specific Pages, Yahoo! Search Help
  5. “Using HTML tags”. 《webmaster → help》. 얀덱스. Section: <noindex> tag. 2013년 3월 25일에 확인함. 
  6. “General Search FAQ”. 《Help》. Atomz. 2013. Section: How do I exclude parts of my site from being searched?. 2021년 12월 8일에 원본 문서에서 보존된 문서. 2013년 3월 23일에 확인함. Need to prevent parts of individual pages from being searched? If you want to exclude portions of a page from indexing, surround the text with <noindex> and </noindex> tags. This is useful, for example, if you want to exclude navigation text from searches. (등록 필요)
  7. Janes, Peter (2005년 6월 18일). “Robot Exclusion Profile”. Microformats. 2013년 3월 24일에 확인함. 
  8. Garg, Priyank (2007년 5월 2일). “Introducing Robots-Nocontent for Page Sections”. 《Yahoo! Search Blog》. 야후!. 2014년 8월 20일에 원본 문서에서 보존된 문서. 2013년 3월 23일에 확인함. 
  9. “Control Search Indexing (Crawling) Within a Page with Noindex”. 《Microsoft Developer》. 마이크로소프트. 2010년 6월 7일. 2017년 11월 4일에 원본 문서에서 보존된 문서. 2017년 11월 4일에 확인함. 
  10. “Administering Crawl: Preparing for a Crawl”. 《en:Google Search Appliance》. 구글. 2012년 8월 23일. Section: Excluding Unwanted Text from the Index. 2012년 11월 23일에 원본 문서에서 보존된 문서. 2013년 3월 23일에 확인함.