웹 검색 엔진: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
편집 요약 없음
문서를 비움
태그: 비우기
1번째 줄:
더웹과 알타비스타를 소유한)를 인수했다. 야후는 2004년에 인수한 회사와 자사의 기술력을 조합해 검색엔진 서비스를 시작했디. MS는 잉크토미의 검색결과를 이용한 MSN 검색을 1998년 가을에 시작했다. 1999년 초에는 잉크토미 결과와 룩스마트 결과를 조합해 서비스했다. 잠시 알타비스타를 이용하기도 했다. 2004년에 MS는 자사 기술로 검색엔진을 만들기 시작했다. MS는 2009년 6월 1일, 빙이라는 브랜드로 검색엔진을 만들었고 6월 29일에 MS는 야후와 검색엔진 공급계약을 발표했다.
 
이전까지의 검색 엔진은 좋은 정보를 찾아내기 위한 방법으로 사용자가 입력한 검색어와 동일한 단어가 들어가 있는 페이지를 찾는 즉 키워드 검색 엔진에 기반을 두어 왔다. 하지만 점차 의미 기반의 검색 기법이 활용되고 있다. [http://www.hakia.com 하키아] 와 [[큐로보]]는 [https://web.archive.org/web/20080722122410/http://labs.hakia.com/hakia-lab-sema.html 시맨틱랭크] 를 사용한다. 그리고 기존 검색 엔진의 요구와 달리 [[사용자 인터페이스]]면에서도 다른 시도가 늘고있다. [[마이크로소프트]]사의 [[윈도 비스타]]에 내장된 사용자 시각 인터페이스를 적용한, [http://www.searchme.com 서치미] 와 [http://www.redzee.com 레드지] 등이 있으며, 한국에는 [https://web.archive.org/web/20080622155300/http://www.qrobo.com/visual/ 비주얼큐로보] 가 있다.
 
== 원리 ==
검색 엔진은 다음과 같은 순서로 동작한다.
* 문서 수집
* 색인
* 검색
 
검색 엔진은 HTML로 되어있는 웹페이지에서 추출한 텍스트를 축적하여 동작한다. 이 페이지들은 웹사이트의 모든 링크를 따라다니면서 문서를 모으는 문서수집기(웹 크롤러, 이전에는 웹 스파이더)가 추출한다. 로봇 규약에 따라 수집금지된 곳은 예외처리된다. 개별 페이지의 내용은 어떻게 색인을 위해 분석된다. 예를 들어 문서 제목, 페이지 내용, 목차, 기타 등등으로 영역을 나누어 추출하고 분석한다. 이후 검색어가 들어올 것을 대비해 이 웹페이지 데이터는 DB에 적절히 색인된다. 질의어는 한 단어인 경우가 많다. 색인은 정보를 최대한 빨리 찾을 수 있도록 돕는다. 알타비스타 같은 엔진이 모든 페이지의 모든 어휘들을 뽑아내는 방식으로 정보를 저장하는 경우도 있고, 구글과 같은 곳은 원 문서의 일부 혹은 전체를 캐시라는 임시저장의 형태로 저장해두기까지 한다. 캐시된 페이지는 원래 문서를 그대로 저장하고 있으므로 현재 페이지가 갱신되었거나 더 이상 없는 경우 자료를 찾기 유용하다. 이렇게 되면 사용자들은 없는 결과가 나올까봐 불안해하지 않고 검색어를 넣을 수 있게 된다. 어쨌든 결과는 있을 것이라 기대하게 되는 것이다. 검색결과의 신뢰도가 높아지면 이 캐시는 매우 유용해진다. 문서가 사라졌어도 캐시가 남아있으니 해당 검색결과가 올바른지 확인이 가능해지기 때문이다.
 
사용자가 검색엔진에 검색어를 넣으면 엔진은 색인을 조사, 평가해서 가장 잘 맞는 문서를 내놓는다. 보통 문서 제목 및 검색어가 담겨있는 본문을 추출하여 짧은 요약을 생성해 함께 보여준다. 색인은 문서 안에서 개별 어휘가 문서의 어디에 있는지를 확인해 축적하는 방식으로 만들어진다. 2007년이 되어서야 구글은 상세검색 기능에서 날짜를 기준 필터 기능을 만들었다. 전체 결과에서 자신이 원하는 날짜 범위를 지정할 수 있게 한 것이다. 많은 검색엔진은 검색어를 좀 더 한정짓기 위해 and, or, not과 같은 논리연산자를 지원한다. 논리연산자는 '이고', '혹은', '아닌'이라는 말 그대로의 한정기능을 제공한다. 그 엔진은 입력된 단어들이나 구를 있는 그대로 검색해준다. 몇몇 검색엔진은 인접검색 기능을 제공하기도 하는데 이는 검색어 사이의 거리까지 고려해 검색하는 것이다. 문서에 포함된 단어나 구에 대해 통계처리한 결과를 이용해 개념 기반으로 검색해주는 엔진도 있다. 평소에 사용하던 자연어를 그대로 입력하면 찾아주는 검색엔진도 있다. 지식iN 같은 곳에서 질문하는 것처럼 입력하면 된다. 검색엔진의 유용성은 검색엔진이 내놓는 결과가 얼마나 좋으냐에 따라 결정된다. 특정 단어나 구를 포함하는 수백만개의 웹페이지 중에서, 몇몇은 다른 것들에 비해 좀 더 상관관계가 높거나, 인기있거나, 권위있는 것들이다. 많은 검색엔진은 가장 좋은 문서를 상위에 올리기 위해 정렬방법을 고민한다. 어떻게 문서를 찾아낼 것인가와 어떤 순서로 문서를 정렬해 보여줄 것인가는 검색엔진에 따라 천차만별이다. 이 방법도 인터넷 사용 유형과 기술 발전에 따라 계속 변해왔다.
 
== 평가 ==
무엇이 좋은 검색엔진인가를 평가하는 것은 어렵다. '좋다'의 정의가 사람마다 다르기 때문이다. 보통 검색엔진의 성능을 평가할 때는 정확률(precision, 정확도)와 재현율(recall)을 얘기한다. 재현율은 검색된 적합한 문서수 / 총 적합한 문서수이고 정확률은 검색된 적합한 문서수 / 총 검색된 문서수이다. 하지만 적합한 문서의 기준과 총 문서수라는 것 둘 다 모호한 것이기 때문에 수치화하기 어렵다.
 
적절한 평가를 위해 테스트 문서집합을 하나 마련할 필요가 있다. 적합/부적합이 판정되어있고 문서 개수를 모두 알고 있는 문서집합이 그것이다. 검색엔진의 성능을 개선한 뒤 그 엔진으로 테스트 문서집합을 검색했을 때 이전에 비해 만족도가 얼마나 높아졌는지를 판단하는 것이다. 하지만 테스트 문서집합을 만드는 것이 어렵고 또 어떤 검색어를 넣을 것인가도 문제가 되기 때문에 검색엔진의 평가는 쉬운 일이 아니다.
 
== 상업화 ==
 
대부분의 검색엔진은 광고 수익으로 유지된다. 광고주가 특정 검색어의 검색결과 상단에 올라갈 수 있도록 검색엔진 회사에 돈을 지불하는 방식이다. (이와는 다르게 (Organic)키워드 검색 노출을 위해서는 [https://www.must1st.com 검색엔진최적화]를 고려해야 함.) 검색엔진은 객관적인 검색결과의 옆에 광고를 노출하는 방식으로 돈을 번다. 광고클릭당 얼마의 식으로 돈을 받는다.
 
검색엔진의 상업성 추구는 컨텐츠를 전면에 내세우는 이른바 포털화로 진행된 사례가 많다. [[다음]]은 이메일 서비스의 수요자를 기반으로 포털화에 성공하기 위해 야후의 검색결과를 이용한 바 있다.{{출처|날짜=2011-10-27}} [[네이버]]에 대해서는 최근에도 네이버 블로그나 카페의 검색 결과를 우대해 사용자의 유출을 막고 저작권 문제를 방치한다든지, 검색 결과를 정치적 의도에 따라 조작한다는 등의 의혹이 제기된 바 있다.<ref>{{서적 인용|저자=김인성|제목=한국 IT산업의 멸망|연도=2011년|출판사=북하우스|쪽=392|isbn=9788956055220}} [http://minix.tistory.com/218 저자의 관련 블로그 글]</ref>
한편 [[구글]]은 타 검색 엔진 사이트의 포털화 당시에 서비스를 시작하면서, 웹 검색과 광고를 분리해 검색 서비스를 단순화했다. 구글은 현재 광고 외에도 많은 사업과 몇몇 수익원을 두고 있다.
 
== 참조 ==
<references />
 
== 같이 보기 ==
* [[메타검색]]
* [[데스크톱 검색]]
* [[검색 엔진 최적화]]
* [[자동 요약 생성]]
* [[인터넷 행동주의]]([[:en:Internet activism]])
**[[필터 버블]]([[:en:Filter bubble]])
** [[덕덕고]]([[:en:DuckDuckGo]])
** [[에코 체임버]]([[:en:Echo chamber (media)]])
**[http://novela-soft.com 구글 SEO 더보기]
**[http://serh.kr/ 검색등록]
 
== 외부 링크 ==
{{위키공용분류}}
* {{Dmoz|Computers/Internet/Searching/Search_Engines/}}
 
[[분류:검색 엔진| ]]