CiteSeer

(CiteSeerX에서 넘어옴)

CiteSeer란 과학 문학 디지털 도서관과 컴퓨터 및 정보 과학 문헌에 주로 초점을 맞추고 있는 검색엔진이다. 2008년 CiteSeer에서 CiteSeerX로 바뀌었다. CiteSeerˣ는 과학문학의 보급을 개선하고 기능, 유용성, 가용성, 비용, 포괄성, 효율성, 과학 및 학술 지식의 접근의 적시성 개선을 제공하는 것을 목표로 하고 있다. CiteSeerˣ는 다른 디지털 라이브러리를 만드는 것보다 디지털 라이브러리를 촉진하는데 사용할 수 있는 알고리즘, 데이터, 메타데이터, 서비스, 기술 및 소프트웨어와 같은 자원을 제공한다.Citeseerˣ은 색인 포스트 스크립트와 PDF연구 논문에 대한 새로운 방법과 알고리즘을 개발했다.[1]

CiteSeerˣ는 PostScriptPDF로 제작된 논문을 자동 색인하기 위한 새로운 방법과 알고리즘을 개발해서 사용하고 있다. 현재 약 1,641,142건의 논문기사와 이들과 링크된 31,317,127건의 인용정보를 서비스 하고 있다(2010.6.9일자 기준)[2] CiteSeerˣ는 자동화된 인용색인 작성 및 이를 통해 인용문헌을 링크하는 디지털도서관이다. 주로 컴퓨터와 정보공학에 관한 자료를 중심으로 축적하고 있다. 리포지터리를 구축하기 위한 시스템으로는 자체개발 시스템을 사용하고 있다.[3]

역사 편집

CiteSeerˣ는 자율 인용 색인을 통하여 자동 인용 색인 및 인용을 연결하여 제공하는 최초의 디지털 도서관 겸 검색 엔진으로 뉴저지 프린스턴에 있는 NEC연구소에서 Steve Lawrence, Lee GilesKurt Bollacker 에 의해 1997년에 개발되었다. 이후 2003년부터는 Lee Giles교수의 주도하에 펜실베니아 주립 대학의.[4] IST(College of Information Science and Tech-nology)에서 서비스하고 있다[5]

목적 편집

CiteSeerˣ는 과학과 학술적인 지식접근에 대한 기능성, 유용성, 이용가능성, 비용, 편의성, 유효성, 그리고 적시성 제고 및 과학문헌의 배포 향상을 목적으로 구축되었다. 주로 컴퓨터와 정보공학에 관한 자료를 중심으로 축적하고있다.[6]

서비스 편집

CiteSeerˣ에서는 자동인용색인뿐만 아니라 인용통계, 참조링킹, 인용상황 서비스 및 트랙킹(tracking), 관련 문헌 제공, 전문색인, 질의기반 요약, 논문 하비스팅, 메타데이터 자동추출, 개인서고 ,RSS, 소셜북마킹, 소셜네트워크 개인별검색환경 설정등의 개인화 서비스를 제공한다.[7] 또한 CiteSeerˣ는 인용 검색 기능 뿐 아니라 인용 분석 기능을 일부 제공함으로써 추후 이쪽 서비스를 보다 확장하는 시도를 보여주고 있다.[8] CiteSeerˣ는 좀 더 높은 수준의 서비스를 위해 이용자의 관심분야를 저장하는 Cookies 서비스를 제공한다. 본 서비스는 이용자들의 접근 패턴을 트랙킹하여 사이트 성능을 최적화하기 위한 것이다.[9]모든 콘텐츠는 웹을 통해 일반 이용자가 무료로 접근가능하다.[10]

  • 자동인용색인 (ACI-Autonomous citation indexing) - ACI를 사용해 자동 인용을 추출하고 문헌 조사 및 평가를 위해 사용할 수 있는 인용 색인을 생성한다. 기존의 인용 지수에 비해 ACI 비용, 가용성, 포괄성, 효율성 및 적시성 있는 향상된 기능을 제공한다.
  • 인용통계(Citation statistics) - 인용 통계 및 데이터베이스에 인용된 모든 기사뿐만 아니라 인덱스 기사 관련 문서도 계산한다.
  • 참고링킹(Reference linking) - 자동으로 생성된 인용 링크를 사용하여 검색 문서를 허용한다.
  • 관련 문헌 제공(Related documents) - 인용과 단어 기반 방식을 사용하여 적극적이고 지속적으로 문서와 관련된 각 문서의 업데이트된 참고 문헌을 찾고 표시한다.
  • 전문색인(Full-text indexing) - 전체 문서의 기사 인용을 인덱스하고, 전체 boolean, 구문 및 근접 검색을 지원한다.
  • 질의기반 요약(Query-sensitive summaries) - 검색의 효율성을 향상시켜 일반적인 요약대신 기사에 대한 질문을 사용하는 방법의 문서를 제공한다.
  • 메타데이터 자동추출(Automatic metadata extraction) - 자동적으로 저자, 제목, 분석 및 문서 검색을 위한 기타 관련 메타 데이터를 추출한다.
  • 개인서고(Personal Content Portal) - 개인 컬렉션, RSS와 같은 알림, 소셜 북마크, 소셜 네트워크 장비 등의 특정 기능을 제공한다. 개인화 된 검색 설정 및 기관 데이터 추적이 가능하다. 사용자 문서는 문서 제출 시스템을 사용하여 쉽게 제출할 수 있다.
  • 논문 하비스팅(Harvesting of articles) - 자동으로 공용웹으로부터 연구논문을 수확하고 뿐만 아니라 제출 시스템을 통해 제출된 것도 포함한다.
  • 인용상황 서비스 및 트랙킹(Awareness and tracking) - 논문의 새로운 인용과 새 논문이 사용자 프로파일을 통해 일치하면 자동으로 알림을 제공한다.[11]

서비스 사용절차 편집

CiteSeerˣ는 개인정보 보호정책이 있으며, 검색을 위해서는 별도의 이용자 등록이 필요업지만, CiteSeerˣ로부터 정보를 받거나 보낼때, 특히 질문하거나 의견을 제시하고 정보갱신을 요구할 때는 간단한 등록절차가 필요하다. CiteSeerˣ는 좀더 높은 수준의 서비스를 위해 이용자 관심분야를 저장하는 Cookies 서비스를 제공한다. 본 서비스는 이용자들에게 접근패턴을 트랙킹하여 사이트 성능을 최적화하기 위한 것이다. 리포지터리를 구축하기 위한 시스템으로는 자체개발 시스템을 사용하고 있다.[12]

문서의 수집 편집

CiteSeerˣ의 문서의 수집은 연구자의 직접제출과 cite-seerxbot이라 불리는 크롤러가 담당한다. 연구자들은 CiteSeerˣ에 부합하는 주제 콘텐츠라면 무엇이든 제출 가능하다. 제출을 위해 지원하는 파일포맷은 PDF, PostScript, 압축파일(zip, gz, z)로 다양하지만 PDF파일을 권장하고 있다.[13]

특징 편집

CiteSeerˣ의 특징은 유사도(%)를 체크해서 유사한 문헌을 찾는 Similar Documents와 Related Documents와 같이 co-Citation 등 관련성 있는 문헌들을 찾아주며, 최신 업데이트된 자료들도 함께 검색할 수 있도록 한다. 그리고 논문 전문검색 및 온라인 출판사가 제공하는 citation link를 통해 각 DB내 통합 검색을 가능하게 하는 Reference Linking 기능을 제공해 주며, DBLP, ACM Digital library로 링크되어 현재 인덱스되어 있는 모든 논문의 전체 메타데이터를 볼 수 있는 장점이 있다. CiteSeerˣ는 검색엔진으로서 디지털 도서관의 역할 뿐만 아니라 다른 디지털 도서관을 위한 리소스도 제공하고 있다. [14]

사용성 평가 편집

CiteSeerˣ의 경우 특정 논문에 대해 연도별 인용수를 그래프로 제시하고 있으나, 이 역시 단순 통계 서비스로서 논문의 주제별 분류 정보를 활용하지 못하고 있다. 사용자 인터페이스와 단순 검색 결과에 대해서 보다는 전문적인 정보 제공 측면에서 선호한다. Thinking-aloud 기법으로 사용자들을 관찰한 결과, CiteSeerˣ을 이용하는 경우에 사용자 자신의 직관이나 기존 경험으로부터 얻어진 휴리스틱을 과도하게 사용하는 경향이 있었다. 이러한 경향은 사용자 간의 작업 수행에 있어서의 편차를 크게 함으로써 작업 결과로 제시된 결과들의 편차를 크게 한다. [15]

참조 편집

  1. http://citeseerx.ist.psu.edu/index;jsessionid=5DBAD12B7D72F9C0AB90D1EB286FD7B3
  2. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30[쪽 번호 필요]
  3. 정영미, 이상기. 2010. 성공적인 리포지터리의 운영정책에 관한 연구. 『정보관리학회지』. v.27 no.4. 131-152p.
  4. [www.psu.edu].
  5. “CiteSeerX Homepage”. 2013년 6월 14일에 확인함. 
  6. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30{p.137}}
  7. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30[쪽 번호 필요]
  8. 이정연;유소영,임두호,정수진,이재윤. 2009. 인용 정보를 활용한 학술 정보 서비스 고도화 전략. 『韓國情報管理學會 學術大會論文集 』.Vol.2009 No.- .97p.
  9. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30[쪽 번호 필요]
  10. 정영미, 이상기. 2010. 성공적인 리포지터리의 운영정책에 관한 연구. 『정보관리학회지』. v.27 no.4. 131-152p.
  11. “About CiteSeerX”. 2010년 5월 7일에 확인함. 
  12. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30틀:P.138
  13. 정영미; 이상기,성공적인 리포지터리의 운영정책에 관한 연구/2010.12.30[쪽 번호 필요]
  14. 이미경, 정한민, 성원경. 'KISTI의 차세대 정보 서비스 연구', 학술발표자료, 한국IT서비스학회 춘계학술대회, 2008, 13-14P
  15. 정한민;이미경;성원경.정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 v.35 no.7,2008 | 1229-6848, p.414,415