워드넷
워드넷(WordNet)은 영어의 의미 어휘목록이다. 워드넷은 영어 단어를 'synset'이라는 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록한다. 그 목적은 두가지이다. 하나는 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공 지능 응용을 뒷받침하려는 것이다.
데이터베이스와 프로그램 툴은 BSD 형태의 라이선스로 배포되었고, 다운로드 받아 자유롭게 사용할 수 있다. 데이터베이스는 온라인으로도 검색할 수 있다.
워드넷은 심리학 교수인 조지 A. 밀러가 지도하는 프린스턴 대학의 인지 과학 연구소에 의해 만들어졌고 유지되고 있다. 개발은 1985년에 시작되었다. 수 년에 걸쳐, 프로젝트는 3백만 달러의 기금을 모았는데, 주로 기계 번역에 관심이 있는 정부 기관에 의한 것이었다. 최근 몇 년간은, 크리스티안 펠바움(Christiane Fellbaum) 박사가 워드넷의 개발을 살피고 있다.
자료 내용
[편집]2006년, 데이터베이스에는 15만 단어가 11만 5천 개의 동의어집합(synset)과 총 20만 7천의 단어-의미 쌍이 조직되었다. 압축된 형태의 용량은 12 MB 정도 된다.[1]
워드넷은 명사, 동사, 형용사, 부사들을 서로 구분하는데, 이는 이들이 서로 다른 문법적인 법칙을 따르기 때문이다. 모든 '신셋(synset; 동의어 집합)'은 단어의 동의어 집합 또는 연어 관계를 포함한다. ('연어 관계'는 단어들이 순서대로 놓여 특정 의미를 형성하는 것을 의미한다.) 서로 다른 의미의 단어는 서로 다른 '신셋'에 포함된다. '신셋'의 의미는 간략하게 정의하는 주석(정의 또는 예문)으로 보다 명확해진다. 주석이 붙은 전형적인 '신셋'의 예는 다음과 같다.
- good, right, ripe -- (가장 적합하거나 특정 용도에 알맞음; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")
대부분의 '신셋'은 다른 동의어집합과 몇 개의 의미적 관계로 연결되어 있다. 이러한 관계들은 단어의 유형에 따라 다르며, 다음과 같은 것들이 포함되어 있다.
같이 보기
[편집]각주
[편집]- ↑ “WNSTATS(7WN) manual page”. 2007년 12월 31일에 원본 문서에서 보존된 문서. 2008년 1월 4일에 확인함.
참고 문헌
[편집]- 이재윤, 김태수(1999) : WordNet과 시소러스 HTM
- WordNet Glossary
외부 링크
[편집]- The WordNet Home Page
- Wordnet Related Projects -- 인터페이스와 확장 기능의 포괄적 목록
- Global Wordnet + DEBGrid (Global Wordnet 웹 인터페이스)
- multi wordnet Archived 2014년 2월 17일 - 웨이백 머신