Distant supervision for relation extraction without labeled data (ACL 2009)

- 4 mins

Abstract

1. Introduction

  1. Supervised approach
    • supervised approach는 entity와 relation에 대한 hand-labeled corpus가 존재해야 함
    • 하지만 labeled training data는 만들기가 매우 어렵고 특정 도메인 코퍼스로 학습하기에 classifier가 편향(biased)될 수 있음
  2. Unsupervised approach
    • 두 번째, unsupervised approach는 entity 사이의 관계 string of word를 추출한 뒤, 그 string of word에 대해 클러스터링 및 simplification(추상화?)의 과정을 거쳐 relation class를 정의하고 이를 기반으로 dataset instance를 생성하는 방식임
    • 매우 큰 dataset을 만들 수 있지만, 위 과정에서 정의된 relation을 특정 knowledge base에서 요구하는 relation class에 mapping시키는 것이 쉽지 않다는 단점이 있음
  3. Bootstrap approach
    • 마지막 세 번째, bootstrap approach는 작은 수의 seed instance(or pattern)을 사용하는 방법임
    • seed로 큰 코퍼스에서 새로운 pattern을 만들고 그 pattern으로 새로운 instance를 찾고 또 그걸로 새로운 pattern을 만들고, 이를 반복하는 방식인데 precision이 낮고 semantic drift의 단점이 있음
    • 우리는 위의 3가지 방법의 장점들이 조합된 distant supervision이라는 새로운 paradigm을 제시하려고 함
    • Distant supervision은 Freebase라는 large semantic database를 사용함
    • Distant supervision의 핵심 아이디어 중 하나는 Freebase relation으로 알려진 entity pair를 포함하는 어떤 문장이 있을 때, 해당 문장에서 entity pair는 Freebase와 동일한 relation을 갖는다고 보는 거임
    • labeled text가 아닌 (knowledge) database를 기반으로 하기에 domain에 대한 overfitting 문제에 대해 보다 자유로움

2. Previous work

3. Freebase

4. Architecture

5. Features

figure

5-1. Lexical features

5-2. Syntactic features

5-3. Named entity tag features

5-4. Feature conjunction

6. Implementation

7. Evaluation

8. Discussion

Joohong Lee

Joohong Lee

Machine Learning Researcher

rss facebook twitter github youtube mail spotify instagram linkedin google pinterest medium