Posted on 2005-12-07 16:24
inwind 閱讀(543)
評(píng)論(0) 編輯 收藏 引用 所屬分類:
數(shù)據(jù)挖掘
信息提取(Information Extraction)的定義是指從一段文本中抽取指定的一類信息(例如事件、事實(shí))、并將其(形成結(jié)構(gòu)化的數(shù)據(jù))填入一個(gè)數(shù)據(jù)庫中供用戶查詢使用的過程。
與其他信息處理技術(shù)的關(guān)系
信息檢索(Information Retrieval) :只是找出滿足一定檢索條件(query)的整篇文檔或段落,而人們?nèi)匀槐仨氶喿x所找到的每一個(gè)文檔或段落才能獲得所需要的信息。
自動(dòng)文摘、文本理解 :自動(dòng)文摘和文本理解則沒有預(yù)先規(guī)定目標(biāo)的特性,需要對(duì)多種多樣的內(nèi)容進(jìn)行分析和處理。
信息提取的方針:識(shí)別實(shí)體,確定關(guān)系
信息提取由簡到繁:
單個(gè)實(shí)體:找出所有人名;找出所有email;找出所有大學(xué)......
二元關(guān)系實(shí)體:XXX的電話(地址,email),位于某地的所有公司.....
多元關(guān)系實(shí)體:把所有報(bào)道恐怖活動(dòng)的報(bào)道都找出來(IR),并按照事件的地點(diǎn)/時(shí)間/參與者/…分類、排序;
信息提取的基礎(chǔ)設(shè)施
詞典、詞切分和詞性標(biāo)注
制作一個(gè)規(guī)模適當(dāng)、分級(jí)合理并可靈活配置的詞典是建造中文信息提取系統(tǒng)的第一步;
適用于中文信息提取的短語句法及語義分析
包括句法成分的識(shí)別與標(biāo)引,關(guān)鍵詞提取,檢索特征集的提取、索引等。
適用于信息提取的句群分析與篇章表示
這些技術(shù)包括表達(dá)句間成分的傳遞,指代、引用信息表的建立和使用,"this指針"(當(dāng)前語義焦點(diǎn)focus)的維護(hù),以及概念關(guān)系的推理等。