中文信息處理,是用計(jì)算機(jī)對(duì)中文(包括口語(yǔ)和書(shū)面語(yǔ))進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工的科學(xué)。
隨著大規(guī)模存儲(chǔ)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子文本大量涌現(xiàn),人們對(duì)信息的需求也不斷提高。這就對(duì)文本處理技術(shù)提出了更高的要求。在當(dāng)今社會(huì),英文是流行最廣的語(yǔ)言,中文則是使用人數(shù)最多的語(yǔ)言。我們的研究立足于對(duì)這兩種語(yǔ)言的文本處理,并且以中文文本處理為主。文本處理一般包括:文本檢索(過(guò)濾、分類(lèi))和自動(dòng)摘要(主題抽取)。
文本檢索系統(tǒng)把文獻(xiàn)組織成一種機(jī)器內(nèi)部表示的知識(shí),在一定的層次上對(duì)這些知識(shí)進(jìn)行加工,并存儲(chǔ)于知識(shí)庫(kù)中。系統(tǒng)按用戶(hù)需求,對(duì)各個(gè)知識(shí)單元,如關(guān)鍵字、人、地點(diǎn)、事件、以及文獻(xiàn)中的詞語(yǔ)和句子進(jìn)行操作,對(duì)文獻(xiàn)的內(nèi)容從各個(gè)角度進(jìn)行檢索、選取、組合、和排序。文本檢索的任務(wù)是針對(duì)不同的用戶(hù)需求,從大量的文獻(xiàn)中檢索出相關(guān)的文獻(xiàn),并按照滿(mǎn)足需求的程度進(jìn)行相關(guān)排序。
自動(dòng)摘要?jiǎng)t是從文本中自動(dòng)提取主題信息,并以通順的語(yǔ)言表達(dá)出來(lái)。它既可以單獨(dú)應(yīng)用,又可以為檢索系統(tǒng)提供良好的交互界面。
中文信息處理技術(shù),作為自然語(yǔ)言信息處理的一個(gè)分支,需要以大量的語(yǔ)言知識(shí)、背景知識(shí)為依據(jù),對(duì)中文信息的人腦處理過(guò)程進(jìn)行模擬。當(dāng)前的中文信息處理系統(tǒng),還處于初級(jí)階段,許多處理過(guò)程,尤其是機(jī)器翻譯、人機(jī)對(duì)話(huà)等,還需對(duì)漢語(yǔ)本身加以研究,附加某必要的選擇條件和限制。例如,詞匯限制,語(yǔ)句形式限制,語(yǔ)義和語(yǔ)用知識(shí)的限制,等等。