隨著科學(xué)技術(shù)的發(fā)展,中文信息處理已經(jīng)深入到了社會(huì)生活的各方面。廣泛的應(yīng)用對(duì)中文信息處理技術(shù)也提出了較高的要求。
中文信息處理是中文(包括漢語(yǔ)和少數(shù)民族語(yǔ)言)語(yǔ)言學(xué)和信息技術(shù)的融合,它是一門(mén)用計(jì)算機(jī)對(duì)漢語(yǔ)(包括口語(yǔ)和書(shū)面語(yǔ))進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工的科學(xué)。中文信息處理與語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、數(shù)學(xué)、控制論、信息論、聲學(xué)、自動(dòng)化技術(shù)等多種學(xué)科相聯(lián)系,是自然語(yǔ)言信息處理的一個(gè)分支,需要以大量的語(yǔ)言知識(shí)、背景知識(shí)為依據(jù),對(duì)中文信息的人腦處理過(guò)程進(jìn)行模擬。其中,“中文”是指中國(guó)通用的所有語(yǔ)言種類(lèi),包括漢語(yǔ)及其他少數(shù)民族的語(yǔ)言:但一般都是指漢語(yǔ)?!靶畔ⅰ笔侵改芡ㄟ^(guò)視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)等器官或儀器獲取,并有一定交際功能的東西,“信息”是不確定性的減少,是負(fù)熵。所謂“處理”,是指用計(jì)算機(jī)對(duì)信息進(jìn)行各種加工,主要的是圖像信息和語(yǔ)言信息的識(shí)別、模擬、分析、轉(zhuǎn)換和傳輸。
中文信息處理的特點(diǎn)
(一)漢字的特殊性
我們都知道,英語(yǔ)在計(jì)算機(jī)信息處理方面的優(yōu)勢(shì)就是其字母數(shù)量有限, 因而可以很容易的進(jìn)行輸入輸出以及信息的加工和處理,而中文的漢字則數(shù)量龐大,且字形相對(duì)復(fù)雜, 這就給漢字的編碼帶來(lái)了不小的困擾。 因此我們根據(jù)漢字信息處理過(guò)程中的不同要求對(duì)漢字進(jìn)行了不同形式的編碼,總結(jié)來(lái)說(shuō)有以下幾種方案,即漢字輸入編碼,漢字標(biāo)準(zhǔn)編碼, 漢字內(nèi)碼和漢字形碼。
(二)書(shū)面漢語(yǔ)的特殊性
漢語(yǔ)的另一個(gè)特征是在書(shū)面表達(dá)中,詞語(yǔ)和記號(hào)之間沒(méi)有明顯的分隔標(biāo)記, 這就使自動(dòng) 分詞在書(shū)面漢語(yǔ)分析中成立一個(gè)難題。分詞需要將連續(xù)的字按照一定的規(guī)范進(jìn)行有序的組合,比較英文 我們會(huì)發(fā)現(xiàn),英文單詞之間都是用空格來(lái)做分隔符,而中文則是習(xí)慣通過(guò)字、整句以及段落進(jìn)行簡(jiǎn)單的劃分,而這其中的一個(gè)難點(diǎn)就是對(duì)詞語(yǔ)的劃分,我們都知道, 英語(yǔ)中也有短語(yǔ)劃分的問(wèn)題,但是由于中文的詞語(yǔ)遠(yuǎn)比英語(yǔ)的數(shù)量和范圍要龐大, 因而處理起來(lái)更為困難。
三)漢語(yǔ)語(yǔ)音的特殊性
在語(yǔ)音方面,漢語(yǔ)的特征是音節(jié)結(jié)構(gòu)相對(duì)簡(jiǎn)單,音節(jié)劃分界限比較清晰, 但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別,因而在語(yǔ)音識(shí)別和語(yǔ)音合成方面來(lái)講這是一個(gè)劣勢(shì), 但是總體上來(lái)說(shuō)漢語(yǔ)語(yǔ)音的處理比之其他方面來(lái)說(shuō)還是相對(duì)容易的
(三)漢語(yǔ)語(yǔ)法的特殊性
在語(yǔ)法方面,漢語(yǔ)詞匯的句法功能相對(duì)來(lái)說(shuō)難以判斷, 這與英語(yǔ)語(yǔ)言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語(yǔ)主要依靠詞序和虛詞來(lái)表達(dá)不同的含義, 因此如果不能很好的掌握句法,就特別容易產(chǎn)生歧義,因此漢語(yǔ)語(yǔ)句自動(dòng)分析這一重要技術(shù)是一項(xiàng)難以攻克的技術(shù)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是滿(mǎn)足大數(shù)據(jù)挖掘?qū)φZ(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類(lèi)、文本分類(lèi)、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶(hù)端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶(hù)的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。
隨著信息技術(shù)在我國(guó)社會(huì)生活各個(gè)領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場(chǎng)。這將促使中文信息處理方面的中文搜索引擎、實(shí)時(shí)機(jī)器翻譯、大規(guī)模中文文本處理、跨平臺(tái)中西文自動(dòng)識(shí)別轉(zhuǎn)換、泛中文語(yǔ)義理解、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破。中文信息處理已成為我國(guó)信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長(zhǎng)的今天,中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新。