在互聯(lián)網(wǎng)發(fā)展到大數(shù)據(jù)時代,那么數(shù)據(jù)就等于金錢。隨著向一個基于應(yīng)用的領(lǐng)域過渡,數(shù)據(jù)則呈現(xiàn)出了指數(shù)級增長。然而,百分之八十的數(shù)據(jù)是非結(jié)構(gòu)化的,因此它需要一個程序和方法來從中提取有用信息,并且將其轉(zhuǎn)換為可理解、可用的結(jié)構(gòu)化形式。
在數(shù)據(jù)挖掘過程中,有大量的工具可供使用,比如采用人工智能、機(jī)器學(xué)習(xí),以及其他技術(shù)等來提取數(shù)據(jù)。
LJParser系統(tǒng)指的是網(wǎng)絡(luò)搜索、自然語言理解和文本挖掘的技術(shù)開發(fā)的基礎(chǔ)工具集,開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中。
全面升級的LJParser系統(tǒng)在以下方面做出重點(diǎn)提升:
1、漢語詞法分析中間件(分詞、詞性標(biāo)注、人名地名機(jī)構(gòu)名識別)
漢語詞法分析中間件能對漢語語言進(jìn)行拆分處理,是中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機(jī)場(Conditional Random Field,簡稱CRF)模型,分詞準(zhǔn)確率接近99%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢;特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等。
2、新語自動發(fā)現(xiàn)中間件
新詞自動發(fā)現(xiàn)技術(shù)能夠識別出詞典中沒有出現(xiàn)過的詞匯、短語、命名實(shí)體、流行用語,是語言文獻(xiàn)分析方面的一把利器。新詞發(fā)現(xiàn)脫胎于語言自動分詞技術(shù),又是對分詞技術(shù)的有效提升和補(bǔ)充。
靈玖采用基于語義的統(tǒng)計語言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,能夠有效地挖掘出新出現(xiàn)的特征詞匯,所輸出的詞匯可以配以權(quán)重。
3、文本聚類中間件
文本聚類是基于相似性算法的自動聚類技術(shù),自動對大量無類別的文檔進(jìn)行歸類,把內(nèi)容相近的文檔歸為一類,并自動為該類生成標(biāo)題和主題詞。適用于自動生成熱點(diǎn)輿論專題、重大新聞事件追蹤、情報的可視化分析等諸多應(yīng)用。
靈玖基于文章集合核心語義理解技術(shù),不僅聚類速度快,而且準(zhǔn)確率高,并能自動得到類別間的演化趨勢。
4、增加關(guān)鍵詞掃描中間件
關(guān)鍵詞掃描中間件組件采取先進(jìn)的NLPIR大數(shù)據(jù)搜索與挖掘系統(tǒng),可以針對原始文本關(guān)鍵詞集進(jìn)行處理和加工,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。
采用基于語義的統(tǒng)計語言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識別出*新出現(xiàn)的新詞語,所輸出的詞語可以配以權(quán)重。 |
 |
|