大數(shù)據(jù)具有規(guī)模大、種類多、生成速度快、價(jià)值巨大但密度低的特點(diǎn)。大數(shù)據(jù)應(yīng)用就是利用數(shù)據(jù)分析的方法,從大數(shù)據(jù)中挖掘有效信息,為用戶提供輔助決策,實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的過程。
眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實(shí)了,而*重要的現(xiàn)實(shí)是對大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定*終信息是否有價(jià)值的決定性因素。
大數(shù)據(jù)價(jià)值鏈可分為4個(gè)階段:數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)儲存以及數(shù)據(jù)分析。數(shù)據(jù)分析是大數(shù)據(jù)價(jià)值鏈的*后也是*重要的階段,是大數(shù)據(jù)價(jià)值的實(shí)現(xiàn),是大數(shù)據(jù)應(yīng)用的基礎(chǔ),其目的在于提取有用的值,提供論斷建議或支持決策,通過對不同領(lǐng)域數(shù)據(jù)集的分析可能會產(chǎn)生不同級別的潛在價(jià)值。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
大數(shù)據(jù)挖掘已成為大數(shù)據(jù)技術(shù)*重要的應(yīng)用,它從大數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的知識,找出趨勢,為決策層提供有力依據(jù),對產(chǎn)品或服務(wù)發(fā)展方向起到積極作用,將有力推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)分析技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實(shí)現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。 |
 |
|