詞條
詞條說明
漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。其他的比如機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領域公認的一大難題,也是自然語言理解研究領域
近年來,隨著Internet?的迅猛發展以及人們利用信息技術生產和搜集數據能力的大幅度提高,大規模的網絡文本庫不斷涌現。為了便于在海量文本庫中搜尋、過濾、管理這些文本,基于人工智能技術的文本自動分類方法成為人們研究的焦點。 數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史較短。傳統的信息檢索技術對于海量數據的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以
文本挖掘(Text Mining)是一個從結構化或非結構化文本信息中獲取用戶感興趣或者有用的模式的過程。文本挖掘的主要目的是從非結構化文本文檔中提取有趣的、重要的模式和知識。可以看成是基于數據庫的數據挖掘或知識發現的擴展。 文本挖掘是從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似。但與傳統的數據挖掘相比,文本挖掘有其*特之處,主要表現在:文檔本身是半結構化或非結構化的,無確定形式并
12月28日,從國家新聞出版廣電總局官網獲悉,靈玖軟件成功獲得由國家新聞出版廣電總局審核的《社會科學研究領域知識挖掘與服務實驗室》建設單位,是首批全國大數據知識服務六家單位之一。該實驗室是由靈玖軟件與社會科學文獻出版社聯合申報的。 《社會科學研究領域知識挖掘與服務實驗室》主要圍繞“社會科學研究領域知識挖掘與服務”展開研究。主要研究方向及內容包括以下幾個方面。 (1)社會科學研究領域知識服務標準研
公司名: 靈玖中科軟件(北京)有限公司
聯系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區蘇州街49-3號盈智大廈5層
郵 編: