无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 文本獲取與預處理

文本獲取與預處理

2018-05-09 14:39:03 | 來源:中培企業IT培訓網

(2)輿情分析在大數據時代的背景下,網絡上存在大量以文本為代表的非結構化數據,特別是互聯網上的新聞、社交媒體數據,其中更不乏與商業銀行有關的輿情信息。對這些信息進行有效的挖掘和利用,將為商業銀行及時掌握在互聯網上傳播的潛在風險事件提供一個全新的視角。

實現輿情風險管理的文本挖掘技術過程一般分為文本獲取、預處理、分析挖掘、可視化展現等步驟。

1)文本獲取:商業銀行獲取文本的方式包括已采購的財經新聞、行業動態、研究報告等外部資訊信息,還可以通過開發采集工具來進一步擴大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進行采集。采集方式包括搜索引擎(通過搜索引擎進行關鍵詞搜索,之后將所有結果通過爬網程序進行采集)、新聞網站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結構中解析出正文和評論數據)、微博頁面適配(通過模擬實際用戶登錄后對微博信息進行采集)。

2)預處理:包括中文分詞和文本去重等步驟,從而實現文本的預處理。前者是在獲取到文本數據之后,將文本切分成詞匯的集合,使得機器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據特征詞的編碼以及在文檔中的權重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進制編碼);文檔指紋完全相同的文檔,則認定為內容相同;指紋間不同的位數越少,則說明文檔內容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發現。

標簽: 輿情分析

相關閱讀

主站蜘蛛池模板: 欧美午夜精品一区 | 久久er99热精品一区二区三区 | 韩国午夜理论a三级在线观看 | 国产中文在线 | 国产在线拍小情侣国产拍拍偷 | 国产尤物av | 美女国产精品 | 国产系列丝袜熟女精品网站 | 久久久久女人精品毛片九一韩国 | 高潮喷水无码一区二区三区 | 欧美欲妇xxxxx | 亚洲wu码| 5252aⅴhaose我爱久久 | 91aaa国产 | 超碰在线三级 | 精品一区二区三区中文字幕视频 | 在线免费看av片 | 日韩一区二区高清视频 | 永夜星河一到30集免费观看高清 | 亚洲iv一区二区三区 | 日本一区二区三区精品视频在线观看 | 三级视频在线观看 | 99tv成人影院 | 人妻熟女欲求不满在线 | 国产人妖乱国产精品人妖 | 最近免费中文字幕中文高清6 | 精品成人国产在线观看 | 99久久免费精品国产男女性高 | 免费的黄色在线视频 | 琪琪久久影院 | 亚洲精品天堂无码中文字幕 | 久久免费观看一级毛片 | 又摸又揉又黄又爽的视频 | 91亚洲成a人片在线观看www | 日本理论大片 | 亚洲美女高清aⅴ视频免费 手机看日韩片 | 欧美第一页 | 老色鬼视频77777av | 精品午夜av| 国产黄色三级网站 | 久久夜色精品国产欧美乱文字幕无码 |