大數(shù)據(jù)下水行業(yè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)發(fā)表時間:2020-04-21 14:31 關(guān)鍵詞:輿情;網(wǎng)絡(luò)輿情;網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng) 一、引言 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2016 年 1 月 22 發(fā)布的《第 37 次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示:“我國網(wǎng)民規(guī)模達(dá) 6.88 億,互聯(lián)網(wǎng)普及率為 50.3%,中國居民上網(wǎng)數(shù)已過半上網(wǎng)設(shè)備正在向手機(jī)端集中,手機(jī)成為拉動網(wǎng)民規(guī)模增長的主要因素。截至 2015 年 12 月,我國手機(jī)網(wǎng)民規(guī)模達(dá) 6.2 億,90.1%網(wǎng)民通過手機(jī)上網(wǎng)。眾所周知,互聯(lián)網(wǎng)作為繼電視、廣播、報(bào)紙之外的第四媒體,已經(jīng)成為反映社會輿情的一個最重要的載體。 水務(wù)行業(yè)是關(guān)乎國計(jì)民生的重大行業(yè),與民眾的生活、生產(chǎn)息息相關(guān),影響巨大。隨著水企逐年的改革,水行業(yè)的競爭格局初步形成,水行業(yè)外,媒體對水企的關(guān)注度空前提高,特別關(guān)注智慧水務(wù)、用水安全、水資源利用等等;在水行業(yè)內(nèi),水價(jià)聽證、調(diào)整、歸口管理、行業(yè)競爭、公共服務(wù)、社會責(zé)任、官員廉政建設(shè)等重大事件受到廣大網(wǎng)民、境內(nèi)、境外媒體的強(qiáng)烈關(guān)注。網(wǎng)絡(luò)輿情的監(jiān)控和引導(dǎo),已經(jīng)成為水行業(yè)各企事業(yè)單位必須解決好的一項(xiàng)重要工作。網(wǎng)絡(luò)輿情正在成為水企決策的重要依據(jù),因此新形勢下,在每次突發(fā)性事件發(fā)生后,水企相關(guān)職能部門如何以最快速度收集網(wǎng)上相關(guān)輿情信息,跟蹤事態(tài)發(fā)展,及時向有關(guān)部門通報(bào),快速應(yīng)對處理等,是水行業(yè)亟需解決的問題,以下是最近一段時間以來部分涉水典型 輿情事件: 2016 年 6 月 26 日:江蘇沭陽城區(qū)自來水出現(xiàn)大面積異味 2016 年 5 月 25 日:北京回龍觀部分小區(qū)自來水現(xiàn)異味停水,官方稱突發(fā)性中水污染 2016 年 4 月 9 日:媒體報(bào)道中國“超八成地下水不能飲用”水利部澄清 2016 年 3 月 8 日:一位二年級小學(xué)生寫信給北京市水務(wù)局:我家門前的河好臭 2015 年 6 月 15 日:廣東練江水污染 2015 年 3 月 4 日:蘭州市自來水異味事件 第二屆中國城市智慧水務(wù)高峰論壇 網(wǎng)絡(luò)輿情監(jiān)控通過對熱點(diǎn)問題和重點(diǎn)領(lǐng)域比較集中的網(wǎng)站信息(如傳統(tǒng)媒體網(wǎng)頁、論壇、貼吧、微博、微信公眾號等)進(jìn)行二十四小時全天候監(jiān)控,隨時抓取最新的信息內(nèi)容和網(wǎng)民評論意見。對所采集到的信息,進(jìn)行初步過濾和預(yù)處理,對熱點(diǎn)問題和重要領(lǐng)域?qū)嵤┍O(jiān)控,通過人際交互建立輿情監(jiān)控的知識庫,用來指導(dǎo)智能分析的過程。對熱點(diǎn)問題的智能分析通過傳統(tǒng)基于向量空間的特征分析技術(shù),對抓取的內(nèi)容進(jìn)行分類、聚類和摘要分析,對信息完成初步的再組織,然后在監(jiān)控知識庫的指導(dǎo)下進(jìn)行基于輿情的語義分析,使管理者看到的網(wǎng)民意見更有效,更符合現(xiàn)實(shí);最后將監(jiān)控的結(jié)果,分別推送到不同的職能部門,以供重大決策。 二、監(jiān)控系統(tǒng)原理 由于網(wǎng)上信息量十分巨大,且水企沒有專門的部門或人員負(fù)責(zé)輿情收集、分析、研判的工作,僅靠機(jī)械式人工搜索的方法,難以應(yīng)對大數(shù)據(jù)信息的收集和處理,而利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)可以實(shí)現(xiàn)自動化的網(wǎng)絡(luò)輿情預(yù)警與分析,解決網(wǎng)絡(luò)輿情管理過程中的輿情采集、分析、表達(dá)、干預(yù)等難題,從而客觀呈現(xiàn)互聯(lián)網(wǎng)上的熱點(diǎn)輿情。以下從普通用戶使用網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的角度按照自上而下的方法描述輿情監(jiān)控執(zhí)行過程。 1、用戶通過瀏覽器查詢或者提交查詢的詞或者短語“水務(wù)集團(tuán)”,輿情監(jiān)控引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 2、上述過程涉及到 2 個問題: 如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,如何進(jìn)行排序。用戶的查詢“水務(wù)集團(tuán)”經(jīng)過分詞器被切割成小詞組<水務(wù)集團(tuán) 1,水務(wù)集團(tuán) 2…水務(wù)集團(tuán) n>,并被剔除停用詞(的、了、是等字),根據(jù)系統(tǒng)維護(hù)的一個倒排索引可以查詢某個詞水務(wù)集團(tuán) i 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 <水務(wù)集團(tuán) 1,水務(wù)集團(tuán) 2…水務(wù)集團(tuán) n>都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,下一步,返回的初始網(wǎng)頁集通過計(jì)算與查詢詞的相關(guān)度從而得到排名,按照網(wǎng)頁的排名順序即可得到最終的網(wǎng)頁列表。 3、假設(shè)分詞器和網(wǎng)頁排名的計(jì)算公式都是既定的,確定倒排索引以及原始網(wǎng)頁集就變得至關(guān)重 要。原始網(wǎng)頁集由采集網(wǎng)頁組成并被保存在本地;而倒排索引,即詞組到網(wǎng)頁的映射表則建立在正排索引的基礎(chǔ)上,后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引。 4、由于爬蟲收集來的原始網(wǎng)頁中可以包含很多信息,如 HTML 表單以及一些垃圾信息等,網(wǎng)頁分析可以去除這些信息,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。采集子系統(tǒng)從 Internet 中抓取眾多的網(wǎng)頁作為原始網(wǎng)頁庫存儲于本地,然后網(wǎng)頁分析器抽取網(wǎng)頁中的主題內(nèi)容交給分詞器進(jìn)行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引 第二屆中國城市智慧水務(wù)高峰論壇 數(shù)據(jù)庫,用戶查詢時,通過分詞器切割輸入的查詢詞組,并通過檢索器在索引數(shù)據(jù)庫中進(jìn)行查詢,得到的結(jié)果返回給用戶。 三、數(shù)據(jù)采集系統(tǒng) 數(shù)據(jù)采集系統(tǒng)根據(jù)用戶信息需求,設(shè)定主題目標(biāo),使用人工參與和自動信息采集結(jié)合的方法完成信息收集任務(wù)。用戶只需輸入一個待采集的目標(biāo)網(wǎng)址即可實(shí)現(xiàn)將圖文結(jié)合的信息采集到本地的目的。 |