河北快三走势图表走势图分布图|大乐透开奖图表走势图

探論壇中社會民生問題的分析與提取

1、引言 論壇是Internet上的一種電子信息服務系統. 論壇上聚集了許多愿意分享經驗、信息和思想的用戶,這些用戶通過注冊的唯一ID來瀏覽他人發布的信息并發布自己的消息而形成一個線程. 論壇交流已經成為當今社會交流思想和信息傳播的一個重要途徑. 論壇上的話題主要分為
閱讀技巧Ctrl+D 收藏本篇文章

  1、引言

  論壇是Internet上的一種電子信息服務系統.

  論壇上聚集了許多愿意分享經驗、信息和思想的用戶,這些用戶通過注冊的唯一ID來瀏覽他人發布的信息并發布自己的消息而形成一個線程.

  論壇交流已經成為當今社會交流思想和信息傳播的一個重要途徑.

  論壇上的話題主要分為兩類:(1)突發事件相關話題,特點是持續時間短,討論激烈;(2)民生話題,特點是持續時間較長,一般為貼近生活的話題.已有的研究主要集中于前者,如論壇熱點話題的發現及預測研究、突發事件后不實消息傳播的研究、基于輿情的敏感新信息搜索方法等.后者的研究相對較少,同時由于民生話題是輿情分析的難點,其相關研究具有實際意義.

  因此,本文算法主要目的是提取時間軸上的民生話題.

  識別民生話題算法結合時間維度,應用LDA話題模 型和短文本相似度評估模型進行提取.民生話題的提取首先要保證聚類結果話題相關,算法采用LDA生成話題模型,短文本相似度模型篩選并聚集相關帖子;另一方面本文采用相鄰時間片話題交叉匹配的方法保證話題在時間軸上的持續性.

  在得到了民生話題對應的帖子、參與者及其回復關系后,就可以應用社會網絡分析進一步得到如關鍵人物分析、社區劃分、話題演化等方面的研究.

  2、相似度評估模型Quan

  提出了基于話題模型的短文本相似度計算方法,該方法是利用話題模型來修正短文本的特征向量,最終仍然通過計算向量之間的夾角余弦來表示文本之間的語義相關性.本文算法參考其向量化模型,采用最小值閾值的方法,本文方法在不降低結果準確性的同時,能夠相對減少計算開銷.

  相似度評估模型主要針對相鄰兩個時間段的話題進行分析,假設前一期的話題Tformer={t1,…ti,…tn},對應的話題向 量 為ti={(ti1,pi1),…(tij,pij),…(tiN,piN)};后一期的話題Tlater={t1,…tk,…tm},對應的話題向量為tk={(tk1,pk1),…(tkl,pkl),…(tkM,pkM)}.

  要找到相鄰時間片上相似度高的話題,需要進行n×m次相似度計算,即兩個時間段的每一個話題都需要和另一個時間段的所有話題進行相似度評估.ri,d=∑word∈ti∩dminp(word)si,k=∑word∈ti∩tkmin(p(word)) (1)式中,ri,d表示標題向量d與話題ti的相關度,如果相關度大于閾值σ2,即認為該帖子是與話題相關.si,k表示話題向量ti與tk的相關度,它等于兩個話題中同時出現的某個詞匯的概率較小值的總和.

  當si,k大于設定閾值σ1時,算法認為這兩個話題是相似的.當同一話題持續超過若干期,可以認定為民生話題.同時,在一個時間段內也需要應用相似度來衡量一個話題ti的規模,這時只需要應用ti的關鍵詞與向量化的帖子標題d進行匹配,所有匹配成功的概率總和即為相關度.

  3、論壇民生話題識別方法

  由于網絡數據的時間特色,把用戶交互的數據按相等的時間T來劃分,并假設這些時間段是獨立的或者小部分重合的,在本文實驗中,假設數據是按半個月(15天)進行劃分的.

  對于每一個時間段的數據進行話題建模,并通過相鄰時間段話題相似度比較使得跨越多個區域的民生話題浮現出來.

  得到民生話題算法的主要思想如圖1所示..

  首先,用 戶交互數 據按時間區間進行劃分,并使用LDA得到時間段內的話題模型.然后,相鄰時間段的話題數據進行相似度計算,把跨越多個時間段的相關度高的話題定義為民生話題[10].

 論文摘要

  算法的具體步驟如下所示.

  Step 1.應用LDA話題模型分時間段進行話題識別,并統計話題相關的帖子數、參與用戶數、回復率、熱度等;對于時間段t,得到N= TOPICi(t)個經過屬性過濾的話題,每個話題包含關鍵詞列表及對應概率.

  其中屬性過濾滿足以下條件之一的話題被保留:(1)標題向量與該話題向量相似度大于閾值σ2的帖子總數大于等于10;(2)參與該話題的總用戶數大于等于該期活躍用戶的10%;(3)熱度(點擊數除以該期活躍用戶數)大于等于10%;(4)回復率(總參與人數除以總點擊數)大于等于30%;其中,閾值σ2在實驗中取值為0.05,即如果一個帖子標題向量含有某話題的一個主關鍵詞,則可以確定這個帖子是該話題的相關帖子.

  Step 2.識別民生話題.通過計算相鄰時間段話題的相似度來得到延續數期的民生話題.

  在本文實驗中,話題相關度閾值σ1=0.09.對于這樣的話題,TOPICi,如果它在j,j+1,…,j+s這幾個時間段有定義,則這個話題的帖子數POSTi和用戶數USERi分別為POSTi=∑j+st=jPOSTi(t)USERi=∪j+st=jUSERi(t) (2)突發事件的帖子時間跨度小,網絡演化結構相對簡單,不屬于本文關注的民生話題.

  突發事件一般在時間軸上持續時間不足3期,因為有些突發事件可能正好發生在兩個時間段交匯處,因此,定義民生話題最好持續treq(s>treq),實驗中treq=3.

  4、實驗

  4.1數據集

  本文數據來源于中國知名論壇天涯論壇,獲取數據為天涯雜談自2011年1月至2013年10月的數據,包含325 288個 用戶、102 756個 主帖 和4 524 756條回復.

  提取民生話題的實驗在以上數據集合的一個子集(2012年10月到2013年10月)上進行.

  在這些注冊用戶中,有12 701人在2011年到2013年時間段內至少發表了一個帖子,3 724人發表至少2個帖子,并有573人發表多于5個帖子.

  單貼平均回復數(只考慮至少有5個回復的帖子)是62.91.2011年用戶共發表帖子10 324個和評論400 571個 (38.8評論/帖子 ),2012年發表帖子31 146個和評論1 326 819個(42.6評論/帖子),2013年發表帖子61 286個和評 論2 797 366個(45.6評論/帖子).

  4.2話題的識別

  對給定的數據以發帖時間預處理,應用LDA話題模型進行話題識別,其中超參數α和β分別設為50/Z和0.01,話題數Z設為50,Gibbs抽樣迭代次數設為1 000.

  每個時間片所得到的50個話題顯然有一部分不是本文關注的民生問題,因此通過屬性過濾進行分析處理,將得到每個月數目不同的話題數如表1所示.

 論文摘要

  得到的總話題數為536個,平均每期22個,其中第9期最少僅有10個,第21期最多為37個.

  首先分析每個話題的相對大小,圖2中給出了話題相關帖子數量的統計信息.

  為了提取民生話題之前不流失更多的有效數據,這里相似度參數取值σ2取0.05,即一個帖子標題如果含有某話題的一個主關鍵詞即被保留.

  可見88%的話題的規模都集中具有61到150個相關帖子.

論文摘要

  4.3民生話題的識別

  接下來的分析主要是識別民生話題,這些話題需要持續存在超過一個給定的期數限制.民生話題的數量受相似度取值的影響比較大,圖3中給出了兩者的關系.一般情況下,話題的主關鍵詞一般頻率比重為0.05左右,所以當相似度確定在0.1時就意味著有兩個主關鍵詞一致,這時基本可以肯定兩個話題是討論的一個問題.

  實驗也證明,圖中是一個重要的拐點發生在σ1=0.09時,對應得到了16個民生話題,經手工驗證和排查發現準確性較高,其話題質量高.

  論文摘要

  得到的16個民生話題及其相關的帖子4 216個.這大大縮小了進一步對民生問題進行分析的數據規模.平均每個民生話題有相關帖子263個,按最短持續3期進行計算,平均每87個,低于一般保留話題的規模,這也體現了民生話題并不具有突發性話題的高發帖率、高點擊率和高回復率,其突出特點是持續周期長.

  4.4話題持續時間分析

  圖4中給出了民生話題持續的時間分布,其中12個(75%)民生話題持續3期(3個月),這是也是本實驗認定持續話題期數下限.同時4個話題持續超過4期.

  民生話 題的分布 是比較均勻的,只有2013年5月(13期)有4個民生話題同時存在.分析數據發現,在這個時間段為畢業季和高考的時間,同時與青春類電影如《致青春》的上映時間重合,使得此類話題持續高溫并不斷演化,但是話題的演化問題超出了本文研究范圍.

  同時《中國最強音》(X Fac-tor)和《中國夢之聲》(Chinese Idol)等全民歌唱進取真人秀節目的熱播也是這是時間段民生話題的貢獻者.

 論文摘要

  同時所得到的民生話題是具有較高的相異性的,因為相同時間段內重疊的話題不多,而時間上相隔較遠的話題雖然有可能相似,但顯然是兩個不同的事件.如每年畢業、高考、就業這個民生話題都會重復上演但有每年不同,這類話題的演化分析不在本文研究范圍之內.

  所以本算法那所提取的持續話題是具有很好的多樣性的.

  5、結束語

  本文根據論壇數據的特點[11],設計并實現了民生話題的提取算法.為了區別民生話題和熱點話題,本文按時間片對數據進行了劃分,并通過話題模型LDA對各個時間片分別進行話題提取并屬性過濾,進一步應用相似度模型對相鄰時間片的話題進行交叉匹配,得到持續火熱的民生話題.

  實驗結果揭示了大多數的民生話題都持續3期左右,在數量上遠遠小于突發性話題,且時間分布上較均勻.通過手工驗證得到的民生的話題一般為社會大眾話題,進一步分析這些話題的參與者的社區組成、核心人物及思想派別,將對社會輿情分析很有益處.

轉載請注明來源。原文地址:http://www.gyxbg.com.cn/html/network/20191011/8205942.html   

探論壇中社會民生問題的分析與提取相關推薦


聯系方式
微信號 Lw54_com
熱點論文
14705193098 工作日:8:00-24:00
周 日:9:00-24:00
河北快三走势图表走势图分布图 男子买彩票10年稳赚不赔 彩无敌 定投肯定赚钱吗 教你两个平台对打 pk10预测软件破解 手机时时彩冷热号统计 送20元棋牌游戏平台电玩 捕鱼来了所有副炮大全 二十一点赢钱概率 麻将游戏 pc蛋蛋28测试 11选五5技巧稳赚 怎么用手机写小说赚钱软件是什么软件 mg老虎机游戏娱乐网站 排列三组选六6码遗漏分析 世界杯小组赛优胜冠军