政治角力


新舊媒體猜一猜

Find Out More

研究動機


分析新媒體與傳統媒體之間的文本差異


近幾年公民參政勢力明顯增加,新型態的媒體也隨這波公民參政的力量而出現。 我們想要比較傳統的主流媒體,在「立場」、「用詞」、「新聞產生來源(專業記者or公民記者)」、「文風」上與新型態的媒體的差異。 例如:我們認為新媒體傾向即時性發佈新聞於網路平台、在用詞上較為新穎且直接、撰寫角度頃向以公民利益為基礎,可能因此產生了了不同於舊媒體的事件描述角度及立場,我們想藉由這個計畫實驗是否結果與假設相符,進而藉由立場差異自動偵測新舊媒體政治文本。

Get Started!

實驗過程


Definition

新媒體
自2013年7月洪仲丘事件後開始受到關注的媒體。 如: 風傳媒、新頭殼、民報、Nownews…etc

舊媒體
傳統媒體。如:自由、中時、蘋果、聯合…etc

Data Source

網路爬蟲
由第八組羅偉航同學熱心協助抓取六大媒體網路新聞文章.
來源
語料蒐集時間及數量
從2015.12.29 往前回溯,收集風傳媒、新頭殼、民報、自由、中時、蘋果等六大家媒體,各一千篇,共六千篇政治新聞文本。

Data Preprocessing

去除干擾預測的雜訊
清除與文風無關用字。如:相關報導、即時新聞、記者的名字。
斷詞( using jiebaR )

  • 第一步,是先將網路爬蟲爬下來的6000篇新聞文本先用jiebaR斷詞。
  • 第二步,利用tm及tmcn的語料庫結構,去除停用詞(中文)
  • 第三步,取詞頻100以上的詞,建立document-term matrix (dtm)
  • 第四步,將dtm輸出成文字檔,供機器學習模型訓練

Hypothesis

根據特定事件(蔡英文回應媒體追問她是否有炒地皮一事)觀察新、舊媒體的文本。
文本顯示新媒體傾向以流水帳方式撰寫,並多描述事件場景中主角當時的情緒或行為。而舊媒體則是簡短摘要事件主角針對議題的回應。

Hypothesis Table


舊媒體 新媒體
媒體 蘋果、自由、中時 風傳媒、新頭殼、民報
平台 報紙 網路
發布頻率 定期 即時
記者 專業記者 公民記者
立場 較親某黨派或某事件主角 就中性,以「看故事發展」角度撰寫
語言 用語叫制式、較摘要性事件描述 似流水帳,多事件細節(人物情緒描述)、新用語較多

我們的發現


關於舊媒體

  • 舊媒體中我們發現特定兩政黨被提及次數遠多於第三個政黨。
  • 對於副手的提及次數相對都較少,讓我們聯想到是否有偶像化特定人物。
  • 提及各政黨或副手的次數都較新媒體少。
  • 關於新媒體

  • 新媒體中我們看到正、副手被提及的次數高出許多,如「王如玄」,我們就會聯想到新媒體可能較不偏重特定人物,反而事件的發燒程度與人物被提及次數成正比。
  • 新媒體中我們也發現「民報」的平均字數較多,但是提及個政黨或人物卻沒有比較多。


  • 綜合以上,我們可以發現利用詞頻(word frequency)能達成區分新舊媒體的目標!





    鐘豪

    Random Name

    徐瑞陽

    Random Name

    陳家葦

    Random Name

    李佳臻

    Random Name