異言網:資料收集與處理經驗分享 China Dissent Monitor: Experiences in Data Collection and Processing

Welcome to g0v summit 2024 collaboration notes!
Entry Point: https://g0v.hackmd.io/@summit2024/notes
Tap 「」button on the top left to show agenda in mobile devices.

Slido 線上提問連結 Online QA link:
https://app.sli.do/event/jRwBuwMbChdfGyeB8ULeW7
議程投影片 presentation slides:待更新

如果需要即時口譯,請參考行前通知中的 YouTube 連結
If you need live interpretation, please refer to YouTube link in your pre-event notice.
這份共筆裡也有更多的資料可以參考:多語翻譯須知 Notice on Multi-lingual Interpretation

筆記

計畫目的

  • 計畫主要目的是系統性地收集中國的抗議事件,範圍限縮在中國本土,香港、澳門不在範圍之內。
  • 定義「抗議」時,用了比較寬鬆的方式
    • 行動者在中國本土表達不滿、維護權益、促進自身或公共利益,都在紀錄的抗議事件範圍中。我們希望盡可能搜集到不同類型的活動,從最基本的勞工抗議、到白紙運動,都會紀錄
    • 包括線上跟線下的抗議,希望盡可能被政府刪掉的資訊留下來,主要還是以線下為主,線上是紀錄比較指標性的網路抗議為主
    • 但什麼是「抗議」?有時候規模比較大、金額比較大的消費者糾紛,我應該把其他的消費者糾紛也放進來?常遇到這樣的問題。目前解決方式就是分析師討論,達成共識

起因

  • 希望能填補資訊的缺口
    • 2003-2007 年中國有發佈「群體性事件」的統計資料,有 10 萬起
    • 1990 年開始也有相關的資料,只是不是從官方發佈
    • 2008 中國停止公布,到 2014 之間就比較沒有看到資料
    • 直到 2014 年「非新聞」的創立,盧昱宇、李婷玉兩個人工作十幾個小時,在中國常用的社群平台上收集抗議事件,做基本的核實之後記錄下來,包括貼文內容、影片、照片,紀錄的案件大約 7 萬多筆
    • 2016 年盧昱宇、李婷玉兩人被判刑,後來就沒有類似的計畫
    • 紀錄這件事的主體從官方變成個人,資料量是有下降的;但非新聞紀錄的事件還是蠻多的
    • 2022 年異言網發佈,目前是 5 千多筆資料,從此差距可以看到網路資訊環境有很大的變化
    • 以前容易取得的抗議事件資料消失得愈來愈快,也更難想像可以從哪裡找到這些資料
    • 但我們剛好遇到中國抗議事件比較蓬勃的期間,從 6 月開始記錄,7 月就遇到河南銀行的抗議事件,儲戶的錢被官股銀行的理事拿走,這個錢到現在都還沒找回來。他又剛好在 covid-19 的期間。有好幾次儲戶想要去北京上訪抗議,但他們的健康馬就變成紅碼(被認為跟感染者接觸需要隔離,可參犯我者虽远必朱 )。後來就有比較大的抗議在鄭州,有國際報導。
    • 7 月之後也有各種大小的反封控抗議,接下來是白紙運動,會看到幾萬人上街抗議的盛況
    • 當天我只是想看有沒有新的河南銀行抗議事件,發現微博被抗議政府封控政策的文章洗版,我週末就在電腦前坐了兩天
    • 後來有人說自由之家是白紙運動的幕後黑手,因為我們發布計畫之後幾個月就有白紙運動,但我們只有三個人…不可能做到這個大的改變

資料處理流程

  • 線索表:彙整檢查由不同來源收集的抗議事件線索
    • google sheet
  • 資料表:依照計畫鎖定欄位標示每一起抗議事件
    • google sheet
  • 網站:將編碼後資料與影音檔案上傳

使用線索表的原因

  • 但目前從線索表到上架可能需要幾個月的時間,是我們目前正在努力解決的問題
  • 人力問題影響很大,我們能找到的資料量都遠超過能夠紀錄的量,需要有個地方把來不及紀錄的資料留下來,方便其他人可以處理
  • 搜集資料是從社群平台、信賴的新聞網站,需要有個地方(線索表)讓大家不要在同樣的來源重複做工

線索表除了人工蒐集以外,還有以下資料來源

  • 跟 double think 合作的機器學習模型和微博爬蟲,DT 會用我們提供的關鍵字清單,每天固定時間把想找的資料記錄下來,並 AI 判斷他是我們想找的抗議事件的機率有多高,我們每半個月處理一次 DT 傳回來的資料,並把高於 70% 機率的資料手動再確認一次,判斷我們的貼文是不是我們想找的,是的話再放到線索表裡。也會將確認後的結果放回訓練模型裡,讓他表現得更好
  • 合作夥伴的提供:無論是由分析師自己找的資料、DT 的爬蟲,能找到的都是相對比較一般的抗議事件。西藏或新疆的事件,無法在我們平常使用的平台上找到資訊。另外我們也不會講當地的語言,需要夥伴標註這些抗議事件為什麼是抗議,會包括文化跟政策背景的差異
  • 中國對於 LGBTQ 的活動壓制愈來愈大,活動不那麼公開,在性別議題上有其他單位合作,讓我們可以得到這些資訊

線索表的格式

  • 建立事件指紋:省份/地級市 時間 抗議時間簡述[專有名詞]
  • 建立事件指紋的重要性:當資料量一大你會忘記自己記過什麼東西,當同時有好幾個人一起做資訊收集時,問題會更嚴重,你可能會紀錄到其他人已經紀錄的東西
  • 專有名詞,如果是抗議建商,會紀錄建商的名字;勞工抗議,會紀錄業主的名字,方便查詢

資料表的格式

  • 從線索表的資料編碼,成為資料表:至少有 20 個欄位,包括時間、地點、模式(抗議標語)、群體(不同產業勞工)、議題、對象(抗議對象)、規模(線上/線下)等等
  • 有中英文標籤,後來有把轉譯英文的部分自動化

官網

  • 如果抗議事件有其他的文件或圖片會一併上傳
  • 網站上有簡單的視覺化儀表板,有數量、地點、發生機率等等,但是是提供參考而已,因為從發生到上架會有幾個月的延遲
  • 資料可以提供下載(除了照片跟影片沒有)
  • 點進事件中有詳細資料
  • 去年做了照片牆,考量到一般人對資料可能沒有那麼強烈的需求,想提供視覺化一點的內容(游標指過去影片就會動等等)
  • 也用資料做了分析報告,每一季做一次
  • 5 月底會辦圓桌論壇,大家有空的話可以來參加

困難

  • 中國網信辦的網路審查的力道,從 1990 年到我們收集資料的期間,感覺到你能在網路上收集的資料愈來愈少

Q&A

Q. 如何避免東西消失?被中國政府刪掉?

  • 至少有四份備份,兩份實體、兩份線上,分析師自己的電腦、每週會對做的內容備份

Q. 有沒有碰過阻斷攻擊?

  • 還沒遇過。不太確定其他在做類似資料的單位(例如中國勞工通訊)有沒有,但好像大家都沒有,可能還算蠻安全的