HackMD
    • Sharing Link copied
    • /edit
    • View mode
      • Edit mode
      • View mode
      • Book mode
      • Slide mode
      Edit mode View mode Book mode Slide mode
    • Note Permission
    • Read
      • Owners
      • Signed-in users
      • Everyone
      Owners Signed-in users Everyone
    • Write
      • Owners
      • Signed-in users
      • Everyone
      Owners Signed-in users Everyone
    • More (Comment, Invitee)
    • Publishing
    • Commenting Enable
      Disabled Forbidden Owners Signed-in users Everyone
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Invitee
    • No invitee
    • Options
    • Versions
    • Transfer ownership
    • Delete this note
    • Template
    • Insert from template
    • Export
    • Google Drive Export to Google Drive
    • Gist
    • Import
    • Google Drive Import from Google Drive
    • Gist
    • Clipboard
    • Download
    • Markdown
    • HTML
    • Raw HTML
Menu Sharing Help
Menu
Options
Versions Transfer ownership Delete this note
Export
Google Drive Export to Google Drive Gist
Import
Google Drive Import from Google Drive Gist Clipboard
Download
Markdown HTML Raw HTML
Back
Sharing
Sharing Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Note Permission
Read
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
Write
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
More (Comment, Invitee)
Publishing
More (Comment, Invitee)
Commenting Enable
Disabled Forbidden Owners Signed-in users Everyone
Permission
Owners
  • Forbidden
  • Owners
  • Signed-in users
  • Everyone
Invitee
No invitee
   owned this note    owned this note      
Published Linked with
Like BookmarkBookmarked
Subscribed
  • Any changes
    Be notified of any changes
  • Mention me
    Be notified of mention me
  • Unsubscribe
Subscribe
--- tags: summit2024 --- # 異言網:資料收集與處理經驗分享 China Dissent Monitor: Experiences in Data Collection and Processing :::info Welcome to g0v summit 2024 collaboration notes! Entry Point: https://g0v.hackmd.io/@summit2024/notes Tap 「<i class="fa fa-angle-double-right"></i>」button on the top left to show agenda in mobile devices. ::: :::success :::success Slido 線上提問連結 Online QA link: https://app.sli.do/event/jRwBuwMbChdfGyeB8ULeW7 議程投影片 presentation slides:待更新 ::: :::success 如果需要即時口譯,請參考行前通知中的 YouTube 連結 If you need live interpretation, please refer to YouTube link in your pre-event notice. 這份共筆裡也有更多的資料可以參考:[多語翻譯須知 Notice on Multi-lingual Interpretation ](https://g0v.hackmd.io/@summit2024/SkhfThZfR ) ::: success ::: # 筆記 ### 計畫目的 - 計畫主要目的是系統性地收集中國的抗議事件,範圍限縮在中國本土,香港、澳門不在範圍之內。 - 定義「抗議」時,用了比較寬鬆的方式 - 行動者在中國本土表達不滿、維護權益、促進自身或公共利益,都在紀錄的抗議事件範圍中。我們希望盡可能搜集到不同類型的活動,從最基本的勞工抗議、到白紙運動,都會紀錄 - 包括線上跟線下的抗議,希望盡可能被政府刪掉的資訊留下來,主要還是以線下為主,線上是紀錄比較指標性的網路抗議為主 - 但什麼是「抗議」?有時候規模比較大、金額比較大的消費者糾紛,我應該把其他的消費者糾紛也放進來?常遇到這樣的問題。目前解決方式就是分析師討論,達成共識 ### 起因 - 希望能填補資訊的缺口 - 2003-2007 年中國有發佈「群體性事件」的統計資料,有 10 萬起 - 1990 年開始也有相關的資料,只是不是從官方發佈 - 2008 中國停止公布,到 2014 之間就比較沒有看到資料 - 直到 2014 年「非新聞」的創立,盧昱宇、李婷玉兩個人工作十幾個小時,在中國常用的社群平台上收集抗議事件,做基本的核實之後記錄下來,包括貼文內容、影片、照片,紀錄的案件大約 7 萬多筆 - 2016 年盧昱宇、李婷玉兩人被判刑,後來就沒有類似的計畫 - 紀錄這件事的主體從官方變成個人,資料量是有下降的;但非新聞紀錄的事件還是蠻多的 - 2022 年異言網發佈,目前是 5 千多筆資料,從此差距可以看到網路資訊環境有很大的變化 - 以前容易取得的抗議事件資料消失得愈來愈快,也更難想像可以從哪裡找到這些資料 - 但我們剛好遇到中國抗議事件比較蓬勃的期間,從 6 月開始記錄,7 月就遇到河南銀行的抗議事件,儲戶的錢被官股銀行的理事拿走,這個錢到現在都還沒找回來。他又剛好在 covid-19 的期間。有好幾次儲戶想要去北京上訪抗議,但他們的健康馬就變成紅碼(被認為跟感染者接觸需要隔離,可參[犯我者虽远必朱](https://chinadigitaltimes.net/chinese/683031.html) )。後來就有比較大的抗議在鄭州,有國際報導。 - 7 月之後也有各種大小的反封控抗議,接下來是白紙運動,會看到幾萬人上街抗議的盛況 - 當天我只是想看有沒有新的河南銀行抗議事件,發現微博被抗議政府封控政策的文章洗版,我週末就在電腦前坐了兩天 - 後來有人說自由之家是白紙運動的幕後黑手,因為我們發布計畫之後幾個月就有白紙運動,但我們只有三個人...不可能做到這個大的改變 ### 資料處理流程 - 線索表:彙整檢查由不同來源收集的抗議事件線索 - google sheet - 資料表:依照計畫鎖定欄位標示每一起抗議事件 - google sheet - 網站:將編碼後資料與影音檔案上傳 ### 使用線索表的原因 - 但目前從線索表到上架可能需要幾個月的時間,是我們目前正在努力解決的問題 - 人力問題影響很大,我們能找到的資料量都遠超過能夠紀錄的量,需要有個地方把來不及紀錄的資料留下來,方便其他人可以處理 - 搜集資料是從社群平台、信賴的新聞網站,需要有個地方(線索表)讓大家不要在同樣的來源重複做工 ### 線索表除了人工蒐集以外,還有以下資料來源 - 跟 double think 合作的機器學習模型和微博爬蟲,DT 會用我們提供的關鍵字清單,每天固定時間把想找的資料記錄下來,並 AI 判斷他是我們想找的抗議事件的機率有多高,我們每半個月處理一次 DT 傳回來的資料,並把高於 70% 機率的資料手動再確認一次,判斷我們的貼文是不是我們想找的,是的話再放到線索表裡。也會將確認後的結果放回訓練模型裡,讓他表現得更好 - 合作夥伴的提供:無論是由分析師自己找的資料、DT 的爬蟲,能找到的都是相對比較一般的抗議事件。西藏或新疆的事件,無法在我們平常使用的平台上找到資訊。另外我們也不會講當地的語言,需要夥伴標註這些抗議事件為什麼是抗議,會包括文化跟政策背景的差異 - 中國對於 LGBTQ 的活動壓制愈來愈大,活動不那麼公開,在性別議題上有其他單位合作,讓我們可以得到這些資訊 ### 線索表的格式 - 建立事件指紋:省份/地級市 時間 抗議時間簡述[專有名詞] - 建立事件指紋的重要性:當資料量一大你會忘記自己記過什麼東西,當同時有好幾個人一起做資訊收集時,問題會更嚴重,你可能會紀錄到其他人已經紀錄的東西 - 專有名詞,如果是抗議建商,會紀錄建商的名字;勞工抗議,會紀錄業主的名字,方便查詢 ### 資料表的格式 - 從線索表的資料編碼,成為資料表:至少有 20 個欄位,包括時間、地點、模式(抗議標語)、群體(不同產業勞工)、議題、對象(抗議對象)、規模(線上/線下)等等 - 有中英文標籤,後來有把轉譯英文的部分自動化 ### 官網 - 如果抗議事件有其他的文件或圖片會一併上傳 - 網站上有簡單的視覺化儀表板,有數量、地點、發生機率等等,但是是提供參考而已,因為從發生到上架會有幾個月的延遲 - 資料可以提供下載(除了照片跟影片沒有) - 點進事件中有詳細資料 - 去年做了照片牆,考量到一般人對資料可能沒有那麼強烈的需求,想提供視覺化一點的內容(游標指過去影片就會動等等) - 也用資料做了分析報告,每一季做一次 - 5 月底會辦圓桌論壇,大家有空的話可以來參加 ### 困難 - 中國網信辦的網路審查的力道,從 1990 年到我們收集資料的期間,感覺到你能在網路上收集的資料愈來愈少 ### Q&A Q. 如何避免東西消失?被中國政府刪掉? - 至少有四份備份,兩份實體、兩份線上,分析師自己的電腦、每週會對做的內容備份 Q. 有沒有碰過阻斷攻擊? - 還沒遇過。不太確定其他在做類似資料的單位(例如中國勞工通訊)有沒有,但好像大家都沒有,可能還算蠻安全的

Import from clipboard

Advanced permission required

Your current role can only read. Ask the system administrator to acquire write and comment permission.

This team is disabled

Sorry, this team is disabled. You can't edit this note.

This note is locked

Sorry, only owner can edit this note.

Reach the limit

Sorry, you've reached the max length this note can be.
Please reduce the content or divide it to more notes, thank you!

Import from Gist

Import from Snippet

or

Export to Snippet

Are you sure?

Do you really want to delete this note?
All users will lost their connection.

Create a note from template

Create a note from template

Oops...
This template has been removed or transferred.


Upgrade

All
  • All
  • Team
No template.

Create a template


Upgrade

Delete template

Do you really want to delete this template?

This page need refresh

You have an incompatible client version.
Refresh to update.
New version available!
See releases notes here
Refresh to enjoy new features.
Your user state has changed.
Refresh to load new user state.

Sign in

Forgot password

or

Sign in via GitHub

New to HackMD? Sign up

Help

  • English
  • 中文
  • 日本語

Documents

Tutorials

Book Mode Tutorial

Slide Example

YAML Metadata

Resources

Releases

Blog

Policy

Terms

Privacy

Cheatsheet

Syntax Example Reference
# Header Header 基本排版
- Unordered List
  • Unordered List
1. Ordered List
  1. Ordered List
- [ ] Todo List
  • Todo List
> Blockquote
Blockquote
**Bold font** Bold font
*Italics font* Italics font
~~Strikethrough~~ Strikethrough
19^th^ 19th
H~2~O H2O
++Inserted text++ Inserted text
==Marked text== Marked text
[link text](https:// "title") Link
![image alt](https:// "title") Image
`Code` Code 在筆記中貼入程式碼
```javascript
var i = 0;
```
var i = 0;
:smile: :smile: Emoji list
{%youtube youtube_id %} Externals
$L^aT_eX$ LaTeX
:::info
This is a alert area.
:::

This is a alert area.

Versions

Versions

Upgrade now

Version named by    

More Less
  • Edit
  • Delete

Note content is identical to the latest version.
Compare with
    Choose a version
    No search result
    Version not found

Feedback

Submission failed, please try again

Thanks for your support.

On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

Please give us some advice and help us improve HackMD.

 

Thanks for your feedback

Remove version name

Do you want to remove this version name and description?

Transfer ownership

Transfer to
    Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.