HackMD
    • Sharing Link copied
    • /edit
    • View mode
      • Edit mode
      • View mode
      • Book mode
      • Slide mode
      Edit mode View mode Book mode Slide mode
    • Note Permission
    • Read
      • Owners
      • Signed-in users
      • Everyone
      Owners Signed-in users Everyone
    • Write
      • Owners
      • Signed-in users
      • Everyone
      Owners Signed-in users Everyone
    • More (Comment, Invitee)
    • Publishing
    • Commenting Enable
      Disabled Forbidden Owners Signed-in users Everyone
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Invitee
    • No invitee
    • Options
    • Versions
    • Transfer ownership
    • Delete this note
    • Template
    • Insert from template
    • Export
    • Google Drive Export to Google Drive
    • Gist
    • Import
    • Google Drive Import from Google Drive
    • Gist
    • Clipboard
    • Download
    • Markdown
    • HTML
    • Raw HTML
Menu Sharing Help
Menu
Options
Versions Transfer ownership Delete this note
Export
Google Drive Export to Google Drive Gist
Import
Google Drive Import from Google Drive Gist Clipboard
Download
Markdown HTML Raw HTML
Back
Sharing
Sharing Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Note Permission
Read
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
Write
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
More (Comment, Invitee)
Publishing
More (Comment, Invitee)
Commenting Enable
Disabled Forbidden Owners Signed-in users Everyone
Permission
Owners
  • Forbidden
  • Owners
  • Signed-in users
  • Everyone
Invitee
No invitee
   owned this note    owned this note      
Published Linked with
Like BookmarkBookmarked
Subscribed
  • Any changes
    Be notified of any changes
  • Mention me
    Be notified of mention me
  • Unsubscribe
Subscribe
# Data journalism: when tech meets the news ## 科技與資料新聞的碰撞 ###### tags: `summit2020` {%hackmd @summit2020/rJ_uvDMsD %} :::success Slido 線上提問連結 Online QA link:https://app.sli.do/event/wzedqbei 議程投影片 presentation slides:https://docs.google.com/presentation/d/105ciGmMW-pIgLdh1WKSZPk6HpoczPoFmwm1D1nYAHG4/edit ::: > 主持人 我可以用我的技術支持我的興趣 也可以去賺錢是最好的 他的技能和興趣可以做結合 講者:HC Chien 這主題要如何和g0v有關係,g0v一直在做開放資料的部分, 很常有一些資料也做了爬蟲 但開放之後就不知道怎麼辦也沒人再去用 和clkao一起去做資料,發現這些資料也可以使用在新聞上 * 關於我 我一直以來長期在opensource社群辦一些活動 辦一些相關會議在yahoo待了九年半十年 2005-2014 Open Source Developers' Conference 2015-2016 報導者 2016 鏡傳媒/READr 有比較多的資源去想新聞怎麼做,有比較多空間去執行自己的企劃(READr) * 新聞可以怎麼做? 除了傳統的報導與新聞媒體之外,想做新的媒體實驗。 所以我們就成立了一個新的新聞網站READr專門做資料新聞, 也嘗試新的媒體營運方式 ### 關於資料新聞 2018選舉結束後,有一個新聞是高雄有一個計程車司機換了一台賓士,我看了之後很疑惑這則新聞到底要告訴閱聽人什麼?是代表高雄錢進來了嗎?這是一個常見的例子,媒體報導新聞的時候常常用獵奇或特殊案例來涵蓋一般現象。我們需要用一般的資料來達到宏觀的看法。 我們找到一個想要的故事,然後可以用資料來檢視個人認知與實際情況是否相符。也可以直接從資料去看是否能發現新的看法。例如之前香港的反送中事件,twitter一次發布了幾百個與反送中有關的帳號予以停權,我們就可以從資料來看是否符合事實。 ### Technical Can Help * Data Collection * Data Analytics * Machine Learning * Data Visualization * Chatbot 實作 * 互動式新聞專題 * 新聞遊戲 ### 收集資料 收集資料有各種形式,如一般的crawler * 爬蟲 一般爬蟲 selenium * Crowdsourcing 政治獻金:要去監察院調閱,且只能附費影印攜出 選舉看板:政治獻金的延伸,行銷是選舉很大的費用,但大家不一定會誠實申報,沒有申報不一定是非法(用自己的錢、樓下鄰居自發)。 2020總統大選事實查核:搜集公開談話,上傳youtube,切成30s的小段落,請志工打逐字稿,再去進行事實查核 [台灣政商關係資料庫](https://medium.com/@hsinchanchien/%E8%87%BA%E7%81%A3%E6%94%BF%E5%95%86%E9%97%9C%E4%BF%82%E8%B3%87%E6%96%99%E5%BA%AB-6149c3284ef8) ### 資料分析 基本統計 相關性 丟到sql進行各種grouping 文本/語意分析基本斷詞 詞頻分析 Keywords extractions(TF/DF) 詞頻可能有贅字,所以去跑TFIDF [tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。](https://zh.wikipedia.org/wiki/Tf-idf) ### 機器學習 在反送中刪除的twitter帳號中有使用到。想知道為什麼這些帳號被定義為網軍,利用機器學習分析被刪除帳號的特性,其一是發文時間與random帳號的發表時間,被刪除帳號的發文時間大概都是比較接近上班時間。 ### Data Visualization * Infographics * 3D * 360 * Map 與地理資訊有關的資料呈現很好用 資料分析的視覺化很重要,能夠快速提供讀者易讀的資訊 ### Chatbot 實作-dialogflow 武漢肺炎知識+ (在READ+) 希望讀者可以用與機器人聊天的方式來得到他們想要的知識與資訊,但後來發現讀者都很直覺就是只打關鍵字,所以後來就沒有上線。 ### 互動式專題網頁 * pol.is: 有點像問卷,但讓使用者能做意見的討論,發現不同立場的人意見並沒有那麼不同,pol.is協助大家找到意見歧異的點 * 使用者參與 畫畫看 問券 沃草提供失業率估計的互動頁面,無關對錯,而是意見討論。 ### 新聞遊戲 古蹟自燃,由圖文不符的team作的 新北租屋遊戲:從591爬了一個月的資料 我們的資料都是開放的,原始檔也是開放的,所以大家有興趣的話可以自己上網下載或來玩玩看 ### Q&A 1. 如何決定要做哪些題目、一個題目要做多久 我們的team每個星期會開例會,不只記者,每一個人都可以提題目,經過大家投票,大家覺得有趣的話就會去做,這和傳統的媒體是不一樣的。每個題目需要的時間不一樣,例如政治獻金光取得資料本身的就花了差不多兩個月。 2. (slido問題)台灣政府要對媒體關台,你的意見是? 現在每個人都可以有發聲的管道,在網路上每個人的節點是平等的,關台代表著什麼大家可以討論看看。 3. 目前這系列報導的效益如何?讀者接受這些新聞產品嗎? 迴響不錯: 2020總統大選事實查核 政治獻金 比較沒有人看的像是原住民傳統領域、新二代教育問題,這些可能關心的讀者沒有這麼多。 4. 如何找錢做資料新聞 叫大家付錢。大家都知道做新聞需要成本,如果自己不付,一定有別人付。所以如果自己沒付的話,一定要知道是誰付的錢。 5. 找題目有沒有題目做發現沒有新發現的經驗?停損點在哪裡? 分析完資料發現沒有insight就喊停(有時候也會有做完一個月資料分析後就停掉的例子) 6. 請問資料的真確性真的會被媒體老闆重視嗎?有沒有遇到被用收視率/點閱率關切的問題? 應該是讀者是否重視。老闆不看,只看能不能繼續下去。講者的team本身實驗,所以沒有被關切。 7. 審視專案有什麼KPI來讓下一個專案可以繼續發展,專案間互有延續性嗎? 看如何改善使用者體驗讓之後的專案可以更好。大家可以follow我們的粉絲頁,上面都有這些資料。 8. 資料新聞有助於讀者了解資料的脈絡嗎?誘惑者大多停留在「吸睛」的程度 不吸睛 9. 目標 最大的目標就是能讓大家付費閱讀,可以不靠公司資助, 並希望這個經營模式是可以被複製的。當我們在討論黨政軍或任何媒體老闆都介入的時候,有沒有辦法擺脫的這件事情;這件事情並不是去抱怨每個集團有哪些媒體,根本的原因還是當大家不自己出錢的時候,就是有別人會出這個錢。 10. 如何選擇視覺化的形式,背後的理由是? 每個專題都是創作,我發訊息,但也要看觀眾是否接收到訊息,跟藝術一樣 11. 最近發現READr開始做單一圖表系列,像是檳榔攤名稱統計, 我們team的記者只有兩個全職的記者,還有一個記者兼全職編輯,還有一個記者兼專題製作人,所以人實在是太少了。 專題都是一個月起跳,記者兼社群編輯 這些就是增加大家點進來看的動力,但最近發現效果有點不太好,所以可能要改變了。 12. 在鏡傳媒本身有沒有用到什麼有趣的技術,例如怎麼做Ranking ai耗費人力財力 鏡網站一天的log都是幾G起跳,如果要做這些分析 目前沒有政府或企業,但有NGO合作(幫忙分析資料,不是接業配.) 13. 資料新聞與發展訂閱商模之間的關聯性或可行性 希望大家重視新聞這件事,而不是罵不讀書當記者。但新聞品質要看社會環境 現在的商業模式就是點閱page view,一篇花很多時間編輯、很長的文章或一篇很短的沒有內容的文章,一個人次點進去的page view是一樣的。 改善這點,才不會讓低品質新聞惡化下去 最近對訂閱制越來越悲觀。我原本相信訂閱制是有機會的,後來覺得沒機會是因為競爭的不只是媒體與媒體,而是媒體要和所有訂閱制競爭,例如google drive、icloud、spotify、netflix、HBO、apple TV。這是可以繼續討論的議題。

Import from clipboard

Advanced permission required

Your current role can only read. Ask the system administrator to acquire write and comment permission.

This team is disabled

Sorry, this team is disabled. You can't edit this note.

This note is locked

Sorry, only owner can edit this note.

Reach the limit

Sorry, you've reached the max length this note can be.
Please reduce the content or divide it to more notes, thank you!

Import from Gist

Import from Snippet

or

Export to Snippet

Are you sure?

Do you really want to delete this note?
All users will lost their connection.

Create a note from template

Create a note from template

Oops...
This template has been removed or transferred.


Upgrade

All
  • All
  • Team
No template.

Create a template


Upgrade

Delete template

Do you really want to delete this template?

This page need refresh

You have an incompatible client version.
Refresh to update.
New version available!
See releases notes here
Refresh to enjoy new features.
Your user state has changed.
Refresh to load new user state.

Sign in

Forgot password

or

Sign in via GitHub

New to HackMD? Sign up

Help

  • English
  • 中文
  • 日本語

Documents

Tutorials

Book Mode Tutorial

Slide Example

YAML Metadata

Resources

Releases

Blog

Policy

Terms

Privacy

Cheatsheet

Syntax Example Reference
# Header Header 基本排版
- Unordered List
  • Unordered List
1. Ordered List
  1. Ordered List
- [ ] Todo List
  • Todo List
> Blockquote
Blockquote
**Bold font** Bold font
*Italics font* Italics font
~~Strikethrough~~ Strikethrough
19^th^ 19th
H~2~O H2O
++Inserted text++ Inserted text
==Marked text== Marked text
[link text](https:// "title") Link
![image alt](https:// "title") Image
`Code` Code 在筆記中貼入程式碼
```javascript
var i = 0;
```
var i = 0;
:smile: :smile: Emoji list
{%youtube youtube_id %} Externals
$L^aT_eX$ LaTeX
:::info
This is a alert area.
:::

This is a alert area.

Versions

Versions

Upgrade now

Version named by    

More Less
  • Edit
  • Delete

Note content is identical to the latest version.
Compare with
    Choose a version
    No search result
    Version not found

Feedback

Submission failed, please try again

Thanks for your support.

On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

Please give us some advice and help us improve HackMD.

 

Thanks for your feedback

Remove version name

Do you want to remove this version name and description?

Transfer ownership

Transfer to
    Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.