開放企業永續資料庫

--- tags: GCAA, 透明足跡, ESG --- # 開放企業永續資料庫本文以 CC-BY-4.0 授權釋出 [toc] [📑 提案投影片](https://docs.google.com/presentation/d/1bHlMC-KmLFsiB7g-XaL-ma5KrbNB-eXPtatbhB2_klM/edit#slide=id.g22b055e8671_0_127) ## 🧑‍🏭 要解決的問題氣候風險已在全球造成衝擊，臺灣雖已宣示淨零轉型，但企業實際的執行成效，仍缺乏廣泛、公開、結構化的資料集，以致於難以進行整體分析，也拉高了促進轉型的成本；另一方面，大眾對企業永續報告書的印象多是隱惡揚善、報喜不報憂；我們認為，永續報告書，是企業對外溝通的重要管道，我們應該要求企業，如實揭露資訊，避免報告書成為企業漂綠的工具。使用同一套標準，依據不同產業，驗證企業的永續報告書，是我們的目標，但在過程中，會碰到以下問題： 1. **缺乏完整的公開資料** 1. 以碳排放量為例，環保署[公開的資料](https://data.epa.gov.tw/dataset/detail/GHG_P_01)是年排放量達 25,000 噸以上的公司，僅 83 家企業。金管會今年開始公開上市櫃公司部分 ESG 資料，因此上市櫃公司範疇一、二的碳排資料有揭露，但有些碳排大戶像長春石化並非上市櫃企業，則不在金管會的資料中。且環保署管制的碳排放邊界與金管會的管制邊界不一致，使得兩個單位的公開資料也不盡相同。 2. 光要確實掌握企業的碳排放資料就非常困難。其餘像工安事故資料則沒出現在任何政府公開資料中。 2. **缺乏統一彙整的資料集** 1. 有公開的資料散落在政府各部會。例如空氣污染、環保違規記錄的資料在環保署；但用水量卻是在金管會；職災事故資料在勞動部。 3. **缺乏結構化的公開資料** 1. 大多數的 ESG 相關指標都沒有在政府公開的資料集內，必須在企業自行發佈的永續報告書中查找，但報告書缺乏統一格式，程式無法直接讀取各指標的數值，不同企業使用的數據單位、詮釋方式，也或有差異，需要人工判讀，增加全面性分析企業 ESG 表現的成本。 ### 我們是誰 [綠色公民行動聯盟](https://gcaa.org.tw/)的透明足跡小組，目標是數據開放、使用開放的透過環境、社會與治理數據，促進台灣的產業轉型。我們從 [2017 開始使用企業數據](https://thaubing.gcaa.org.tw/)，從事企業轉型的倡議，並從 2021 開始建立[開放的企業 CSR 資料庫](https://thaubing-esg.gcaa.org.tw/)，目前已完成 200 餘本報告書的指標欄位資料收集，資料時間段涵蓋 2018-2020 年。目前正收集 2021 年報告書資料。 - [計畫詳細介紹](https://thaubing-esg.gcaa.org.tw/about/) - [系列專案共筆](https://hackmd.io/@chengh/SkYHa65nO/%2FHtpqaRzEQSaw0j97MLAWyw) **如何找到我們** 1. g0v slack 頻道 #thaubing-esg 2. g0v slack @ddio 3. 信箱： gcaa.official@gmail.com 4. Github repo: https://github.com/gcaa-org-tw/company-report-toolkit 5. Prototype: https://gcaa-org-tw.github.io/company-report-toolkit/ ### 現有解法 1. 培訓讀得懂 CSR 報告書的工人，逐年度、公司，逐本 CSR 報告書進行判讀、校對 1. 需要支出的工資與時間成本，會隨著要納入的年份、公司數，成指數成長 2. CSR [報告書原始檔](https://drive.google.com/drive/folders/1RavfXeWt11NphnWjrhdaQ6o0NqBiapWM)、[工人智慧後的結果](https://docs.google.com/spreadsheets/d/18L_Z_TcpPXRMI8xhYWh-cxhaUY0HmcqXiOUZ8kqnBEc/edit#gid=2015097634)，以及[應用範例](https://thaubing-esg.gcaa.org.tw/net-zero/03) 2. 以公開的結構化資料、高污染產業優先整理 CSR 報告書，進行相關研究與分析 ### 現有流程 1. 依照年份、產業分類，決定收集的優先順序 2. 招募工人，依照[指標設計共筆](https://docs.google.com/document/d/15AXynNNSIeXZyhxqNvrVBrDvVEkuh5XIRbnBWQsR54Q/edit)，分工判讀各報告書，並填入試算表 3. [公開試算表](https://docs.google.com/spreadsheets/d/18L_Z_TcpPXRMI8xhYWh-cxhaUY0HmcqXiOUZ8kqnBEc/edit#gid=2015097634)，方便 API [介接至其他應用](https://github.com/gcaa-org-tw/thaubing-esg/blob/main/esg-ui/tools/extractEnvironment.js)，像是 [ESG 檢測儀](https://thaubing-esg.gcaa.org.tw/net-zero/03) ## 🧑‍🏭 專案目標 1. 減少讀取、結構化永續報告書的成本，解法不限，目前有的方向： 1. 簡化人工判讀、校對時的操作成本，像是加速報告書讀取、簡化找到關鍵字頁面的成本 - 原型 / prototype 試玩： https://gcaa-org-tw.github.io/company-report-toolkit/ 3. 用人工智慧 / LLM ，協助判讀資料 1. 收集過往所有台灣企業的永續報告書，整理為開放資料的資料庫 1. 先以 2018 ~ 2022 年為主（2022年份報告書預計於 2023 6月底至7月中陸續發佈） 3. 每年持續收集所有台灣企業的永續報告書，擴充開放資料庫 ### 範例資料 1. 好判斷的範例報告書 - 2020 1. 中鋼、中油、台塑化 / [報告書](https://drive.google.com/drive/folders/1N42pQ4b5VNWrVuSxii3dNWZkUSLia83o?usp=sharing) / [人工判讀結果](https://docs.google.com/spreadsheets/d/18L_Z_TcpPXRMI8xhYWh-cxhaUY0HmcqXiOUZ8kqnBEc/edit#gid=567687738) 4. 南紡 / [報告書](https://drive.google.com/file/d/1jfk0Jc8oCNo9e4na259agb08gudeHQH6/view?usp=drive_link) / [人工判讀結果](https://docs.google.com/spreadsheets/d/1YAz2CZI3cJTmlJm4AfuaNGdSSaxqClTpCIjyy4MlPxo/edit#gid=1014283570) 1. 難判斷的範例報告書 - 2020 1. 世紀風電 / [報告書](https://drive.google.com/file/d/1_zt9H6dAzWQdI6JOKwSWmbFXErek-Zv6/view?usp=drive_link) / [人工判讀結果](https://docs.google.com/spreadsheets/d/1jFmBLsT7ctkQ4fl-sfNrZiyJap5gIOTOeB47Ew8rFdM/edit#gid=567687738) 2. 燁輝（鋼鐵） / [報告書](https://drive.google.com/file/d/15rlTz69Key8shnIZ6Zu-038CXe1u61HR/view?usp=drive_link) / [人工判讀結果](https://docs.google.com/spreadsheets/d/1jFmBLsT7ctkQ4fl-sfNrZiyJap5gIOTOeB47Ew8rFdM/edit#gid=567687738) ### 關於人工判讀的使用流程，以及阻礙 1. 收集企業 CSR 報告書 > `阻礙` 無標準下載連結，只能從 google 或[公開資訊觀測站](https://mops.twse.com.tw/mops/web/t100sb11)，找到各公司頁面，再手動下載 2. 工人培訓 > `阻礙` 因為流程多變，每批工人，皆須走過一次人工教學，無法自助上手 > `阻礙` 工人皆須具備夠多的專業知識，培訓成本高，無法將工作分成不同難度，由不同人執行，垂直擴張難度高 3. 針對每本報告書，針對所有欄位，逐一進行以下流程： 1. 打開報告書 > `阻礙` 有些報告書超大，下載費時、渲染很慢，吃電腦資源 2. 參照對照表的關鍵字，找到對應的章節 > `阻礙` 每個欄位的關鍵字、查法不同，除非很熟悉流程，否則每個欄位都要看一次小抄 > `阻礙` 每本報告書寫法不同，有文字、各式圖表、表格、各廠區分開寫、不同單位、不同專有名詞 > - 目前會先將數值、單位分開紀錄 > - 也會紀錄各廠各自，以及加總的數值，以供驗證 3. 將結果填到表單上 > `阻礙` 目前尚無標準的資料儲存場所，是各專案（高碳排產業、<年度>x<產業別>）各自的試算表，事後較難尋找 4. 針對填好的試算表，人工驗證 > `阻礙` 尚無有效的驗證機制，目前只能針對明顯錯誤，像是缺值、加總錯誤等，進行調整 ```mermaid graph TD A[收集企業CSR報告書] B[工人培訓] C[針對每本報告書, 逐一進行以下流程] D[打開報告書] E[參照各欄位的關鍵字對照表. 找到對應的章節] F[將結果填到表單上] G[完成一本報告書] H[完成所有報告書] I[針對填好的試算表, 人工驗證] A --> B B --> C C --> D D --> E E --> F F --> E F --> G G --> C G --> H H --> I ``` ### 關於機器判讀的可能流程針對人工流程 3.2 ，想要使用關鍵字搜尋 + LLM ，讀出可能的數值，以作為群眾外包、事後驗證的基礎資料。參考計畫 - [國際清算銀行(Bank of International Settlement)的蓋婭(GAIA)計畫 Project Gaia: Enabling climate risk analysis using generative AI](https://www.bis.org/about/bisih/topics/suptech_regtech/gaia.htm)，[討論串](https://www.facebook.com/veritaswan/posts/pfbid02CrGn1rhpHFGHS8pR8KGKSdvS2c8VG2QvFQ9ymuWvva5Ly23zy9uCERCY37t6DVRcl?locale=zh_TW) ## 🧑‍🏭 想要找的人 1. UX / 服務設計 - 流程改善專家，協助調整人工判讀流程 2. 資料、LLM 工程師 - PDF 機器判讀 POC 3. 群眾外包專家 - 建立大家願意參與的群眾外包流程 ## 2023/07/01 大松小記 [企業永續資料收整表單](https://docs.google.com/spreadsheets/d/1LD1-aPAvOa9iFCsnCIR6a-gd9dbs2ZrtCvRP5-a4o1I/edit?usp=sharing) 目前使用&預計使用的資料資料範疇以股票上市櫃公司為主 >[name=乾]今天除了希望找到一起協作的人，也想把資料做些更新追加。歡迎大家一起來玩資料。 >[name=Ning] 目前工項的目標是？ >[name=ddio] 讓機器人協助我們把關鍵字所在的位置抓出來，更快找到資訊。 > [name=] 企業應該也會跟能源局申報資料？ > [name=乾] 因為用電通常是營業祕密，所以能源局不會公開，而且那邊的申報資料，限能源大戶 > ### 使用者旅程回饋本日貢獻者： ning, ronny, zoe 1. 資料找到後，很難填 2. 搜尋，按 enter ，沒有開始搜尋 3. 資料檢索，機器人，可以做到中間 4. 人工輸入時，會把小數點，打成千分位逗號 5. PDF 只佔半個螢幕，字可能會太小 6. 人機協作旅程新發現： 1. 不用期待機器人找到答案，但可以協助收斂答案可能出現的地方 > 猜猜中油的「能源使用量（用電）」、「年度總用電量（度）」在哪裡？ > ![](https://s3-ap-northeast-1.amazonaws.com/g0v-hackmd-images/uploads/upload_a8eed4a873856ac332e13424a9c6369f.png) 3. 速度更快的全文搜尋：[pdf 2 table](https://ronnywang.github.io/pdf-table-extractor/) + [pdftohtml](https://manpages.ubuntu.com/manpages/trusty/man1/pdftohtml.1.html) → 逐頁的表格化、純文字資料 → algolia 找到頁數 -> pdfjs 顯示 1. 從人工給的關鍵字 → query expansion & prompt 迭代 2. (01st JULY quick interview) ESG insect user journey / 阿乾 ## 優化可能切角 (待驗證) - 痛點:閱讀與輸入切換|圖片辨識|驗證輸入資料是否正確步驟: - 資料搜尋 - 這部分時間成本太高優先序低 - 找尋報告書下載點 - 資料理解 - 變形檢索庫 … 推薦搜尋優先閱讀頁數 - 檢索得到需要的資料 - 資料輸入 - 數字 - 單位 - 輸入區塊圖片原典 - 資料驗證 - within - between - 產出圖表協助做檢視驗證 -https://ningja.notion.site/ESG-insect-user-journey-c374929fd2a34121be7553675a9a337f ### 推薦的工具 1. [PDF 撈表格](https://ronnywang.github.io/pdf-table-extractor/) by Ronny - 專門轉表格，會忽略其他內容，可接受合併儲存格，JS 2. [pdftotext](https://ubunlog.com/zh-TW/pdftotext-convierte-pdf-texto/) - 抽取純文字，圖片會以特定格式列出，偵測段落順序的結果較好 3. [pdftohtml](https://manpages.ubuntu.com/manpages/trusty/man1/pdftohtml.1.html) - 抽取文字 + 圖片，可以轉出圖檔 ### 接下來 1. 七月每週五 14:00-14:30 ，線上小聚 - 想來的人，記得先來 #thaubing-esg 打聲招呼～ 3. slack channel: #thaubing-esg --- 訪談紀錄請點我：https://g0v.hackmd.io/rsJT1-ryRES39e_p9M68AQ {%hackmd tKv-yMkzT666mWqARQizEA %}