--- tags: cofacts GA: UA-98468513-3 --- # Cofacts Huggingface 資料集評估 By Teemo 如何評估 huggingface 上面一包資料集的好壞? 想知道有哪些指標,例如是否有利於訓練?資料是否結構化之類的? 如果以下面這包資料為例,如何說出這是好資料或是這包不好? https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw --- ### 初步想法提供參考,歡迎討論~ 1. 好的資料集就是裡面有沒有人類可以判斷出結果的 feaature 2. 要判斷事實起碼要有訊息的文字內容,目前資料集看起來已經有了 3. 一包好的資料集,定義上應該是越能夠被分類 * 可以用簡單的模型去做分類,如果簡單的模型,甚至非監督式學習也可以做出不錯的成效,那這就是一個很好的訓練集。 * 另一種做法,用效果很強的模型,把資料集8:2分,8分用來訓練,2分用來驗證,如果這樣訓練下來的模型效果很差,那可能是這資料集本來可以學習的feature就不夠。 4. 要用新資料或合成資料去回測嗎? 要看實驗如何設計。 5. 做分類器或作與語言模型的人會希望看簡介就能知道這包是否適合自己使用。 6. 在簡介說明你資料有哪些分類或已人工標註的標籤,資料科學家會很感動。 7. 如果不確定資料適合拿去餵預測模型或推論引擎:找人做小實驗: 1. 嘗試萃取 (你是萬能的文字助手,你擅長將任何輸入文字在保持原意不變,但必須保留[人名,公司機構名稱,事物名稱,地點,時間,數值,程式碼,數據集,陳述事實,知識點]前提下,作最精簡的摘要。) 然後 text2vec (Embedding) 看看是否能觀察有趣的結果。 2. 嘗試用 LLM 改寫一篇,然後看用資料及訓練出來的分類器是否能正確分類 3. 那試試問 ChatGPT ? --- - 如果放 sample code 要注意可能會讓使用者認為這包資料只能做這個 - Normalize 的資料集確實還是需要在一開始,讓人知道有哪些可能性 - 可以提供 feedback form 蒐集使用者回饋 use case 或問題