--- tags: AI, jothon --- # GenAI @COSCUP 2024<br>主題論壇與專案實作成果分享 ![](https://s3-ap-northeast-1.amazonaws.com/g0v-hackmd-images/uploads/upload_3be56df0d52bef8062cf34b927d9190d.jpeg) 【上午】論壇:AI 應用與開源生態系 【下午】繁體中文 AI 開源實踐計畫|六組團隊成果分享 活動時間:8/3 週六上午 10:00-16:00 活動地點:國立臺灣科技大學,研揚大樓六樓 TR 611 --- ## 活動合辦單位 🙌 :::warning **一、繁體中文 AI 開源實踐計畫** - 聯絡我們:jothon-organizers@g0v.tw - 【主辦單位】 - g0v 揪松團 (https://jothon.g0v.tw/about/) - 零時小學校 (https://sch001.g0v.tw/) - 【贊助單位】 - Brighter Capital (https://brightercapital.com/) - 【合辦單位】 - 財團法人開拓文教基金會 (https://www.frontier.org.tw/blog2/) - 財團法人開放文化基金會 (https://ocf.tw/) - Taiwan National Treasure Foundation (https://www.nationaltreasure.tw/en) **二、COSCUP 2024 社群議程軌籌辦小組** ::: ## 活動議程 線上提問網頁:https://app.sli.do/event/uTUgadfHvm4s7giYCpspQE ### 場次一:AI 應用實踐經驗分享 🎤 :::success AI 應用實踐經驗分享。 ::: | 時間 | 主題 | | -------- | -------- | | 10:00-10:30 | 講者分享 30 分鐘 | | 10:30-10:40 | 綜合問答 10 分鐘 | 主題分享者: #### 國立中央大學資訊電機學院資訊工程學系 蔡宗翰 教授 https://cis.ncu.edu.tw/iTeacher/home/0xf91f62aecb314932c2593a99c0edf493 #### 卓騰語言科技創辦人暨核心開發工程師 王文傑 (Peter Wolf) https://sites.google.com/site/peterwolftw/ --- ### 場次二:GenAI 開源生態系 🌐 :::success 討論 AI 開源生態系之建構,對於臺灣的重要性。 ::: | 時間 | 主題 | | -------- | -------- | | 10:50-11:50 | 主題與談 60 分鐘 | | 11:50-12:10 | 綜合問答 20 分鐘 | 本節主持人: #### 台灣人工智慧學校秘書長 侯宜秀 (Isabel Hou) https://conf2023.aiacademy.tw/isabel-hou/ 與談者: #### MediaTek Research 聯發創新基地負責人 許大山 博士 https://i.mediatek.com/zh-tw/mediatekresearch https://www.linkedin.com/in/da-shan-shiu/ #### Kuwa AI 應用平台推動者 / 國立高雄大學資工系 吳俊興 副教授 https://wuch.icslab.org/ https://kuwaai.tw/ #### Generative AI 社群與李慕約有限公司 李慕約 創辦人 https://muyueh.com/ #### 零一萬物 01.AI 開源暨開發者關係負責人 林旅強 https://www.linkedin.com/in/richardllin/ --- ### 場次三:繁體中文 AI 開源實踐計畫成果交流 🌟 :::success 六組團隊實作成果分享,【活動影片請見本文件下方段落】 一組 20 分鐘: * 報告 12 分鐘:倒數 1 分鐘時會舉牌,時間到會按鈴。 * 現場 Q&A:8 分鐘 ::: | 時間 | 主題 | | -------- | -------- | | 13:00-13:10 | 計畫簡介與開源成果說明 | | 13:10-14:10 | 三組團隊分享<br>➀ 台灣語言模型競技場 Taiwan Chatbot Arena<br>➁ LegaL-Mind:智慧法律諮詢系統<br>➂ 大量閱讀台灣研究的健康促進小幫手 | | 14:10-14:20 | 休息 10 分鐘 | | 14:20-15:20 | 三組團隊分享<br>➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集<br>➄ 台灣AI教學共創實驗室<br>➅ 台語自動分詞與詞性標記系統 | | 15:20-15:30 | 休息 10 分鐘 | | 15:30-16:00 | 綜合討論 30 分鐘 | #### 繁體中文 AI 開源實踐計畫 - 計畫網站:https://sch001.g0v.tw/means/ - Hugging Face:https://huggingface.co/aigrant #### ➀ 台灣語言模型競技場 Taiwan Chatbot Arena - 專案簡介:https://sch001.g0v.tw/dash/prj/Psgw1_h15KNJoFo55nCCo4GTTi_Q7C - Hugging Face:https://huggingface.co/datasets/aigrant/tw_chatbot_arena #### ➁ LegaL-Mind:智慧法律諮詢系統 - 專案簡介:https://sch001.g0v.tw/dash/prj/PscU0Ax3sXd6bCUw57AB6Tybr4BlnR - Hugging Face:https://huggingface.co/datasets/aigrant/Legal-Mind-Mix-160K #### ➂ 大量閱讀台灣研究的健康促進小幫手 - 專案簡介:https://sch001.g0v.tw/dash/prj/PqYu6bC3rc.Ii6Qc5h99T3JtbtQn2o - Hugging Face:https://huggingface.co/datasets/aigrant/medical_health #### ➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集 - 專案簡介:https://sch001.g0v.tw/dash/prj/PuH4T8g4v2yywCP85Wc9MluRFz_HCh - Hugging Face: - https://huggingface.co/datasets/aigrant/taiwan-legislator-transcript - https://huggingface.co/datasets/aigrant/taiwan-ly-law-research #### ➄ 台灣AI教學共創實驗室 - 專案簡介:https://sch001.g0v.tw/dash/prj/PwDWHhZ3DFGZfDP55_uBm3R_T3ypcr - Hugging Face:https://huggingface.co/datasets/gatelynch/awesome-taiwan-knowledge #### ➅ 台語自動分詞與詞性標記系統 - 專案簡介:https://sch001.g0v.tw/dash/prj/PwBWl.O3AIxboDff5pXCq.DBAx1Eza - Hugging Face:https://huggingface.co/datasets/aigrant/Taiwanese-Chinese_characters-POJ-Collection --- ## 以下為【自由共筆區】✍️ ## 場次一:AI 應用實踐經驗分享 歡迎共筆 --- ## 場次二:GenAI 開源生態系 ### Isabel Hou - 2000.7.11 Open Source Workshop @ Academia Sinica ### 許大山 - 兩年前開始跟 AS 合作:台灣特有的 harm, toxicity dataset - 小型模型釋出 - hallucination - 建議不解決,不然會被大怪獸碾壓過去 - 缺少預料讓它(LLM)不要那麼「鐵齒」 - 閩、客、潮⋯小型 dataset owner 可不可以釋出?「我們都可以談」 ### 吳俊興 - Kuwa GenAI OS「開放、自由、安全、隱私的生成式 AI 生態」(kuwaai.tw)(.org 暫時失效) - OS:Orchestrating System「編導系統」 - 最近看國際 AI 評比,台灣「不是那麼好看」 - 願景:百工百業、百家(爭鳴)、普惠(inclusion),就像早期在學生宿舍,因為老師、學校都不懂 internet,學生一台 PC 就可以架站、提供服務 - Semiconductor 到 Conductor:以人為中心、有人指揮多個模型,我們希望提供環境讓你做這件事 - 我不是做 AI 的,是做系統的 - 這件事也跟老大(孔院士)有關 - Kuwa:這次詞是採用西拉雅語「青年會所」「議事場所」的發音 ### 慕約 - COSCUP 也給 user 和 promoter,這是很有遠見的 - 不會寫程式的話,常常要看工程師的臉色 - 如果 prompt 是一種程式語言,那我們正在迎接一個新的「開源社群」 ### 強哥 - 分享投入開源社群與職涯歷程 ### 問答 1 - 要做世界級,開源是必要的嗎? ### 問答 2 - 開源模型更危險還是更安全? - 吳俊興 - 開發者心存善念,出於善意 - 台灣 AI Act 還是偏向消極防衛 - 從程式碼到認知安全的概念都要放進去 - 慕約 - 開源精神對我來說最重的是:這個東西是可以用、可以幫到我 - 模型的道德標準(對齊)需要被揭露 - 強哥 - 許多所謂的模型開源,其實是 open weight - 資料(數據)、算法、weight 都開源,要走到這步還久 - 個人認為:開源是未來 - AI 降臨,侵害是 trade-off - 許大山 - 對隱私保護:開源與否沒有差別 - 開源被壞人濫用⋯ 是必要之惡,不在我的思路內 - 近用公平:開源有絕對的幫助 - 大公司做 close source 應該都要 donate open source - AI 獲得意識的這個問題,只有開源可以面對 --- ## 場次三:繁體中文 AI 開源實踐計畫成果交流 - Hugging Face:https://huggingface.co/aigrant - 歡迎共筆 ✍️ ### ➀ 台灣語言模型競技場 Taiwan Chatbot Arena - 講者影片:https://youtu.be/9TgSwfv7fLY <iframe width=100% height="315" src="https://www.youtube.com/embed/9TgSwfv7fLY?si=21KJKaiZsR6j_KDO" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/Psgw1_h15KNJoFo55nCCo4GTTi_Q7C - Hugging Face:https://huggingface.co/datasets/aigrant/tw_chatbot_arena - Github: https://github.com/adamlin120/chatbot-arena - Slides: https://docs.google.com/presentation/d/1Y2zOPgMWycnbTy1mGQ0VjzBUg55I6cRBy-l2QfG4Fu4/edit?usp=sharing - Demo site: https://chatbot-arena-woad.vercel.app/ - Chrome extension: https://chromewebstore.google.com/detail/chatbot-arena/oplnfncggmdhjlimaehkehgdmljcmkio?hl=zh-TW - 歡迎共筆 ✍️ - 講者分享: - 收集使用者的問題、行為、偏好,會決定模型的設計。 - https://arena.twllm.com/ - QA - 如何提高使用者使用競技場的誘因呢? - 目前討論是,可以免費提供 GPT-4,或是可以 Host 更多模型,讓一般使用者可以藉由競技場來使用到各類語言模型 - [與談階段] 教學實驗室的專案,整理出 1000 題的台灣本土提問,似乎很適合應用於競技場作為提問 ### ➁ LegaL-Mind:智慧法律諮詢系統 - 講者影片:https://youtu.be/iI2nYcXVfSo <iframe width=100% height="315" src="https://www.youtube.com/embed/iI2nYcXVfSo?si=NTpr4EuJI-XY_0Rq" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/PscU0Ax3sXd6bCUw57AB6Tybr4BlnR - Hugging Face:https://huggingface.co/datasets/aigrant/Legal-Mind-Mix-160K - 歡迎共筆 ✍️ - 講者分享: - 這是以司法院公開文件為基礎訓練大型語言模型: - 訓練、微調+RAG - 目前以勞資糾紛案件類型為主。 - 架構: - 訓練資料來源:司法院資料開放平臺,10 萬筆開放裁判書,團隊已整理好,不用再整理,1996~202? 年, - https://opendata.judicial.gov.tw/ - 司法院用 RAR 檔案釋出 JSON 格式 - 條列出原告和被告的陳述 - 抽出「爭執事項」 - 抽出「爭點」,透過LLM摘要 - 並針對抽取的資料先進行評分 - FineTune 資料集: - 相似性組合資料。 - 人工標註:先由人工閱讀抽出來的資料,對相似性進行評分。註記在 json 上,以 1 或 0 的方式呈現。例如 1 是相似,並建立成對資料。 - RAG - 利用 KuWa 系統串他們微調過的模型 - 驗證模型可以依照微調過的 方式/風格/框架 ,針對RAG的資料進行案例分析。 - 侷限性 - 模型的回答會被侷限在已被 fine-tune 進去的案例。 - 目前僅提供給法律系的學生使用測試,但使用感受與 ChatGPT3.5 差異不大。 - QA - 模型技術提問 ### ➂ 大量閱讀台灣研究的健康促進小幫手 - 講者影片:https://youtu.be/XKIRXDEsqcc <iframe width=100% height="315" src="https://www.youtube.com/embed/XKIRXDEsqcc?si=_CxI63R5k9bzbE1X" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/PqYu6bC3rc.Ii6Qc5h99T3JtbtQn2o - Hugging Face:https://huggingface.co/datasets/aigrant/medical_health - 歡迎共筆 ✍️ - 講者分享: - 已解決 RAG 因為 Chunk 導致截取資料不對的問題 - LLaMa3 70B 以上,幻覺的問題就小很多 - 題目的動機:亞大本身也有醫院 - 長期目標:希望是台灣繁體中文健康醫療相關的資料集散中心 - 短期:fine tune 50,000筆資料公開於huggingface,來自全台醫療院所清單 - 方法: - 寫爬蟲,爬全台院所 URL(30233 個資料來源) - 關鍵字:「醫事機構」名稱 - 爬「衛教資訊」 - 第一階段:文字 - 第二階段:PDF (pdf→marker→txt+images) - https://github.com/VikParuchuri/marker - 第三階段:多媒體,仍在進行中 - 清洗資料的程序:(5%的資料由人工處理,95%自動化) 1. 寫爬蟲程式收集 (…待補) - 應用領域 - 分析個人健康數據、健康教育、整合歷史健康數據(RAG)做疾病分析 - Model - llama 3.1 - https://huggingface.co/unsloth/Meta-Llama-3.1-70B-Instruct-bnb-4bit - FT - LoRA - loss 訓練到… (不會寫) - RAG - 使用 GraphRAG - 評論:滿分,正確性高 - 省錢的方法: - Ollama 跑 llama3.1 - 本地模型:5萬筆Graph要20天 - Embeding 不算錢 - PDF 的預處理:https://github.com/VikParuchuri/marker 老師說這個是好東西,它會先切畫面,切完後提供圖表的 id 連結 - QA - 若兩個醫院網站,都有對於過敏原的介紹,會如何取捨呢? - 團隊與醫院的合作,有什麼樣的經驗與觀察可分享嗎? - 醫生不是需要 AI 提供 Yes or No 的答案,醫生希望有 AI 推論的過程 ### ➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集 - 講者影片:https://youtu.be/pYhizn95Gz0 <iframe width=100% height="315" src="https://www.youtube.com/embed/pYhizn95Gz0?si=SlbMGF5BS1kJjAa4" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/PuH4T8g4v2yywCP85Wc9MluRFz_HCh - 成果簡報:https://docs.google.com/presentation/d/1qsLss_8n-DUwSShHHasc9SUT5bzK1muJ6AXRuORp3eA/edit?usp=sharing - Hugging Face: - https://huggingface.co/datasets/aigrant/taiwan-legislator-transcript - https://huggingface.co/datasets/aigrant/taiwan-ly-law-research - 歡迎共筆 ✍️ - 講者分享: - 用 Apache Tika 處理 立法院資料的 pdf 和 word https://tika.apache.org/ - 生態圈 - QA - 123 ### ➄ 台灣AI教學共創實驗室 - 講者影片:https://youtu.be/7Byog48IF_g <iframe width=100% height="315" src="https://www.youtube.com/embed/7Byog48IF_g?si=qQKfF9CUWWiaWqgc" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/PwDWHhZ3DFGZfDP55_uBm3R_T3ypcr - Hugging Face:https://huggingface.co/datasets/gatelynch/awesome-taiwan-knowledge - 歡迎共筆 ✍️ - 講者分享: - 目前由老師們,蒐集到大約 1000 題的台灣題目 - QA - [與談階段] 透過線上會議方式,讓各地的老師參加 ### ➅ 台語自動分詞與詞性標記系統 - 講者影片:https://youtu.be/mIPYXLtFuu4 <iframe width=100% height="315" src="https://www.youtube.com/embed/mIPYXLtFuu4?si=OQPWySlJoJejFZs9" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> - 專案簡介:https://sch001.g0v.tw/dash/prj/PwBWl.O3AIxboDff5pXCq.DBAx1Eza - Hugging Face:https://huggingface.co/datasets/aigrant/Taiwanese-Chinese_characters-POJ-Collection - 歡迎共筆 ✍️ - 講者分享: - QA - 有聽眾提到在醫院的客服情境中,台語也是很常見的對話語言,以及台語對於疼痛有比較到位的描述方式 (例如 pak-tóo thiànn 肚子痛) - 團隊也提出 客語主題的專案企劃,這部分能否介紹一下執行方法? ### 團隊綜合與談 與談階段影片:https://youtu.be/zDm4WcJXw8s <iframe width=100% height="315" src="https://www.youtube.com/embed/zDm4WcJXw8s?si=tHdKtYjk7F_TrGq5" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> --- ## 閒聊分享區 ☕ :::success 歡迎自由分享 🤗 ::: 【線上課程資源】零時小學校線上源力增能營,免費取用 AI 人工智慧線上課程: 課程取用網址:https://g0v-jothon.kktix.cc/events/g0v-hackath62n #10 活用 ChatGPT 自學程式教學實戰,講者:許武龍/哈爸(LASS 創辦人) #11 大型語言模型(LLM)概論,講者:蔡政霖(人工智慧學校 AI 工程師) #12 AI 繪圖概論,講者:吳承澔(人工智慧學校 AI 工程師) #13 AI 相關工具的使用與延伸,講者:吳承澔(人工智慧學校 AI 工程師) #14 AI 技術史——機器智慧從何湧現?,講者:簡立峰 博士 #15 AI 與人——機器智慧時代,動腦還是動手?,講者:鄭志凱 先生 #16 AI 與人——與 AI 共處的奮進或躺平指南,講者:人工智慧學校基金會秘書長 侯宜秀 律師(Isabel) #17 AI 與工作——工作流程將如何經歷破壞式重組?,講者:卞中佩 教授 #18 AI、文學與愛,講者:《瑕疵人型》《零觸碰親密》作者林新惠、聯經出版創意總監暨《聯合文學》雜誌總編輯王聰威 [講座影片] 在AI時代重讀《到奴役之路》20240713 講座 @唐山書店 https://g0v.hackmd.io/@chewei/HkaLkr-dA 用 AI 寫程式 https://www.facebook.com/muyueh.l/posts/pfbid02mgqVnE67fkjRRCf7VaSz4rrRxT3aeZufBbsCB3u2nDk5undPob2njBCAro9seCizl Kuwa AI - Build open, free, secure, and privacy-focused Generative-AI ecosystem. https://kuwaai.tw/ 近年開始推動 Public Money, Public Code https://g0v.hackmd.io/@pmpc/main/