---
tags: AI, jothon
---
# GenAI @COSCUP 2024<br>主題論壇與專案實作成果分享
![](https://s3-ap-northeast-1.amazonaws.com/g0v-hackmd-images/uploads/upload_3be56df0d52bef8062cf34b927d9190d.jpeg)
【上午】論壇:AI 應用與開源生態系
【下午】繁體中文 AI 開源實踐計畫|六組團隊成果分享
活動時間:8/3 週六上午 10:00-16:00
活動地點:國立臺灣科技大學,研揚大樓六樓 TR 611
---
## 活動合辦單位 🙌
:::warning
**一、繁體中文 AI 開源實踐計畫**
- 聯絡我們:jothon-organizers@g0v.tw
- 【主辦單位】
- g0v 揪松團 (https://jothon.g0v.tw/about/)
- 零時小學校 (https://sch001.g0v.tw/)
- 【贊助單位】
- Brighter Capital (https://brightercapital.com/)
- 【合辦單位】
- 財團法人開拓文教基金會 (https://www.frontier.org.tw/blog2/)
- 財團法人開放文化基金會 (https://ocf.tw/)
- Taiwan National Treasure Foundation (https://www.nationaltreasure.tw/en)
**二、COSCUP 2024 社群議程軌籌辦小組**
:::
## 活動議程
線上提問網頁:https://app.sli.do/event/uTUgadfHvm4s7giYCpspQE
### 場次一:AI 應用實踐經驗分享 🎤
:::success
AI 應用實踐經驗分享。
:::
| 時間 | 主題 |
| -------- | -------- |
| 10:00-10:30 | 講者分享 30 分鐘 |
| 10:30-10:40 | 綜合問答 10 分鐘 |
主題分享者:
#### 國立中央大學資訊電機學院資訊工程學系 蔡宗翰 教授
https://cis.ncu.edu.tw/iTeacher/home/0xf91f62aecb314932c2593a99c0edf493
#### 卓騰語言科技創辦人暨核心開發工程師 王文傑 (Peter Wolf)
https://sites.google.com/site/peterwolftw/
---
### 場次二:GenAI 開源生態系 🌐
:::success
討論 AI 開源生態系之建構,對於臺灣的重要性。
:::
| 時間 | 主題 |
| -------- | -------- |
| 10:50-11:50 | 主題與談 60 分鐘 |
| 11:50-12:10 | 綜合問答 20 分鐘 |
本節主持人:
#### 台灣人工智慧學校秘書長 侯宜秀 (Isabel Hou)
https://conf2023.aiacademy.tw/isabel-hou/
與談者:
#### MediaTek Research 聯發創新基地負責人 許大山 博士
https://i.mediatek.com/zh-tw/mediatekresearch
https://www.linkedin.com/in/da-shan-shiu/
#### Kuwa AI 應用平台推動者 / 國立高雄大學資工系 吳俊興 副教授
https://wuch.icslab.org/
https://kuwaai.tw/
#### Generative AI 社群與李慕約有限公司 李慕約 創辦人
https://muyueh.com/
#### 零一萬物 01.AI 開源暨開發者關係負責人 林旅強
https://www.linkedin.com/in/richardllin/
---
### 場次三:繁體中文 AI 開源實踐計畫成果交流 🌟
:::success
六組團隊實作成果分享,【活動影片請見本文件下方段落】
一組 20 分鐘:
* 報告 12 分鐘:倒數 1 分鐘時會舉牌,時間到會按鈴。
* 現場 Q&A:8 分鐘
:::
| 時間 | 主題 |
| -------- | -------- |
| 13:00-13:10 | 計畫簡介與開源成果說明 |
| 13:10-14:10 | 三組團隊分享<br>➀ 台灣語言模型競技場 Taiwan Chatbot Arena<br>➁ LegaL-Mind:智慧法律諮詢系統<br>➂ 大量閱讀台灣研究的健康促進小幫手 |
| 14:10-14:20 | 休息 10 分鐘 |
| 14:20-15:20 | 三組團隊分享<br>➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集<br>➄ 台灣AI教學共創實驗室<br>➅ 台語自動分詞與詞性標記系統 |
| 15:20-15:30 | 休息 10 分鐘 |
| 15:30-16:00 | 綜合討論 30 分鐘 |
#### 繁體中文 AI 開源實踐計畫
- 計畫網站:https://sch001.g0v.tw/means/
- Hugging Face:https://huggingface.co/aigrant
#### ➀ 台灣語言模型競技場 Taiwan Chatbot Arena
- 專案簡介:https://sch001.g0v.tw/dash/prj/Psgw1_h15KNJoFo55nCCo4GTTi_Q7C
- Hugging Face:https://huggingface.co/datasets/aigrant/tw_chatbot_arena
#### ➁ LegaL-Mind:智慧法律諮詢系統
- 專案簡介:https://sch001.g0v.tw/dash/prj/PscU0Ax3sXd6bCUw57AB6Tybr4BlnR
- Hugging Face:https://huggingface.co/datasets/aigrant/Legal-Mind-Mix-160K
#### ➂ 大量閱讀台灣研究的健康促進小幫手
- 專案簡介:https://sch001.g0v.tw/dash/prj/PqYu6bC3rc.Ii6Qc5h99T3JtbtQn2o
- Hugging Face:https://huggingface.co/datasets/aigrant/medical_health
#### ➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集
- 專案簡介:https://sch001.g0v.tw/dash/prj/PuH4T8g4v2yywCP85Wc9MluRFz_HCh
- Hugging Face:
- https://huggingface.co/datasets/aigrant/taiwan-legislator-transcript
- https://huggingface.co/datasets/aigrant/taiwan-ly-law-research
#### ➄ 台灣AI教學共創實驗室
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwDWHhZ3DFGZfDP55_uBm3R_T3ypcr
- Hugging Face:https://huggingface.co/datasets/gatelynch/awesome-taiwan-knowledge
#### ➅ 台語自動分詞與詞性標記系統
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwBWl.O3AIxboDff5pXCq.DBAx1Eza
- Hugging Face:https://huggingface.co/datasets/aigrant/Taiwanese-Chinese_characters-POJ-Collection
---
## 以下為【自由共筆區】✍️
## 場次一:AI 應用實踐經驗分享
歡迎共筆
---
## 場次二:GenAI 開源生態系
### Isabel Hou
- 2000.7.11 Open Source Workshop @ Academia Sinica
### 許大山
- 兩年前開始跟 AS 合作:台灣特有的 harm, toxicity dataset
- 小型模型釋出
- hallucination - 建議不解決,不然會被大怪獸碾壓過去
- 缺少預料讓它(LLM)不要那麼「鐵齒」
- 閩、客、潮⋯小型 dataset owner 可不可以釋出?「我們都可以談」
### 吳俊興
- Kuwa GenAI OS「開放、自由、安全、隱私的生成式 AI 生態」(kuwaai.tw)(.org 暫時失效)
- OS:Orchestrating System「編導系統」
- 最近看國際 AI 評比,台灣「不是那麼好看」
- 願景:百工百業、百家(爭鳴)、普惠(inclusion),就像早期在學生宿舍,因為老師、學校都不懂 internet,學生一台 PC 就可以架站、提供服務
- Semiconductor 到 Conductor:以人為中心、有人指揮多個模型,我們希望提供環境讓你做這件事
- 我不是做 AI 的,是做系統的
- 這件事也跟老大(孔院士)有關
- Kuwa:這次詞是採用西拉雅語「青年會所」「議事場所」的發音
### 慕約
- COSCUP 也給 user 和 promoter,這是很有遠見的
- 不會寫程式的話,常常要看工程師的臉色
- 如果 prompt 是一種程式語言,那我們正在迎接一個新的「開源社群」
### 強哥
- 分享投入開源社群與職涯歷程
### 問答 1 - 要做世界級,開源是必要的嗎?
### 問答 2 - 開源模型更危險還是更安全?
- 吳俊興
- 開發者心存善念,出於善意
- 台灣 AI Act 還是偏向消極防衛
- 從程式碼到認知安全的概念都要放進去
- 慕約
- 開源精神對我來說最重的是:這個東西是可以用、可以幫到我
- 模型的道德標準(對齊)需要被揭露
- 強哥
- 許多所謂的模型開源,其實是 open weight
- 資料(數據)、算法、weight 都開源,要走到這步還久
- 個人認為:開源是未來
- AI 降臨,侵害是 trade-off
- 許大山
- 對隱私保護:開源與否沒有差別
- 開源被壞人濫用⋯ 是必要之惡,不在我的思路內
- 近用公平:開源有絕對的幫助
- 大公司做 close source 應該都要 donate open source
- AI 獲得意識的這個問題,只有開源可以面對
---
## 場次三:繁體中文 AI 開源實踐計畫成果交流
- Hugging Face:https://huggingface.co/aigrant
- 歡迎共筆 ✍️
### ➀ 台灣語言模型競技場 Taiwan Chatbot Arena
- 講者影片:https://youtu.be/9TgSwfv7fLY
<iframe width=100% height="315" src="https://www.youtube.com/embed/9TgSwfv7fLY?si=21KJKaiZsR6j_KDO" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/Psgw1_h15KNJoFo55nCCo4GTTi_Q7C
- Hugging Face:https://huggingface.co/datasets/aigrant/tw_chatbot_arena
- Github: https://github.com/adamlin120/chatbot-arena
- Slides: https://docs.google.com/presentation/d/1Y2zOPgMWycnbTy1mGQ0VjzBUg55I6cRBy-l2QfG4Fu4/edit?usp=sharing
- Demo site: https://chatbot-arena-woad.vercel.app/
- Chrome extension: https://chromewebstore.google.com/detail/chatbot-arena/oplnfncggmdhjlimaehkehgdmljcmkio?hl=zh-TW
- 歡迎共筆 ✍️
- 講者分享:
- 收集使用者的問題、行為、偏好,會決定模型的設計。
- https://arena.twllm.com/
- QA
- 如何提高使用者使用競技場的誘因呢?
- 目前討論是,可以免費提供 GPT-4,或是可以 Host 更多模型,讓一般使用者可以藉由競技場來使用到各類語言模型
- [與談階段] 教學實驗室的專案,整理出 1000 題的台灣本土提問,似乎很適合應用於競技場作為提問
### ➁ LegaL-Mind:智慧法律諮詢系統
- 講者影片:https://youtu.be/iI2nYcXVfSo
<iframe width=100% height="315" src="https://www.youtube.com/embed/iI2nYcXVfSo?si=NTpr4EuJI-XY_0Rq" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/PscU0Ax3sXd6bCUw57AB6Tybr4BlnR
- Hugging Face:https://huggingface.co/datasets/aigrant/Legal-Mind-Mix-160K
- 歡迎共筆 ✍️
- 講者分享:
- 這是以司法院公開文件為基礎訓練大型語言模型:
- 訓練、微調+RAG
- 目前以勞資糾紛案件類型為主。
- 架構:
- 訓練資料來源:司法院資料開放平臺,10 萬筆開放裁判書,團隊已整理好,不用再整理,1996~202? 年,
- https://opendata.judicial.gov.tw/
- 司法院用 RAR 檔案釋出 JSON 格式
- 條列出原告和被告的陳述
- 抽出「爭執事項」
- 抽出「爭點」,透過LLM摘要
- 並針對抽取的資料先進行評分
- FineTune 資料集:
- 相似性組合資料。
- 人工標註:先由人工閱讀抽出來的資料,對相似性進行評分。註記在 json 上,以 1 或 0 的方式呈現。例如 1 是相似,並建立成對資料。
- RAG
- 利用 KuWa 系統串他們微調過的模型
- 驗證模型可以依照微調過的 方式/風格/框架 ,針對RAG的資料進行案例分析。
- 侷限性
- 模型的回答會被侷限在已被 fine-tune 進去的案例。
- 目前僅提供給法律系的學生使用測試,但使用感受與 ChatGPT3.5 差異不大。
- QA
- 模型技術提問
### ➂ 大量閱讀台灣研究的健康促進小幫手
- 講者影片:https://youtu.be/XKIRXDEsqcc
<iframe width=100% height="315" src="https://www.youtube.com/embed/XKIRXDEsqcc?si=_CxI63R5k9bzbE1X" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/PqYu6bC3rc.Ii6Qc5h99T3JtbtQn2o
- Hugging Face:https://huggingface.co/datasets/aigrant/medical_health
- 歡迎共筆 ✍️
- 講者分享:
- 已解決 RAG 因為 Chunk 導致截取資料不對的問題
- LLaMa3 70B 以上,幻覺的問題就小很多
- 題目的動機:亞大本身也有醫院
- 長期目標:希望是台灣繁體中文健康醫療相關的資料集散中心
- 短期:fine tune 50,000筆資料公開於huggingface,來自全台醫療院所清單
- 方法:
- 寫爬蟲,爬全台院所 URL(30233 個資料來源)
- 關鍵字:「醫事機構」名稱
- 爬「衛教資訊」
- 第一階段:文字
- 第二階段:PDF (pdf→marker→txt+images)
- https://github.com/VikParuchuri/marker
- 第三階段:多媒體,仍在進行中
- 清洗資料的程序:(5%的資料由人工處理,95%自動化)
1. 寫爬蟲程式收集 (…待補)
- 應用領域
- 分析個人健康數據、健康教育、整合歷史健康數據(RAG)做疾病分析
- Model
- llama 3.1
- https://huggingface.co/unsloth/Meta-Llama-3.1-70B-Instruct-bnb-4bit
- FT
- LoRA
- loss 訓練到… (不會寫)
- RAG
- 使用 GraphRAG
- 評論:滿分,正確性高
- 省錢的方法:
- Ollama 跑 llama3.1
- 本地模型:5萬筆Graph要20天
- Embeding 不算錢
- PDF 的預處理:https://github.com/VikParuchuri/marker 老師說這個是好東西,它會先切畫面,切完後提供圖表的 id 連結
- QA
- 若兩個醫院網站,都有對於過敏原的介紹,會如何取捨呢?
- 團隊與醫院的合作,有什麼樣的經驗與觀察可分享嗎?
- 醫生不是需要 AI 提供 Yes or No 的答案,醫生希望有 AI 推論的過程
### ➃ 建置定期更新的立委發言觀測儀表板與政治時事資料集
- 講者影片:https://youtu.be/pYhizn95Gz0
<iframe width=100% height="315" src="https://www.youtube.com/embed/pYhizn95Gz0?si=SlbMGF5BS1kJjAa4" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/PuH4T8g4v2yywCP85Wc9MluRFz_HCh
- 成果簡報:https://docs.google.com/presentation/d/1qsLss_8n-DUwSShHHasc9SUT5bzK1muJ6AXRuORp3eA/edit?usp=sharing
- Hugging Face:
- https://huggingface.co/datasets/aigrant/taiwan-legislator-transcript
- https://huggingface.co/datasets/aigrant/taiwan-ly-law-research
- 歡迎共筆 ✍️
- 講者分享:
- 用 Apache Tika 處理 立法院資料的 pdf 和 word https://tika.apache.org/
- 生態圈
- QA
- 123
### ➄ 台灣AI教學共創實驗室
- 講者影片:https://youtu.be/7Byog48IF_g
<iframe width=100% height="315" src="https://www.youtube.com/embed/7Byog48IF_g?si=qQKfF9CUWWiaWqgc" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwDWHhZ3DFGZfDP55_uBm3R_T3ypcr
- Hugging Face:https://huggingface.co/datasets/gatelynch/awesome-taiwan-knowledge
- 歡迎共筆 ✍️
- 講者分享:
- 目前由老師們,蒐集到大約 1000 題的台灣題目
- QA
- [與談階段] 透過線上會議方式,讓各地的老師參加
### ➅ 台語自動分詞與詞性標記系統
- 講者影片:https://youtu.be/mIPYXLtFuu4
<iframe width=100% height="315" src="https://www.youtube.com/embed/mIPYXLtFuu4?si=OQPWySlJoJejFZs9" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwBWl.O3AIxboDff5pXCq.DBAx1Eza
- Hugging Face:https://huggingface.co/datasets/aigrant/Taiwanese-Chinese_characters-POJ-Collection
- 歡迎共筆 ✍️
- 講者分享:
- QA
- 有聽眾提到在醫院的客服情境中,台語也是很常見的對話語言,以及台語對於疼痛有比較到位的描述方式 (例如 pak-tóo thiànn 肚子痛)
- 團隊也提出 客語主題的專案企劃,這部分能否介紹一下執行方法?
### 團隊綜合與談
與談階段影片:https://youtu.be/zDm4WcJXw8s
<iframe width=100% height="315" src="https://www.youtube.com/embed/zDm4WcJXw8s?si=tHdKtYjk7F_TrGq5" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
---
## 閒聊分享區 ☕
:::success
歡迎自由分享 🤗
:::
【線上課程資源】零時小學校線上源力增能營,免費取用 AI 人工智慧線上課程:
課程取用網址:https://g0v-jothon.kktix.cc/events/g0v-hackath62n
#10 活用 ChatGPT 自學程式教學實戰,講者:許武龍/哈爸(LASS 創辦人)
#11 大型語言模型(LLM)概論,講者:蔡政霖(人工智慧學校 AI 工程師)
#12 AI 繪圖概論,講者:吳承澔(人工智慧學校 AI 工程師)
#13 AI 相關工具的使用與延伸,講者:吳承澔(人工智慧學校 AI 工程師)
#14 AI 技術史——機器智慧從何湧現?,講者:簡立峰 博士
#15 AI 與人——機器智慧時代,動腦還是動手?,講者:鄭志凱 先生
#16 AI 與人——與 AI 共處的奮進或躺平指南,講者:人工智慧學校基金會秘書長 侯宜秀 律師(Isabel)
#17 AI 與工作——工作流程將如何經歷破壞式重組?,講者:卞中佩 教授
#18 AI、文學與愛,講者:《瑕疵人型》《零觸碰親密》作者林新惠、聯經出版創意總監暨《聯合文學》雜誌總編輯王聰威
[講座影片] 在AI時代重讀《到奴役之路》20240713 講座 @唐山書店
https://g0v.hackmd.io/@chewei/HkaLkr-dA
用 AI 寫程式
https://www.facebook.com/muyueh.l/posts/pfbid02mgqVnE67fkjRRCf7VaSz4rrRxT3aeZufBbsCB3u2nDk5undPob2njBCAro9seCizl
Kuwa AI - Build open, free, secure, and privacy-focused Generative-AI ecosystem.
https://kuwaai.tw/
近年開始推動 Public Money, Public Code https://g0v.hackmd.io/@pmpc/main/