Course: (1122)Introduction to Data Science(4097)

Weekly outline

《尊重智慧財產權，請使用正版教科書，勿非法影印書籍及教材，以免侵犯他人著作權》

【瀏覽課程大綱Syllabus】【列印Print】

摘要
摘要
課程必需：
- 課程討論：Discord - NPUST-112-2-資料科學討論
- 筆記協作平台：Trello
- 版本控制平台：Github
輔助工具：
- ChatGPT
1. 19 February - 25 February
1. 19 February - 25 February
課程介紹-資料科學家的工作
- 發掘議題，提問：能創造被動式收入的項目？
- 收集、清理資料，爬蟲
- 資料視覺化
- 找出規律
- 說故事
更進一步：
- 建立自己的資料模型
- 設計演算法
- 創建輔助使用者的工具、平台
2. 26 February - 3 March
2. 26 February - 3 March
表訂：機器學習方法介紹-Scikit-Learn、k最近鄰居法、迴歸、決策樹

實務：Python環境與相關應用

講解內容參考：電子書：Python自學聖經：從程式素人到開發強者的技術與實戰大全！

開發環境： Google Colab

程式練習參考：

1. 精通 Python

2. Github: Python 基礎必修課習題練習

加入 CodeCombat 班級，從遊戲中學習程式： https://codecombat.com/students?_cc=LeafBagPan
班級代碼：LeafBagPan
3. 4 March - 10 March
3. 4 March - 10 March
機器學習方法介紹-隱馬爾科夫模型(Hidden Markov Model, HMM)及循環神經網路(Recurrent Neural Network, RNN)
4. 11 March - 17 March
4. 11 March - 17 March
資料獲取-網路爬蟲
5. 18 March - 24 March
5. 18 March - 24 March
資料獲取-物聯網及API應用操作
6. 25 March - 31 March
6. 25 March - 31 March
資料清理-正則表達式、資料型別轉換、遺漏資料與異常值處理、時間序列資料處理及重塑資料
7. 1 April - 7 April
7. 1 April - 7 April
資料儲存及調用實作-關聯式資料庫及結構化查詢語言，以MySQL為例
8. 8 April - 14 April
8. 8 April - 14 April
資料儲存及調用實作-NoSQL/鍵值(Key-Value)資料庫，以 MongoDB 為例，進行 CRUD 操作
9. 15 April - 21 April
9. 15 April - 21 April
期中考
10. 22 April - 28 April
10. 22 April - 28 April
自然語言處理-方法、工具介紹與專題分組
(自然語言處理 NLP), 大型語言模型 LLM)
11. 29 April - 5 May
11. 29 April - 5 May
表訂：自然語言處理-科學運算工具NumPy、Panda
實務：安裝 Selenium ，模擬人類自動化操作瀏覽器，抓取網站資料並寫入資料庫
12. 6 May - 12 May
12. 6 May - 12 May
表訂：自然語言處理-機器學習工具Scikit-Learn
實務：架設 Flask 服務
13. 13 May - 19 May
13. 13 May - 19 May
表訂：自然語言處理-資料建模和數據分析競賽平台Kaggle
實務：Discord 介接及 Git 專案版控
14. 20 May - 26 May
14. 20 May - 26 May
表訂：自然語言處理-全文檢索、文本分詞(Text Segmentation)、建立字典及轉換數字序列
實務：ChatGPT 及 Stable Diffusion 原理介紹及應用討論
15. 27 May - 2 June
15. 27 May - 2 June
表訂：自然語言處理-中文(多)語言處理Stanford CoreNLP, Stanza
實務： NumPy 及 Panda
16. 3 June - 9 June
16. 3 June - 9 June
資料視覺化-Matplotlib, Dash, amCharts
17. 10 June - 16 June
17. 10 June - 16 June
分組報告

期末報告，於第 17, 18 周報告，使用投影片口頭報告或佐以部份操作錄影，作業要求：

1.使用爬蟲程式擷取並清理資料，或連接某服務 API
2.使用資料庫：MongoDB 、 MySQL、MS-SQL 皆可
3.提供 Web Service，例：Flask 、 Node.js 或 .Net 皆可
4.介接 Discord 或 LineBot ，提供使用者互動服務介面

特別加分，以下擇一：有使用 Panda 整理資料、使用統計預測模型、使用任一機器學習演算法或介接 ChatGPT API 提供客製化服務。

服務互動回應可以是：文字、聲音、圖檔、影片

題目的發想：儘量限縮在一個清晰易懂的服務即可，不用包山包海

使用 Panda 整理資料及統計預測模型，通常是數值，可以採用 MatplotLib 來輸出圖表，這也是加分項。
18. 17 June - 23 June
18. 17 June - 23 June
期末考

Weekly outline

課程必需：

輔助工具：

課程介紹-資料科學家的工作

更進一步：