Weekly outline

    《尊重智慧財產權,請使用正版教科書,勿非法影印書籍及教材,以免侵犯他人著作權》

    瀏覽課程大綱Syllabus】【列印Print

  • 1. 20 February - 26 February

    課程介紹-資料科學家的工作

    • 2. 27 February - 5 March

      表訂:機器學習方法介紹-Scikit-Learn、k最近鄰居法、迴歸、決策樹

       

       

      實務:Python環境與相關應用

      講解內容參考:電子書:Python自學聖經:從程式素人到開發強者的技術與實戰大全!

      開發環境: Google Colab

      程式練習參考:

      1. 精通 Python

      2. Github: Python 基礎必修課習題練習


      加入 CodeCombat 從遊戲中學習程式: https://codecombat.com/students?_cc=PlayFruitGold
      班級代碼:PlayFruitGold


       

       

      • 3. 6 March - 12 March

        機器學習方法介紹-隱馬爾科夫模型(Hidden Markov Model, HMM)及循環神經網路(Recurrent Neural Network, RNN)

        • 4. 13 March - 19 March

          資料獲取-網路爬蟲

          • 5. 20 March - 26 March

            資料獲取-物聯網及API應用操作

            • 6. 27 March - 2 April

              資料清理-正則表達式、資料型別轉換、遺漏資料與異常值處理、時間序列資料處理及重塑資料

              • 7. 3 April - 9 April

                資料儲存及調用實作-關聯式資料庫及結構化查詢語言,以MySQL為例

                • 8. 10 April - 16 April

                  資料儲存及調用實作-NoSQL/鍵值(Key-Value)資料庫,以 MongoDB 為例,進行 CRUD 操作

                  • 10. 24 April - 30 April

                    自然語言處理-方法、工具介紹與專題分組

                    • 11. 1 May - 7 May

                      表訂:自然語言處理-科學運算工具NumPy、Panda
                      實務:安裝 Selenium ,模擬人類自動化操作瀏覽器,抓取網站資料並寫入資料庫

                      • 12. 8 May - 14 May

                        表訂:自然語言處理-機器學習工具Scikit-Learn
                        實務:架設 Flask 服務

                        • 13. 15 May - 21 May

                          表訂:自然語言處理-資料建模和數據分析競賽平台Kaggle

                          實務:Discord 介接及 Git 專案版控

                          • 14. 22 May - 28 May

                            表訂:自然語言處理-全文檢索、文本分詞(Text Segmentation)、建立字典及轉換數字序列
                            實務:ChatGPT 及 Stable Diffusion 原理介紹及應用討論

                            • 15. 29 May - 4 June

                              表訂:自然語言處理-中文(多)語言處理Stanford CoreNLP, Stanza

                              實務: NumPy 及 Panda

                              • 16. 5 June - 11 June

                                資料視覺化-Matplotlib, Dash, amCharts

                                • 17. 12 June - 18 June

                                  分組報告

                                  期末報告,於第 17, 18 周報告,使用投影片口頭報告或佐以部份操作錄影,作業要求:


                                  1.使用爬蟲程式擷取並清理資料,或連接某服務 API

                                  2.使用資料庫:MongoDB 、 MySQL、MS-SQL 皆可

                                  3.提供 Web Service,例:Flask 、 Node.js 或 .Net 皆可

                                  4.介接 Discord 或 LineBot ,提供使用者互動服務介面


                                  特別加分,以下擇一:有使用 Panda 整理資料、使用統計預測模型、使用任一機器學習演算法或介接 ChatGPT API 提供客製化服務。


                                  服務互動回應可以是:文字、聲音、圖檔、影片 


                                  題目的發想:儘量限縮在一個清晰易懂的服務即可,不用包山包海

                                  使用 Panda 整理資料及統計預測模型,通常是數值,可以採用 MatplotLib 來輸出圖表,這也是加分項。