Weekly outline

    《尊重智慧財產權,請使用正版教科書,勿非法影印書籍及教材,以免侵犯他人著作權》

    瀏覽課程大綱Syllabus】【列印Print

  • 摘要

    課程必需:

    輔助工具:


    • 1. 19 February - 25 February

      課程介紹-資料科學家的工作

      • 發掘議題,提問:能創造被動式收入的項目?
      • 收集、清理資料,爬蟲
      • 資料視覺化
      • 找出規律
      • 說故事
      更進一步:
      • 建立自己的資料模型
      • 設計演算法
      • 創建輔助使用者的工具、平台

      • 2. 26 February - 3 March

        表訂:機器學習方法介紹-Scikit-Learn、k最近鄰居法、迴歸、決策樹

         

         

        實務:Python環境與相關應用

        講解內容參考:電子書:Python自學聖經:從程式素人到開發強者的技術與實戰大全!

        開發環境: Google Colab

        程式練習參考:

        1. 精通 Python

        2. Github: Python 基礎必修課習題練習


        加入 CodeCombat 班級,從遊戲中學習程式: https://codecombat.com/students?_cc=LeafBagPan
        班級代碼:LeafBagPan


         

         

        • 3. 4 March - 10 March

          機器學習方法介紹-隱馬爾科夫模型(Hidden Markov Model, HMM)及循環神經網路(Recurrent Neural Network, RNN)

          • 4. 11 March - 17 March

            資料獲取-網路爬蟲

            • 5. 18 March - 24 March

              資料獲取-物聯網及API應用操作

              • 6. 25 March - 31 March

                資料清理-正則表達式、資料型別轉換、遺漏資料與異常值處理、時間序列資料處理及重塑資料

                • 7. 1 April - 7 April

                  資料儲存及調用實作-關聯式資料庫及結構化查詢語言,以MySQL為例

                  • 8. 8 April - 14 April

                    資料儲存及調用實作-NoSQL/鍵值(Key-Value)資料庫,以 MongoDB 為例,進行 CRUD 操作

                    • 10. 22 April - 28 April

                      自然語言處理-方法、工具介紹與專題分組
                      (自然語言處理 NLP), 大型語言模型 LLM)

                      • 11. 29 April - 5 May

                        表訂:自然語言處理-科學運算工具NumPy、Panda
                        實務:安裝 Selenium ,模擬人類自動化操作瀏覽器,抓取網站資料並寫入資料庫

                        • 12. 6 May - 12 May

                          表訂:自然語言處理-機器學習工具Scikit-Learn
                          實務:架設 Flask 服務

                          • This week

                            13. 13 May - 19 May

                            表訂:自然語言處理-資料建模和數據分析競賽平台Kaggle

                            實務:Discord 介接及 Git 專案版控

                            • 14. 20 May - 26 May

                              表訂:自然語言處理-全文檢索、文本分詞(Text Segmentation)、建立字典及轉換數字序列
                              實務:ChatGPT 及 Stable Diffusion 原理介紹及應用討論

                              • 15. 27 May - 2 June

                                表訂:自然語言處理-中文(多)語言處理Stanford CoreNLP, Stanza

                                實務: NumPy 及 Panda

                                • 16. 3 June - 9 June

                                  資料視覺化-Matplotlib, Dash, amCharts

                                  • 17. 10 June - 16 June

                                    分組報告

                                    期末報告,於第 17, 18 周報告,使用投影片口頭報告或佐以部份操作錄影,作業要求:


                                    1.使用爬蟲程式擷取並清理資料,或連接某服務 API

                                    2.使用資料庫:MongoDB 、 MySQL、MS-SQL 皆可

                                    3.提供 Web Service,例:Flask 、 Node.js 或 .Net 皆可

                                    4.介接 Discord 或 LineBot ,提供使用者互動服務介面


                                    特別加分,以下擇一:有使用 Panda 整理資料、使用統計預測模型、使用任一機器學習演算法或介接 ChatGPT API 提供客製化服務。


                                    服務互動回應可以是:文字、聲音、圖檔、影片 


                                    題目的發想:儘量限縮在一個清晰易懂的服務即可,不用包山包海

                                    使用 Panda 整理資料及統計預測模型,通常是數值,可以採用 MatplotLib 來輸出圖表,這也是加分項。