本週大綱

    《尊重智慧財產權,請使用正版教科書,勿非法影印書籍及教材,以免侵犯他人著作權》

    瀏覽課程大綱Syllabus】【列印Print

  • 摘要

    課程必需:

    輔助工具:


    • 1. 02月 19日 - 02月 25日

      課程介紹-資料科學家的工作

      • 發掘議題,提問:能創造被動式收入的項目?
      • 收集、清理資料,爬蟲
      • 資料視覺化
      • 找出規律
      • 說故事
      更進一步:
      • 建立自己的資料模型
      • 設計演算法
      • 創建輔助使用者的工具、平台

      • 2. 02月 26日 - 03月 3日

        表訂:機器學習方法介紹-Scikit-Learn、k最近鄰居法、迴歸、決策樹

         

         

        實務:Python環境與相關應用

        講解內容參考:電子書:Python自學聖經:從程式素人到開發強者的技術與實戰大全!

        開發環境: Google Colab

        程式練習參考:

        1. 精通 Python

        2. Github: Python 基礎必修課習題練習


        加入 CodeCombat 班級,從遊戲中學習程式: https://codecombat.com/students?_cc=LeafBagPan
        班級代碼:LeafBagPan


         

         

        • 3. 03月 4日 - 03月 10日

          機器學習方法介紹-隱馬爾科夫模型(Hidden Markov Model, HMM)及循環神經網路(Recurrent Neural Network, RNN)

          • 4. 03月 11日 - 03月 17日

            資料獲取-網路爬蟲

            • 5. 03月 18日 - 03月 24日

              資料獲取-物聯網及API應用操作

              • 6. 03月 25日 - 03月 31日

                資料清理-正則表達式、資料型別轉換、遺漏資料與異常值處理、時間序列資料處理及重塑資料

                • 7. 04月 1日 - 04月 7日

                  資料儲存及調用實作-關聯式資料庫及結構化查詢語言,以MySQL為例

                  • 8. 04月 8日 - 04月 14日

                    資料儲存及調用實作-NoSQL/鍵值(Key-Value)資料庫,以 MongoDB 為例,進行 CRUD 操作

                    • 10. 04月 22日 - 04月 28日

                      自然語言處理-方法、工具介紹與專題分組
                      (自然語言處理 NLP), 大型語言模型 LLM)

                      • 本週

                        11. 04月 29日 - 05月 5日

                        表訂:自然語言處理-科學運算工具NumPy、Panda
                        實務:安裝 Selenium ,模擬人類自動化操作瀏覽器,抓取網站資料並寫入資料庫

                        • 12. 05月 6日 - 05月 12日

                          表訂:自然語言處理-機器學習工具Scikit-Learn
                          實務:架設 Flask 服務

                          • 13. 05月 13日 - 05月 19日

                            表訂:自然語言處理-資料建模和數據分析競賽平台Kaggle

                            實務:Discord 介接及 Git 專案版控

                            • 14. 05月 20日 - 05月 26日

                              表訂:自然語言處理-全文檢索、文本分詞(Text Segmentation)、建立字典及轉換數字序列
                              實務:ChatGPT 及 Stable Diffusion 原理介紹及應用討論

                              • 15. 05月 27日 - 06月 2日

                                表訂:自然語言處理-中文(多)語言處理Stanford CoreNLP, Stanza

                                實務: NumPy 及 Panda

                                • 16. 06月 3日 - 06月 9日

                                  資料視覺化-Matplotlib, Dash, amCharts

                                  • 17. 06月 10日 - 06月 16日

                                    分組報告

                                    期末報告,於第 17, 18 周報告,使用投影片口頭報告或佐以部份操作錄影,作業要求:


                                    1.使用爬蟲程式擷取並清理資料,或連接某服務 API

                                    2.使用資料庫:MongoDB 、 MySQL、MS-SQL 皆可

                                    3.提供 Web Service,例:Flask 、 Node.js 或 .Net 皆可

                                    4.介接 Discord 或 LineBot ,提供使用者互動服務介面


                                    特別加分,以下擇一:有使用 Panda 整理資料、使用統計預測模型、使用任一機器學習演算法或介接 ChatGPT API 提供客製化服務。


                                    服務互動回應可以是:文字、聲音、圖檔、影片 


                                    題目的發想:儘量限縮在一個清晰易懂的服務即可,不用包山包海

                                    使用 Panda 整理資料及統計預測模型,通常是數值,可以採用 MatplotLib 來輸出圖表,這也是加分項。