轉發了100次錦鯉,也沒有一次成為幸運男孩/女孩。
好氣,想做個數據模型給自己預測下一次轉發中獎。
你的數據集應該有至少這樣幾個要求:
數據集不混亂,沒有過分多的維度和行列
數據相對干凈,沒有太多干擾因素
數據可以解答一些有趣的問題
……OS:這可能比我中獎還難,還沒人教
喜歡數據科學和商業分析的你,一定不要錯過這個流行權威,真實有效的數據科學學術活動平臺,當今最大的數據科學家、機器學習開發者社區——Kaggle。
這個學術活動社區,在全球擁有超過80萬數據科學家的關注,有眾多知名公司or研究機構,發布自己接近真實的業務/研究數據和高額獎金,懸賞尋求最好最新的解決辦法,甚至給出頂尖的工作機會。

而就在17年,以AI為核心業務的Google宣布收購了Kaggle。再一次證明,這個積攢起龐大行業資源和智慧的開發者社區的被認可度和業內實力。
這是一個數據科學愛好者可以展示功力,揚名立萬的江湖。

選擇一場合適的 Kaggle 比賽 or?playground 數據集作為自己的出道項目,能夠——
給轉專業小白帶來真實的背景提升
得到一個被學界業界廣泛認可的證明
參與到社區討論,學到更優秀的思考路徑
說不定的高額獎金 or 工作機會

官網學術活動主題頁展示,可按類別選擇

公司招募

研究主題

初學者練習場
Hi你期待的Kaggle學術活動項目制課程
如果你是一個打算轉行商業分析 or 數據科學的初學者,或者一個想要從事類似職業但苦于沒有背景證明的同學,你應該為 Kaggle 心動了。
你會猶豫——
我該如何開始?
我要和經驗豐富的數據科學家比賽?
沒有獲勝機會的話,還值得參與嗎?
這就是要為你提供的貼心解決方案了!
Kaggle為喜歡商業分析和數據科學的同學提供了非常好的入門工具和平臺,每個學術活動和數據都是獨立的,你無需考慮項目范圍,而是專注于技能和解決問題。而這套技能和解決問題的思路,請到了老師帶你——
商業分析&數據科學?專項輔導1V1
■ 劃重點 ■
本次計劃針對初學者,尤其適合各類轉專業小白,想要做更專業比賽or更深入研究的可以期待我們以后的輔導計劃~~
亮點引路人+全方位指導
即使是新手小白,也無須畏懼。邀請到商業分析&數據科學領域,教育背景優秀,實戰經驗扎實的老師,手把手,一步步,全程指導,帶你了解 Kaggle , 選取合適又喜歡的數據集(拉面的評分?西雅圖的寵物牌?沃爾瑪的第三季度銷售?),處理數據,分析數據,產出屬于你自己的項目報告。
最終,你的project成果可以直接用于展示,成為你留學申請路上專業水平和背景實力的證明,也可以成為你求職場上的重要升職加薪砝碼~來這里,你會收獲——
一份屬于你的機器學習報告
從數據集的清洗和處理,到特征工程,建立模型,調整參數等等,這是一個僅屬于你的機器學習全過程,最終這份報告是你技術實力和思考寫作能力的雙重體現。
掌握數據科學界的核心理論與方法
實打實的數據科學界的硬技能,既鍛煉你的實際操作能力,更磨礪你的數據分析思維,掌握開啟未來大門的金鑰匙。
升學/求職申請利器
貨真價實的過程復現作品和能力證明材料,無論遞交給學校還是企業方,都能妥妥顯示你就是有兩把刷子的天選之人!
面試官、招生官不僅能「讀到你的經歷」,更能實際地「看到你的過程」。
以下是本次專項輔導計劃的詳細內容介紹——
專項輔導內容
本次專項輔導計劃,你將有20個課時(1hour/課時)的時間,與你的專屬導師全程1V1交流溝通,挑選 Kaggle 合適的數據集和比賽內容,最終完成一份機器學習報告。
01 對數據進行探索性分析
學生根據自己的興趣方向和實際情況,與導師商議,在 Kaggle 上挑選出合適的且令你愉快舒心的數據集,了解比賽的內容和意義。
不同的數據集意味著不同的模型方向,例如分類 or 回歸,包含的各類數據?feature 也多種多樣。描述和探索數據,確定合適的模型,這是你的第一步。
02?數據處理
根據你的使用習慣,R或者 Python 都可以。對數據進行預先處理,包括清洗數據,排除noise,?處理缺失值~
03?特征工程
挑選出你想要重點使用的,最理想的 feature 做加工,比如對數值型數據做簡單的加減乘除,特征的選擇和聯合非常關鍵,要把你的數據安排得明明白白的。
04?選擇和建立模型
分出你的訓練集和測試集,選擇和建立起適合你的數據的模型。
05?調參和優化
試著跑一跑你的模型,為了提高精準度,可以在這一步對你的模型參數做調整和優化。嘗試不同的組合,選取最優值。還可以將多個模型融合在一起,提高效率。
06?復現過程和結果,產出報告
最終,你將對自己的整個過程做一遍梳理,復現過程和結果,闡釋每一部分的意義,產出屬于你的機器學習報告。

我不是你的報告,我只是個單純的插圖
經典案例舉例
來,我們以一個 Kaggle 上的具體比賽案例,帶你看看你會得到怎樣的輔導吧。
▌比賽地址鏈接:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques

▌比賽項目描述:
這是一個房價預測項目,數據集里的變量描述了愛荷華州埃姆斯的住宅各方面情況,要求你預測房子未來的價格。
▌比賽項目核心知識點:
極具創意的特征工程
高級回歸模型:隨機森林和梯度提升
▌實踐輔導流程:
小白別方,搓搓手,我們準備搞事情了~
Step 1?指導你進行數據集的探索性分析
Step 2?學習?Python 或者 R 核心可視化包的應用
Step 3?學會從現有眾多變量中取其精華,重新安排核心變量
Step 4?劃分訓練集和測試集做交叉驗證
Step 5?學會應用模型并對其優化
Step 6?用 Markdown?的形式來展現和包裝你的項目
彩蛋環節:創立自己的 github 頁面,把你的項目 show 出去!
(github: 數據科學家和程序猿超喜歡超熱愛的代碼托管網站,宛如一個公眾號,寫進自己的簡歷里十分加分!面試官/招生官可以直接點擊進去,感受你的project,原滋原味~)
經過這波淬煉,你一定會成為被面試官/招生官喜愛的杰出青年~
適合人群
對商業分析、數據科學專業感興趣的同學們
計算機、經濟、金融、數學、物理等各種各樣專業,想要轉專業到商業分析or數據科學領域,苦于沒有起步騰飛的學習資源的同學。
求職/求學已經迫在眉睫,急需提升背景的你
對數據科學、商業分析、機器學習有非常濃厚的興趣,求職就業or碩士申請想要跨入這個領域,卻苦于沒有相應背景,申請異常困難的同學們。
在數據處理和分析工作中沉淪,尋求刺激和提升的職場人士
喜歡數據處理和分析工作,想要有更加清晰的成果展現,想要老板升職加薪,尋求刺激和個人提升的職場人士們。

? 2025. All Rights Reserved. 滬ICP備2023009024號-1