本課題旨在運用時間序列分析對部分詞條的網絡點擊率進行分析,運用線性模型、時間序列分析和機器學習的方法去探究相應詞條的網絡點擊量的走勢。同時,本課題還可以預測高相關性的詞條, 并視覺化分析結果, 力求幫助學生熟悉時間序列分析手段, 使得學生具備運用統計學模型分析,處理并且視覺化時間序列數據的能力。
從生物、金融市場、天氣預測,到視頻處理、體育賽事,時間序列分析 (Time-series analysis) 出現在眾多生活場景中。時間序列分析包含了多種不同的研究方向, 從分析演化到結果預測,。它既需要運用統計學知識分析需要用到的方法, 又需要利用計算機軟件去處理大規模數據,還需要用數學模型去佐證得到的結果,因此時間序列分析是一門集計算機、 統計、數學為一體的交叉學科。
維基百科是一個網絡百科全書項目, 是全球網絡最大且最受歡迎的參考工具。 維基百科已經收錄3000萬篇條目,其中英語維基百科以超過450萬篇條目在數量上位居首位。由于維基百科能夠迅速地整理出與最近發生的事件相關的信息,并且任何人都能整理相應的數據信息,所以維基百科相應詞條的瀏覽量往往能夠反映相關詞條熱度。最近由Google贊助的kaggle學術活動發布一個維基百科的數據集,其包含了近145000條維基百科點擊量的時間數據。
本課題是跨統計和計算機的綜合研究,也是時間序列相關技術的實際應用。研究者將獲得使用R進行數據分析的技能和時間序列方法的深入了解。
AI+X數據驅動型科研
AI+X數據驅動型科研是指使用人工智能(AI)算法,收集、處理、分析具體學科(X)的海量數據,并基于此進行預測,從而獲得科學發現的研究方法。與傳統的、基于實驗或邏輯推理的研究方式相比,AI+X數據驅動型科研可以借助AI算法強大的運算能力,高效地進行大數據分析,具有投入產出比高、適用范圍廣的優點。
AI+X數據驅動型科研已被廣泛地應用于各個領域,利用AI算法研究基因數據,從而進行早期的癌癥篩查便是其中一例。基因組與癌癥病患的數據千千萬萬,使用傳統的科研方式對其進行分析,工程量大、過程繁瑣,在客觀上難以實現。但借助AI算法這一便捷的工具,生命科學家便能夠以海量的患者的遺傳信息為基礎,建立數據庫,與過往的研究成果進行對照,快速、準確地在兩者中發現規律、建立聯系,從而使癌癥診斷的“標準化”成為可能。
整個科研教學流程中,每一位學員都將有學術督導協助保障研究階段性作業和論文的進度,確保取得研究成果。
本課題適合: 9-12 年級學生,有較強的邏輯思維和抽象思維能力
1. 英文: (1)具備基本的學術英語閱讀能力; (2)接觸過英文寫作,有論文寫作經驗者更佳;
2. 數學: (1)統計基礎知識(置信區間) (2)微積分(偏微分) (3)線性代數 (4)基礎概率論(期望 標準差 )
3. 計算機: (1)R語言基礎
? 2025. All Rights Reserved. 滬ICP備2023009024號-1