自然語言是構(gòu)建人類文明和智慧的基石,具有高度抽象和上下文豐富的特點。如何讓計算機理解、加工乃至創(chuàng)作自然語言,是實現(xiàn)人機自然交互這一終極愿景的關(guān)鍵,也是人工智能領(lǐng)域的下一個增長點。
唐詩的大數(shù)據(jù)分析及自動創(chuàng)作
Analysis and Automatic Composition of Tang Poetry
自然語言是構(gòu)建人類文明和智慧的基石,具有高度抽象和上下文豐富的特點。如何讓計算機理解、加工乃至創(chuàng)作自然語言,是實現(xiàn)人機自然交互這一終極愿景的關(guān)鍵,也是人工智能領(lǐng)域的下一個增長點。過去,自然語言處理主要關(guān)注理解文本,例如輔助學者分析著作《紅樓夢》的作者身份。如今,自然語言處理已經(jīng)開始在文學創(chuàng)作中嶄露頭角,例如微軟小冰聊天機器人通過快速學習近現(xiàn)代幾百位中國現(xiàn)代詩人的作品,于今年5月份出版了原創(chuàng)現(xiàn)代詩集《陽光失了玻璃窗》,這是人類歷史上第一部100%由人工智能創(chuàng)造的詩集。人工智能技術(shù)與人類文藝創(chuàng)作的關(guān)系將產(chǎn)生深刻變革。
本課題旨在探索自然語言處理技術(shù)在古典詩詞創(chuàng)作中的潛力,通過對《全唐詩》中的海量詩篇內(nèi)容進行大數(shù)據(jù)分析,運用計算機和數(shù)學模型探究唐詩和代表性詩人的創(chuàng)作風格和規(guī)律,并應用機器學習方法自動鑒別特定風格和流派的詩篇,最終構(gòu)建生成唐詩風格和特定詩人風格的智能程序,甚至還可根據(jù)用戶給定的開頭續(xù)寫詩句。
課程模塊一:預備課程?
在教學過程正式開始前,有方學者會根據(jù)學生的具體情況提供數(shù)學、統(tǒng)計、英語學術(shù)論文寫作等預備課程。
課程模塊二:科研輔導?
來自美國頂尖人工智能的機器學習科研團隊將在有方學者團隊的配合下,進行8-12周的科研輔導:
微積分、線性代數(shù)和概率統(tǒng)計入門;
學習 Python編程語言和相關(guān)的庫numpy, pandas, scikit-learn, matplotlib;
學習探索性數(shù)據(jù)分析(Explorative data analysis),并通過統(tǒng)計方法和可視化對金融數(shù)據(jù)進行分析
學習回歸分析(regression),對金融數(shù)據(jù)進行社交媒體效應的評估
學習幾種重要的自然語言處理和機器學習算法,提出初步的金融數(shù)據(jù)輿情情感分析;
課題驗收需要學生完成英文學術(shù)論文的寫作,并向科研團隊進行答辯。
指導速度可能因?qū)嶋H教學情況而異
課程模塊三:論文寫作&發(fā)表?
在科研輔導結(jié)束后
項目導師將輔導學生完成論文寫作
協(xié)助學生完成論文在英文學術(shù)期刊上正式發(fā)表。
整個科研教學流程中,每一位學員都將有學術(shù)督導協(xié)助保障研究階段性作業(yè)和論文的進度,確保取得研究成果。
本課題適合: 9-12 年級學生,有較強的邏輯思維和抽象思維能力
本項目適合適合申請STEM專業(yè)方向:計算機、數(shù)學等相關(guān)專業(yè)的學生。
專業(yè)領(lǐng)域的零基礎(chǔ)學生,我們會提供相關(guān)的學術(shù)知識培訓。
英文:
能夠查找和閱讀英文資料,如網(wǎng)上的編程教程、課件等
數(shù)學:
概率統(tǒng)計基礎(chǔ)知識
線性回歸、邏輯回歸
線性代數(shù)基礎(chǔ)(行列式、矩陣運算等)
多元函數(shù)、微分、函數(shù)極值
計算機:
最好有一定的計算機基礎(chǔ)。如果沒有,以下軟件選擇一種或多種,在課題開始后的1-2周進行強化學習并能進行初步的應用。
Python編程基礎(chǔ)
Numpy庫基礎(chǔ)
scikit-learn庫基礎(chǔ)
寫作:
熟悉ShareLaTeX在線論文排版工具
? 2025. All Rights Reserved. 滬ICP備2023009024號-1