应用数学与数据科学硕士

课程简介

  • 课程期限

    本课程正常修业期限为2,最长修业期限为3年。

  • 授课方式

    面授课程

  • 授课语言

    中文/英文

  • 学术领域 / 知识范畴

    数学与数据科学

  • 课程介绍

    本课程致力于培养应用数学与数据科学高级人才,以供应工商业界、研究机构、以及学术界的人才需求,并发展在跨领域研究中所需要的应用数学与数据科学相关的理论与应用,推动大数据处理在各行业中的整合应用,为粤港澳大湾区提供大数据分析人才。


学习计划

入学资格

具有数学、物理、计算机、工程、统计、经济、生物、医学或相关专业的学士学位

 (报读者必须提交英语能力证明)


研究方向

在导师的指导下主要从(但不限于)以下三个研究方向进行毕业论文的选题:

·         应用数学

·         数据挖掘

·         机器学习


表(一): 必修科目(21学分)


科目中文名称

种类

学分

备注

数据科学中的数学方法

必修

3

第一、二学期修读完成

数值线性代数

必修

3

数据科学开源工具

必修

3

应用统计分析

必修

3

数据挖掘

必修

3

机器学习

必修

3

时间序列分析

必修

3



表(二):选修科目(9学分)


科目

种类

学分

备注

应用数学高级专题

选修

3

选择3门选修科目修读并
于第二、三学期修读完成

数据科学高级专题

选修

3

数据科学程序设计

选修

3

数码图像处理

选修

3

数据可视化与可视分析

选修

3

数据仓库与数据挖掘

选修

3

随机过程

选修

3

多媒体信号与系统

选修

3

数据库系统

选修

3



* 大学有权取消开办修读人数不足之科目

表(三):其他必修科目(3学分)


科目

种类

学分

文献综述与选题报告

必修

2

学术专题项目

必修

1



表(四):学位论文 (6学分)

科目

种类

学分

论文

必修

6


科目简介

必修科目

数据科学中的数学方法(3 学分)

本课程将主要介绍数据科学中常用的数学方法,主要内容包括:凸优化的定义、概念,以及凸分析和一些结果,凸优化在概率统计、计算几何以及数据拟合中的广泛应用,求解凸优化问题的数值方法,包括牛顿法以及内点法。


数值线性代数(3 学分)

本课程首先简要回顾线性代数中的基础概念和理论。在此基础上将主要介绍数值计算中的常见问题, 如:问题的条件数及算法稳定性分析、高斯消去法及LU分解、 Gram-Schmidt正交法、最小二乘问题、特征值问题、奇异值分解以及基本的迭代法等,并同步介绍相关算法的实现。


数据科学开源工具(3 学分)

本课程将主要讲授Python语言的基本语法以及控制结构,进而介绍数据分析中常用的模块如:Numpy, Pandas, Mathplotlib, Sqlit3, Sklearn等的使用。最后介绍应用Python来进行常见的数据分析操作,如抓取网络数据、正则表达式、存储数据及访问,回归与分类,聚类分析,PCA主成分分析,以及时间序列分析与预测等。此外,本课程也将涵盖其他开源工具的使用,包括SQL语句、Shell编程、Julia程序语言、OpenCV等。


应用统计分析(3 学分)

本课程将主要介绍数据科学中常用的概率统计模型和方法,如概率论的基础理论,随机事件的概率问题,数字特征,统计量,离散型和连续型随机变量的分布模型,数据收集和分类,大数定理和中心极限定理,点估计和区间估计,常用假设检验法,回归模型,方差分析,多元统计分析,贝叶斯统计等。


数据挖掘(3 学分)

本课程介绍最新的数据挖掘技术及其应用。 本课程的宗旨是帮助学生了解数据挖掘技术的原则和重要性,主要关注数据挖掘的技术发展及其相关学科,如人工智能和机器学习。本课程的主题包括数据科学的概念和技术,如数据统计描述、数据可视化、数据预处理、数据仓库、频繁的模式挖掘和关联规则分析、分类和监督学习、聚类和非监督学习、变量选择。此外,通过 Python 实现相关算法也是必要的。


机器学习(3 学分)

本课程将广泛地介绍机器学习、数据挖掘、统计模式识别等内容。主题包括:(一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。(二)无监督学习(聚类,降维,推荐系统,深度学习推荐)。(三)在机器学习的最佳实践。


时间序列分析(3 学分)

本课程为学生全面介绍时间序列分析的基础知识和分析实际数据的方法。课程将学习时间序列的分解、滑动平均、指数滑动平均等方法,以及相关系数、平稳性等基础知识。另外,课程将介绍巴斯扩散模型、Holt-Winters 指数平滑模型、一般线性模型、Harmonic季节模型、随机游走、滑动平均过程、自回归过程、自回归条件异方差模型等传统时间序列模型。课程中的模型都会用来拟合实际的数据,帮助对模型更好地理解和使用。将采用R语言来做图和分析数据。这些内容有助于时间序列理论研究和解释现实世界的数据。


选修科目

应用数学高级专题(3 学分)

本课程将主要介绍应用数学中的实用专题,例如数学物理反问题的计算方法。课程主要涵盖截断奇异值分解、Tikhonov正则化方法、变分正则化,以及统计反问题计算方法(马尔可夫链蒙特卡洛采样以及贝叶斯推断)等一系列数学反问题常用方法。另外,课程也会介绍一些数学反问题的实际应用,包括CT、卷积与图像去模糊应用等。


数据科学高级专题(3 学分)

本课程介绍数据科学的最新理论和应用, 如深度学习及其在计算机视觉和自然语言处理中的应用。深度学习是机器学习的一个分支,它与现代神经网络的发展和应用有关。深度学习算法以最大化给定任务的性能的方式提取数据分层高级表示形式。课程将涵盖一系列主题,从基本神经网络、卷积和循环网络结构、深度无监督和强化学习,以及应用到自然语言处理和计算机视觉等领域。


数据科学程序设计(3 学分)

本课程重点介绍基于深度学习的算法、模型以及编程实践。课程采用PyTorch作为深度学习框架, 涵盖NumPy、Pandas、机器学习理论、测试/训练/验证数据拆分、模型评估、张量、神经网络理论(感知机、网络、激活函数、成本/损失函数、反向传播、梯度)、人工/深度神经网络(ANN / DNN),卷积神经网络(CNN),循环神经网络(RNN,LSTM,GRU),自然语言处理以及PyTorch中使用GPU训练等内容。


数码图像处理 (3 学分)

本课程旨在介绍数码图像处理及模式识别的基本原理、方法及其应用。内容包括数码图像的预处理、特征提取、分析;统计模式识别,结构模式识别及其在不同领域中的应用。学生应根据所学内容,选读相关论文并给出相应报告。


数据可视化与可视分析 (3 学分)

本课程将主要介绍数据分析处理中常用的可视化技术, 包含对不同特征分布的数据进行多纬度展示,学习常用的Python绘图模块如Matplotlib与Seaborn等。


数据仓库与数据挖掘 (3 学分)

本课程旨在介绍数据仓库和数据挖掘的基本原理和技术,内容包括数据仓库(Data Warehouse)和联机分析(OLAP)技术,数据预处理技术(数据的清理、集成、转换和归约),数据挖掘技术(分类、预测、关联和聚类),以及数据挖掘的应用和发展趋势。


随机过程 (3 学分)

随机过程主要研究随时间变化的随机现象。本科目从工程应用的角度讲授随机过程的基本理论及其应用。内容主要包括随机过程的基本概念、泊松过程、更新过程、马尔可夫链、排队论等。本课程培养学生使用随机过程理论对随机现象进行建模分析的能力。


多媒体信号与系统 (3 学分)

本科目将介绍多媒体信号的表达与处理技术, 包括各种表达多媒体信号的方法, 如: 时域, 频域, 时-频域及特征域。这些表达都可用于多媒体信号的区分。亦会讨论多媒体信号的滤波设计以及一些自适应的处理技术, 如隐藏Markov模型, 随机场模型, 状态空间模型等。


数据库系统 (3 学分)

本科目介绍有关数据库设计、实现和管理的基本理论。希望学生们通过这门课程的学习能够:正确理解有关数据库设计的概念,并且可以按照数据库设计的步骤来完成设计;利用现有的关系数据库管理系统来实现相应的数据库设计方案;对于已经建立好的数据库进行管理和维护,实现资源共享,同时维护数据的一致性。并介绍空间数据库的概念与原理。


学习要求

1. 第一、二学期修读完成学习计划规定的表(一)中 7 门必修科目,共计 21 学分。 2. 第二、三学期修读完成学习计划规定的表(二)中列明的 3 门选修科目,共计 9 学分。 3. 学生学习完每一门科目,将按照教师要求与学院规定进行考覈。

学习时间

1. 科目修读时间为 18 个月,论文写作时间不少于 6 个月。本课程最长修业期为 36 个月。 2. 课堂一般安排于周一至周五日间。

毕业资格

学生须符合下列各项规定,并经大学学术及教学委员会通过可获颁发应用数学与数据科学硕士学位: 在所属课程之修业期内完成及通过学习计划的要求,各科目成绩(不含学位论文成绩)累计平均积点不低于 2.50; 遵守大学的修读守则; 缴清指定费用及归还所借的大学财物。 如学生及格完成上述课程设置表的科目,累计平均积点不低于 2.50,但未能在规定时间内完成学位论文或通过论文答辩,则只可取得结业证书。