您好, 访客   登录/注册

生物信息学专业SAS统计分析与MATLAB应用教学探讨

来源:用户上传      作者: 吕洪超 张瑞杰 李 晋

   摘要:选取SAS和MATLAB作为课程所用软件,通过结合具体的生物信息学研究实例学习,了解及掌握统计分析软件SAS和软件MATLAB的用法,为今后生物信息学软件的使用打好基础。
   关键词:统计分析;SAS;MATLAB;生物信息学
  
  生物信息学(Bioinformatics)是伴随着人类基因组计划而兴起的一门新兴的交叉学科。它的出现在促使生物学和医学的研究向处理高通量数据需求发展的同时,又引入了众多复杂的统计学方法。然而,西班牙学者Emili和Carles撰文指出2001年nature登载的181篇研究论文中,38%的文章至少有一处统计错误。显然,即使高水平研究论文也存在统计学问题,这就提醒我们在进行统计分析教学的时候要严格把握好各种统计概念,选择合适的统计分析软件。
  1、课程内容选择
  统计学软件是我们应用统计方法不可缺少的工具。时下统计学软件名目繁多,各具特色,诸如SAS、SPSS、TSP、Excel、Eviews、Statistica、Minitab等等。
  在数据处理和统计分析方面,统计分析系统(Statistics Analysis System,SAS)已经成为国际上的标准软件系统。尤其在教育、科研领域,SAS软件已成为专业研究人员进行统计分析的标准软件。SAS系统由多个功能模块组合而成,其基本部分是BASE SAS模块。除此之外,还包含以下不同的模块:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)等等。
  MATLAB(Matrix Laboratory)是一种解释性执行语言,具有强大的计算、仿真、绘图等功能。它使用简单,扩充方便,具有丰富的函数库(工具箱),计算的功能实现比较简单,因此逐渐成为大学生学习研究必不可少的分析软件。尽管MATLAB的功能非常强大,而且生物信息学专业学生大部分的基础、专业课程都涉及到相应的MATLAB软件使用,但是却没有专门对其统计方法的使用介绍。
  综上所述,SAS在专业领域应用很多,几乎作为医学统计学必学软件;MATLAB拥有强大的函数功能,结合生物信息学专业学生现有知识结构和将来研究学习、工作的需求,我们选取这两种软件作为课程内容。鉴于本课程许多内容涉及的数学问题和计算较复杂,并且要结合计算机软件来完成,因此根据本学科的特点和学生的实际情况探索一个有效的教学方法,有助于学生掌握好这个工具。通过近两年教学工作中积累的一些经验,我们已经形成了一套较为完整的授课体系。
  2、课程基本框架
  《SAS统计分析与MATLAB应用》是我院生物信息学专业一门特色的实践性基础课,是研究在生物信息学中如何应用SAS和MATLAB软件的学科。它需要学生在掌握了扎实的概率论与数理统计、生物统计和多元统计理论的基础上,进一步实现计算机软件的掌握。近年来随着计算机的发展和应用的普及,这门学科将成为科学研究和生产实践中数据分析的一种重要手段。通过本课程的学习,主要任务是使学生掌握SAS和MATLAB的基本语法、功能及统计应用,能够熟练运用这两个软件解决实际的生物信息学问题,为今后生物信息学软件的使用打好基础。具体课程内容安排包括:
  SAS方面:①SAS系统概述,包括SAS窗口系统的使用方法,SAS程序的编写、修改和运行;②数据集的建立和整理:利用viewtable编辑数据集;利用DATA语句的传统数据步程序;外部数据文件的读取;③SAS实用过程(如PRINT、FORMAT、TRANSPOSE等)和数值资料统计描述(如MEANS、FREQ、UNIVARIAT等);④数值资料的统计推断(进行t检验的MEANS、TTEST过程,方差分析的ANOVA、GLM过程);⑤相关和回归分析(CORR、REG、LOGISTIC过程);⑥多元统计分析的聚类分析(CLUSTER、TREE过程),主成分分析(PRINCOMP过程)和因子分析(FACTOR过程)。
  MATLAB方面:①MATLAB数值计算,包括矩阵和数组的运算;②数据结构和全局变量,程序结构,程序流控制,以及M文件的调试;③MATLAB中的计算结果的可视化和高级图形处理,包括二维图形的绘制,三维图形的绘制;④常见概率分布,样本的统计描述以及回归分析函数。
  3、授课方式探讨
  传统的SAS以及MATLAB教学倾向于基础理论知识的讲解,并且实验教学中采纳的案例大多是农业、环境或者动物实验的数据,对于依托医学的生物信息学专业学生来说,并不是他们兴趣所在。由于生物信息学专业的建立只有短短几年,学生在没开专业课之前对于生物信息学的了解寥寥无几。他们更关注于这个专业将来能够从事什么工作,发展前景如何?因此,我们在教学过程中针对这种情况,有的放矢的选择医学,尤其是生物信息学方向的已发表案例数据来进行讲解,甚至作为学生实验课的习题。在学习中初步把生物信息学的一些专业知识渗透给学生,较好的激发他们的学习兴趣。
  比如,我们讲解聚类分析的时候采用的数据是基因芯片数据。讲解这个案例之前可以给学生介绍:现代功能基因组学研究的一个重大突破就是基因芯片技术,它产生了大量的表达谱数据,为生物统计、数据挖掘和知识发现等生物信息学方法研究提出了具有挑战意义的课题;对于基因芯片数据的分析可以采用有监督学习方法(比如特征选择算法),另外也可以采用无监督学习方法,其中典型的代表就是聚类。这里我们可以采用SAS系统里面的聚类分析CLUSTER过程实现,也可以通过MATLAB直接调用cluster函数实现。通过这种讲解,一方面引入了生物信息学的知识点,另一方面经过横向对比,使学生可以轻松认识到两种软件的异同之处,加深知识的理解。
  这种实例在我们日常的学习研究工作中会经常遇到,世上无难事,只怕有心人,要注意积累,把平时阅读的文献资料信息收集整理起来,有效地与课堂教学结合,不但活跃了课堂气氛,还能有效的调动学生学习的积极性,改善学生面对成堆的数据和统计理论而疲劳的思维。
  4、教学过程体会
  本课程融合了多门比较复杂的统计学理论,虽然软件的实现过程相对简单,但是需要学生掌握的理论知识较多,非常有必要开设在高等数学、生物统计和多元统计等课程结束后,而我们也正是按照这种思路进行的,节省了本就不富裕的课堂理论教学时间。另外,由于SAS与MATLAB都是非常庞大的分析软件,拥有面向各个研究领域的模块,因此不同的内容需要分别精讲、略讲,培养学生自主学习的能力。
  
  
  参考文献:
  [1] 董大钧.SAS统计分析应用[M]. 北京:电子工业出版社,2009.
  [2] 黄燕,吴平等.SAS统计分析及应用[M]. 北京:机械工业出版社,2007.
  [3] 陈桂明,戚红雨,潘伟等.MATLAB数理统计(6.X)[M]. 北京:科学出版社,2002.
  [4] 张玉华,潘燕,李桥等.医学研究生SAS统计分析软件教学的探索与实践[J]. 中国卫生统计.2006,23(5):466-467.
  
  作者简介:
  吕洪超(1981~),山东无棣人,硕士,助教,研究方向:生物信息学


转载注明来源:https://www.xzbu.com/2/view-426252.htm