2021年4月29日下午,豫鲁苏皖接合区经济社会发展研究中心博士学术论坛在三商楼研究中心会议室如期举行。祁让坤博士作了《Stata网络爬虫的简单应用——抓取新浪高考录取分数线和一分一档表》的学术报告。经济管理学院院长张保胜、副书记王洪敏、副院长李玲和副院长郭洪涛以及研究中心博士参加了此次论坛。
祁让坤博士以新浪高考录取分数线和一分一档表的网页源代码开始讲起,通过梳理网页源代码的抓取、文件计入、数据整理和保存等思路,以Stata软件为基础,细致地讲解了copy、infix、subinstr、index、ustrregexm、ustrregexra和openall等命令的原理和使用方法。在此基础上,祁让坤博士进行现场编程并演示了程序运行结果,真实地实现了预期结果。
汇报结束后,与会人员对Stata网络爬虫技术进行了热烈的讨论,张保胜院长进行了点评总结。张院长表示,快速获取数据是Stata网络爬虫技术的优势所在,对科研人员获取数据进行实证研究大有裨益,但学习和掌握Stata爬虫技术的命令和编程技巧存在一定的难度。最后他鼓励大家花些时间认真学习该项技术,争取使研究中心在科研方面更上一层楼。希望大家再接再厉,努力提升豫鲁苏皖接合区经济社会发展研究中心的科研水平,为地方经济社会发展多多贡献自己的智慧。