谢正茂 照片

谢正茂

助理研究员

所属大学: 北京大学

所属学院: 信息科学技术研究所

邮箱:
webg@pku.edu.cn

个人主页:
https://cs.pku.edu.cn/info/1078/1383.htm

个人简介

从参加北京大学网络实验室的研究工作之后,就在进行搜索引擎的开发和研究工作,先后对“天网搜索引擎”的搜集程序进行了两次改版,实现了增量式对中国Web的持续搜集,系统具备每天增量搜集三千万网页的能力。现在从事的研究工作主要围绕Web Infomall展开,该系统收集、存储了中国2002年来的70亿互联网网页。 作为骨干参与的项目“北大燕穹海量网络信息的收集、组织与服务平台”,获北京市科学技术二等奖;作为骨干参与的“中国网页信息博物馆及其数据开放”获2016中国计算机学会科学技术二等奖。

研究领域

互联网内容搜集与信息提取