VIVA畅读新媒体
招聘信息JOBS
Python数据抓取工程师

岗位描述: 

1、负责设计和开发分布式的网络爬虫应用,包括调度、抓取、入库等内容,进行互 

联网相关信息的抓取和分析; 

2、实现大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、 

解析入库等工作 ; 

3、网络爬虫架构设计、功能开发及优化; 

4、网页信息抽取等核心算法的研究和优化。 

 

任职要求: 

1、本科及以上学历,计算机相关专业,具备2年及以上开发项目经验; 

2、掌握网络爬虫开发原理,对互联网各种类型数据交互模式熟悉,知道如何处理需登录网站、动态网页等各种情况下的数据采集方法; 

3、精通html语言,熟悉开源工具,熟悉基于正则表达式、XPath等的信息抽取技术; 

4、有网络爬虫开发经验、有scrapy等开源抓取工具开发经验优先; 

5、熟悉elasticsearch优先; 

6、熟悉至少一种关系型数据库(Mysql等),熟悉Nosql,hbase等技术优先。

 

欢迎投递简历至vivahr@vivame.cn