岗位描述:
1、负责设计和开发分布式的网络爬虫应用,包括调度、抓取、入库等内容,进行互
联网相关信息的抓取和分析;
2、实现大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、
解析入库等工作 ;
3、网络爬虫架构设计、功能开发及优化;
4、网页信息抽取等核心算法的研究和优化。
任职要求:
1、本科及以上学历,计算机相关专业,具备2年及以上开发项目经验;
2、掌握网络爬虫开发原理,对互联网各种类型数据交互模式熟悉,知道如何处理需登录网站、动态网页等各种情况下的数据采集方法;
3、精通html语言,熟悉开源工具,熟悉基于正则表达式、XPath等的信息抽取技术;
4、有网络爬虫开发经验、有scrapy等开源抓取工具开发经验优先;
5、熟悉elasticsearch优先;
6、熟悉至少一种关系型数据库(Mysql等),熟悉Nosql,hbase等技术优先。
欢迎投递简历至vivahr@vivame.cn