SpartaSpider是基于搜狗微信的爬虫,主要获取微信公众号信息和公众号文章信息,使用python语言和scrapy框架。
- 爬取主页中各分类各页数据
- 爬取和更新公众号信息
- 爬取和更新文章信息
- 搜索关键字信息
- 发表特定文章到wordpress上
- 待续。。。
- SpartaTagInfoItem #类别信息临时结构
- SpartaTagGzhInfoItem #类别公众号表
- SpartaTagArticleInfoItem #热文记录表
- SpartaTmpArticleInfoItem #文章临时存储
- SpartaArticleItem #文章表
- SpartaGzhItem #公众号表
- SpartaGzhArticleInfoItem #公众号主页的具体信息
- SpartaSearchItem #搜索表
- SpartaWpPostsItem #wordpress的wp_posts文章表
- SpartaWpTermRelationShipsItem #wordpress的wp_term_relationships文章关系表
- getSpartaTagInfo #获取搜狗微信标签类别页详细内容
- getSpartaArticleInfo #获取搜狗微信文章url对应的详细内容
- getSearchGzhInfo #获取搜狗微信搜索公众号返回的详细内容
- getSearchGzhFirstInfo #获取公众号微信号wechatid的信息
- getSpartaGzhInfo #获取搜狗微信作者url对应的详细内容
- get #封装request库get方法
- get_html_and_carry_item #封装request库get方法,并可携带数据
- getElemText #抽取lxml.etree库中elem对象中文字
- getSearchGzhText #通过搜狗搜索获取关键字返回的文本
- replace_html #替换转义内容为正常内容
- 封装了pymysql的类
- 宏定义
- 热门公众号信息拉取和更新
- 爬取文章具体信息
- 爬取搜狗微信主页各类别各页数据
- 搜索特定关键字返回的信息
- 配置信息
- 发表文章到wordpress
- sparta.sh sparta_index //爬取搜狗微信主页各类别的各页数据插入临时公众号表和热点文章数据库表中
- sparta.sh sparta_gzh_url //临时公众号表取特定数目公众号url爬取公众号信息和文章临时信息
- sparta.sh sparta_url //临时文章表取特定数目文章的url来爬取文章具体信息
- sparta.sh sparta_search //搜索特定关键字,返回列表信息
- 745226897