Skip to content

Latest commit

 

History

History
 
 

gooood

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 

案例

此网站爬虫部分简单,清洗逻辑繁琐一点正文内容以后台生成html展示。

项目结构

  1. docs是存储结果目录
  2. spider是爬虫文件目录
  3. extrator是解析文件目录

解析结构 请求

几个问题点

  1. 这只是个简单案例,此项目没有测试用例,无法保证代码长期正常运行
  2. 项目信息2逻辑比较琐碎,时间有限,暂不处理