当前位置:博客首页>>Python >> 阅读正文

爬虫如何识别网页的正文部分?

作者: 郑晓 分类: Python 发布于: 2014-11-19 22:30 浏览(4,158) 评论(3)


爬虫如何识别网页的正文部分?

比如写一个python爬虫去抓百度搜索结果列表中的网页数据, 然后从这些网页中提取出正文部分(比如新闻资讯的文章部分),是否可以实现?能实现的话应该如何去做?

百度新闻中,每条信息都会显示有多少条重复数据,这个应该是百度抓取的每个页面的正文部分吧。所以这个功能是可能实现的。

抓回一个页面的数据,如何匹配出正文部分,郑晓在下班路上想了个思路是:

1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。

2. 直接匹配出非链接的、 符合在div、p、h标签中的中文部分???

还是会有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建议?

       

本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。

本文永久链接: https://www.zh30.com/python-spider-shibie-wenzhang.html

爬虫如何识别网页的正文部分?:目前有3 条留言

用户评论头像 我就是个过客发表于 2015年11月19日 15:40[回复]

正文部分解决了吗?
看看,我现在页面都down下来了,但是正文解析还是不是十分的准确。
语义识别应该也算是人工智能的一部分。

用户评论头像 春熙路发表于 2014年11月28日 19:49[回复]

过来看看、python好学不?

    用户评论头像 郑晓发表于 2014年11月29日 16:37[回复]

    还算比较简单的一门语言,非常优美 :mrgreen: