培训啦 Python

如何利用Python爬取网页?

发布时间: 2022-05-27 12:30:01

如今,网络爬虫早已被广泛应用在爬取网页上。虽然有许多编程语言都可以写爬虫,但是Python绝对是最好的选择。这是因为Python作为一种新手友好的语言,上手简单的同时标准库齐全,还有丰富的各种开源库,开发效率更是不用说,高于绝大多数语言。那么如何利用Python爬取网页呢?或者换句话说,怎样编写Python语言使用网络爬虫呢?

如何利用Python爬取网页

1、编写执行代码

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

import requests

from bs4 import BeautifulSoup

iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res = requests.get(iurl)

res.encoding = 'utf-8'

#print(len(res.text))

soup = BeautifulSoup(res.text,'html.parser')

#标题

H1 = soup.select('#artibodyTitle')[0].text

#来源

time_source = soup.select('.time-source')[0].text

#来源

origin = soup.select('#artibody p')[0].text.strip()

#原标题

oriTitle = soup.select('#artibody p')[1].text.strip()

#内容

raw_content = soup.select('#artibody p')[2:19]

content = []

for paragraph in raw_content:

content.append(paragraph.text.strip())

'@'.join(content)

#责任编辑

ae = soup.select('.article-editor')[0].text

2、观看视频学习

如果大家觉得光是文字不足以弄清Python爬取网页的技巧,也可以免费观看教育培训网的学习视频。该课程视频主要讲述利用Python语言实现网络爬虫的技巧,学完这门课程后,大家可以学习到scrapy的操作,制作属于自己的爬虫,并了解网页解析的技巧。下面是视频课程主要内容:

第一章 网络爬虫简介

(1)网络爬虫的定义

(2)URL的概述

(3)url请求的基本操作

(4)百度贴吧小爬虫-上

(5)百度贴吧小爬虫-下

(6)正则表达式

第二章 scrapy制作小爬虫

(1)内涵段子小爬虫上

(2)回顾

(3)内涵段子小爬虫下

(4)scrapy制作小爬虫上

(5)scrapy制作小爬虫下

相信大家看完教育培训网的网络爬虫课程,就能轻松利用Python爬取网页。对Python爬虫感兴趣的同学,还在等什么,现在就上教育培训网官网,开始观看视频学习吧!

温馨提示:
本文【如何利用Python爬取网页?】由作者教培参考提供。该文观点仅代表作者本人,培训啦系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 培训啦 All Rights Reserved 版权所有. 湘ICP备2022011548号