注意:本文资源版权属于原出版机构,本资源为电子载体,传播分享仅限于家庭使用与交流心得、参考和辅助购买决策,不得以任何理由在商业行为中使用!
2、点击我的头像私信发送数字“307”即可
功能:
自动爬取某网站,并且将该网站的文本数据存储到本地。
基本实现步骤:
1)自动爬取网站,获得网站数据;
2)数据存储到本地。
遇到问题及解决办法:
1)自动爬取,暂时水平不够高,采用的伪爬取方法即找到网页网址的规律;
2)关于文本的处理,输出成想要的格式
正题方法:
1)网页分为静态网页(存粹的html格式的)、动态网页(使用AJAX),即动态加载网页的数据不一定出现按外html中等。
本文爬取的网页是动态网页,采用的方法是浏览器渲染引擎(渲染引擎的职责就是渲染,即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分,所以渲染引擎也称为浏览器内核)。因而需要安装selenium库,
FireFox浏览器,下载getodriver。selenium库使用方法:https://blog.csdn.net/weixin_36279318/article/details/79475388
访问网址url:https://www.biqukan.com/2_2757/1107517.html,鬼吹灯的链接。
需要爬取内容:标题、文本。
标题的元素特征:div,class = “content”或h1
文本元素特征:div,id = “content” class = “showtxt”
2)通过BeautifulSoup,安装模块后,获得soup对象,按照上面的元素属性,调用方法find_all()或find可以所以符合上述元素特征的元素列表。(https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#find-all)
3)根据BeautifulSoup手册上的,get_text()方法获得tag标签的文本内容,因为获取的文本内容存在空格,采用的笨方法
用strip()方法去除空格,返回列表,并用字符串+方法将列表的字符串拼接,完成文本提取工作
4)下面按照顺序依次爬取所有章节文本数据。
源代码如下:
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from bs4 import BeautifulSoup
import time
import sys
import re
caps = webdriver.DesiredCapabilities().FIREFOX
caps["marionette"] = False
binary = FirefoxBinary(r'D:\Anaconda3\Scripts\firefox.exe')
driver = webdriver.Firefox(firefox_binary = binary,capabilities=caps)
Debug =1
MaxTextNum = 100
def singlePageGet(driver,url):
'''
函数说明:单页提取数据
:return:单页标题、文本
'''
driver.get(url)
webData = driver.page_source
soup = BeautifulSoup(webData,'lxml')
titlesList = (soup.find_all('h1'))
textsList = soup.find_all('div',class_ = "showtxt")
if textsList:
#print(titlesList,textsList)
titles = titlesList[0].get_text().split()
texts = textsList[0].get_text().strip().split()
finalText = ''
finalTitle = ''
for text in texts:
finalText = finalText + text
for title in titles:
finalTitle = finalTitle + title
return finalTitle,finalText
else :
return
def writeToFile(title,content):
fileName = '鬼吹灯.txt'
with open(fileName,'a+',encoding='utf-8') as f:
f.write(title)
f.write('\n')
f.write(content)
f.write('\n\n')
#8035
urlsAccess = ['https://www.biqukan.com/2_2757/{}.html'.format(value) for value in range(1108307,1108346,1)]
#1108346 117517
numing = 0
for url in urlsAccess:
if singlePageGet(driver,url):
titles,texts = singlePageGet(driver,url)
if titles:
writeToFile(titles,texts)
time.sleep(2)
numing = numing + 1
print('下载进度:%4.2f'%(numing/len(urlsAccess)))
else :
numing = numing + 1
print('下载完成')
Python交流,提供技术服务,共同讨论,欢迎各路萌新和大神加入,群号;601020339
相关问答
没有建议你去三秋书屋这个网站看看,可能有,都是免费下载的。
UC浏览器搜索后可以直接在线看。《鬼吹灯》是天下霸唱创作的系列小说,《鬼吹灯》最早连载于2006年的天涯论坛,而后被起点中文网获得连载版权,同年9月《鬼吹灯...
腾讯文学畅销图书|免费小说,玄幻小说,历史小说博览群书小说下载阅读器(3)_软件学园腾讯文学畅销图书|免费小说,玄幻小说,历史小说带弹幕的小说阅读神器?超阅...
什么都可以啊,可以用自带的ibooks把书导入即可有用(0)回复qzg871021去之梦论坛,哪里的电子书资源非常丰富~有用(0)回复精品应用推荐新浪微博天气通淘...
《鬼吹灯九层妖塔》票房6.8亿,据传成本才9000万。《鬼吹灯寻龙诀》票房16.82亿,成本2.5亿。更别说鬼吹灯系列的电视剧收视率一直居高不下。仅从这点数据来看,...
力推正在热播的《龙岭迷窟》。《鬼吹灯》小说一共8本,光饰演胡八一的就有不止8个演员,但注定潘粤明的这版最好,原因很简单,腾讯拥有天下霸唱8部小说的网络改...
鬼吹灯系列的正确顺序是《精绝古城》、《龙岭迷窟》、《云南虫谷》、《昆仑神宫》、《黄皮子坟》、《南海归墟》、《怒晴湘西》、《巫峡棺山》。《精绝古城》...
作为一个书龄将近20年的人,给大家推荐几本我反复看过好几遍的小说。沙雕型:1.《向师祖献上咸鱼》想看一下咸鱼的梦想人生和终极目标吗?《向师祖献上咸鱼》...
《鬼吹灯之圣泉寻踪》,《鬼吹灯之抚仙毒盅》,《鬼吹灯之山海妖冢》,《鬼吹灯之湘西疑陵》,《鬼吹灯之镇库狂沙》《鬼吹灯之圣泉寻踪》,《鬼吹灯之抚仙毒盅》,...
谢谢邀请鬼故事其实有很多比如《鬼吹灯》《鬼吹灯之精诚古绝》《河神》《半夜别回头》《养鬼为祸》先说这几个吧!大半夜的回答你问题搞得我毛骨悚然...