网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月07日漏签0天
python吧 关注:481,281贴子:1,984,301
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 首页 上一页 1 2
  • 57回复贴,共2页
  • ,跳到 页  
<<返回python吧
>0< 加载中...

回复:小白的python学习笔记

  • 只看楼主
  • 收藏

  • 回复
  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
request headers:作用是让爬虫伪装成用户,这样就不会被服务器拒绝了。(比较low的网站)
格式:封装一个字典传参即可。
eg:
import requests
url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
headers = { user-agent:XXXXX} (用户信息在network,xhr,左边选一个,headers,request headers的末尾几行)
带参数请求数据
为什么? 因为翻页,链接要变化。
怎么办? 使用params,封装字典传参。
插入语: params的作用,就如同这里出现的一样,不用翻页啦。大概格式,就是封装字典传参。
另外,params是request模块中,get方法下的,一种参数。所以,具体格式就是 先封装字典,然后作为参数放在get方法里面。
实例:
import requests
url=cbsladubfsgbvo
params={’这个字典里面的键值对,是从Query String Parameters 拆分出来的‘}
r=request.get(’URL‘, params=pramas)


  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
爬虫的第四个步骤:存储数据(之前的三个:获取、解析、提取)
常用的数据组织形式是 csv和excel. (使用之前需要安装模块,openpyxl 和 csv。 终端输入pip install 模块名)
这两种文件的读写代码如下:
写:
import csv
csv_file=open('demo.csv', 'w', newline='')
writer=csv.writer(csv_file)
writer.writerrow(['a','b'])
csv.close()
读:
import csv
csv_file=open('demo.csv', 'r', newline='')
reader=csv.reader(csv_file)
for row in reader:
Print(row)
exel的读写代码
import openpyxl
wb= openpyxl.Workbook()
sheet=wb.active
sheet.title='neuer Name'
sheet['A1']='woshia1limiandeneirong'
rows=[[],[]] (里面要加东西的,但是我不想写了)
for i in rows:
sheet.append(i)
prit(rows)
wb.save('xcel表格名字')
读xls:
import openpzxl
wb = opwnpyxl.load_workbook('xcel表格名字')
sheet=wb['neuer Name']
sheetname=wb.sheetnames
print(sheetname)
A1_value=sheet['A1'].value
print(A1_value)


2026-02-07 20:24:47
广告
不感兴趣
开通SVIP免广告
  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Es freut mich sehr, dass mich bisher 13 Leute gefolgt haben. haha
Von null bis 13.
Und nicht wenige davon folgen nur mir.
Ich bin einfach einzigartig.


  • Supreme乄
  • 童生
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
楼主是看什么学的? 什么视频 或者什么书 能讲讲嘛


  • -胡桃
  • 秀才
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
好认真呀


  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
1. 静态和动态网页区别》是否在html源代码中。
2. selenium是Python的一个库, 原理是等待动态网页加载完毕,当做静态网页爬取.
方法: .clear() send_keys() .click()
3.import time
time.sleep(1) 等待时间1秒
4. 类、对象、属性的关系
a. 对象有方法(用法),就是在后面加什么东西 duixiang.fangfa()
b. 属性 标签里面用分号隔开的叫做属性
c. xxx数据属于xx类的对象
5, selenium所解析提取的,是Elements中的所有数据; 而BeautifulSoup所解析的则只有Network中第0个请求的响应
6. webelement 对象和Tag对象
7. HTML源代码字符串 = driver.page_source
8, requests.get()获取到的是Response对象, 需要.txt方法用字符串的形式返回


  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
1, 浏览器的静默模式和可视模式:是否可以看到浏览器被打开
复习


  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
12.06.2020
1. smtplib、email库通知
schedule 定时
2. res.encoding='utf-8' 汉字被识别为乱码(或者ctrl+F charset)
3. MIMEText(content, 'plain', 'utf-8') 文本格式是plain
4. 类['属性'] MIMEText 的类可以实现。 不是全部的类都可以这样。
5. Try, exept 语句
6. 用Python发邮件,给自己发邮件。密码是授权码。


2026-02-07 20:18:47
广告
不感兴趣
开通SVIP免广告
  • 天舒淳泽以
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
1. 第三方库schedule相对于, 内置库time和datetime,比较简单
2.成功发送邮件,但是 关了编译器就没有用了,而且我的目标网站有点难,搞不懂结构
2020.05.13


  • 小书非
  • 举人
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
爬虫还没用过,先收藏了后面对照看看


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 首页 上一页 1 2
  • 57回复贴,共2页
  • ,跳到 页  
<<返回python吧
分享到:
©2026 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示