博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读取文档
阅读量:6177 次
发布时间:2019-06-21

本文共 1129 字,大约阅读时间需要 3 分钟。

1、纯文本

from urllib.request import urlopentext = urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")print(text.read()) #但是要注意文本编码,常见ASCII,UNICODE和ISO编码,其中常见的是UTF-8,但是也有少数是ISO,在HTML页面网站会在部分显示编码格式(charset)

2、将字符串转换为utf-8格式

from urllib.request import urlopentext = urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt")print(str(text.read(),"utf-8"))

3、CSV文件最好是从网上直接把文件读成一个字符串,然后转为一个StringIO文件,使它具有文件的属性,这样就不必占有本地内存了

from urllib.request import urlopenfrom io import StringIOimport csvdata = urlopen("http://pythonscraping.com/files/MontypythonAlbums.csv").read().decode("ascii","ignore")datefile = StringIO(data)csvreader = csv.reader(datefile)for row in csvreader:    print(row)

对于以上代码,有时候会对输出的结果的第一行进行删除,可以使用以下代码

from urllib.request import urlopenfrom io import StringIOimport csvdata = urlopen("http://pythonscraping.com/files/MontypythonAlbums.csv").read().decode("ascii","ignore")datefile = StringIO(data)dictreader = csv.DictReader(datefile)#这个函数会把CSV文件每一行转换成字典对象返回,而不是列表对象print(dictreader.fieldnames)for row in dictreader:    print(row)

 

转载于:https://www.cnblogs.com/no-bald/p/8407255.html

你可能感兴趣的文章
eclipse配置jsp页面模板
查看>>
基于高德地图写的不同功能的地图应用
查看>>
DHCP服务器配置
查看>>
快速瓶颈识别
查看>>
运维工作总结201403
查看>>
我是菜鸟我加油……mysql主从同步
查看>>
[体系结构]设计模式(五)
查看>>
分布式文件系统
查看>>
其实很简单 微星为你详解Z77主板BIOS设置
查看>>
在Ubuntu Kylin下安装JDK1.8
查看>>
Hadoop 学习一
查看>>
Linux中生成/etc/shadow的加密密码
查看>>
《gcc五分钟系列》第三节:-o选项
查看>>
批量检测主机存活状态
查看>>
解决 error: gnu/stubs-32.h: No such file or directory
查看>>
imread 函数 的相关细节
查看>>
分布式和事务
查看>>
C#学习常用类(1002)---KeyValuePair<TKey, TValue> 结构
查看>>
浅谈grep命令查找匹配内容的使用、参数、正则
查看>>
磁盘配额
查看>>