html表格转换为csv,python实现将html表格转换成CSV文件的方法

python实现将html表格转换成CSV文件的方法

发布于 2015-11-18 16:53:39 | 155 次阅读 | 评论: 0 | 来源: 网友投递

Python编程语言Python 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。

这篇文章主要介绍了python实现将html表格转换成CSV文件的方法,涉及Python操作csv文件的相关技巧,需要的朋友可以参考下

本文实例讲述了python实现将html表格转换成CSV文件的方法。分享给大家供大家参考。具体如下:

使用方法:python html2csv.py *.html

这段代码使用了 HTMLParser 模块

#!/usr/bin/python

# -*- coding: iso-8859-1 -*-

# Hello, this program is written in Python - http://python.org

programname = 'html2csv - version 2002-09-20 - http://sebsauvage.net'

import sys, getopt, os.path, glob, HTMLParser, re

try: import psyco ; psyco.jit() # If present, use psyco to accelerate the program

except: pass

def usage(progname):

''' Display program usage. '''

progname = os.path.split(progname)[1]

if os.path.splitext(progname)[1] in ['.py','.pyc']: progname = 'python '+progname

return '''%s

A coarse HTML tables to CSV (Comma-Separated Values) converter.

Syntax : %s source.html

Arguments : source.html is the HTML file you want to convert to CSV.

By default, the file will be converted to csv with the same

name and the csv extension (source.html -> source.csv)

You can use * and ?.

Examples : %s mypage.html

: %s *.html

This program is public domain.

Author : Sebastien SAUVAGE

http://sebsauvage.net

''' % (programname, progname, progname, progname)

class html2csv(HTMLParser.HTMLParser):

''' A basic parser which converts HTML tables into CSV.

Feed HTML with feed(). Get CSV with getCSV(). (See example below.)

All tables in HTML will be converted to CSV (in the order they occur

in the HTML file).

You can process very large HTML files by feeding this class with chunks

of html while getting chunks of CSV by calling getCSV().

Should handle badly formated html (missing

, , ,

extraneous , ...).

This parser uses HTMLParser from the HTMLParser module,

not HTMLParser from the htmllib module.

Example: parser = html2csv()

parser.feed( open('mypage.html','rb').read() )

open('mytables.csv','w+b').write( parser.getCSV() )

This class is public domain.

Author: Sébastien SAUVAGE

http://sebsauvage.net

Versions:

2002-09-19 : - First version

2002-09-20 : - now uses HTMLParser.HTMLParser instead of htmllib.HTMLParser.

- now parses command-line.

To do:

- handle

 tags

- convert html entities (&name; and ref;) to Ascii.

'''

def __init__(self):

HTMLParser.HTMLParser.__init__(self)

self.CSV = '' # The CSV data

self.CSVrow = '' # The current CSV row beeing constructed from HTML

self.inTD = 0 # Used to track if we are inside or outside a

... tag.

self.inTR = 0 # Used to track if we are inside or outside a

... tag.

self.re_multiplespaces = re.compile('s+') # regular expression used to remove spaces in excess

self.rowCount = 0 # CSV output line counter.

def handle_starttag(self, tag, attrs):

if tag == 'tr': self.start_tr()

elif tag == 'td': self.start_td()

def handle_endtag(self, tag):

if tag == 'tr': self.end_tr()

elif tag == 'td': self.end_td()

def start_tr(self):

if self.inTR: self.end_tr() #

implies

self.inTR = 1

def end_tr(self):

if self.inTD: self.end_td() # implies

self.inTR = 0

if len(self.CSVrow) > 0:

self.CSV += self.CSVrow[:-1]

self.CSVrow = ''

self.CSV += 'n'

self.rowCount += 1

def start_td(self):

if not self.inTR: self.start_tr() #

implies

self.CSVrow += '"'

self.inTD = 1

def end_td(self):

if self.inTD:

self.CSVrow += '",'

self.inTD = 0

def handle_data(self, data):

if self.inTD:

self.CSVrow += self.re_multiplespaces.sub(' ',data.replace('t',' ').replace('n','').replace('r','').replace('"','""'))

def getCSV(self,purge=False):

''' Get output CSV.

If purge is true, getCSV() will return all remaining data,

even if

or are not properly closed.

(You would typically call getCSV with purge=True when you do not have

any more HTML to feed and you suspect dirty HTML (unclosed tags). '''

if purge and self.inTR: self.end_tr() # This will also end_td and append last CSV row to output CSV.

dataout = self.CSV[:]

self.CSV = ''

return dataout

if __name__ == "__main__":

try: # Put getopt in place for future usage.

opts, args = getopt.getopt(sys.argv[1:],None)

except getopt.GetoptError:

print usage(sys.argv[0]) # print help information and exit:

sys.exit(2)

if len(args) == 0:

print usage(sys.argv[0]) # print help information and exit:

sys.exit(2)

print programname

html_files = glob.glob(args[0])

for htmlfilename in html_files:

outputfilename = os.path.splitext(htmlfilename)[0]+'.csv'

parser = html2csv()

print 'Reading %s, writing %s...' % (htmlfilename, outputfilename)

try:

htmlfile = open(htmlfilename, 'rb')

csvfile = open( outputfilename, 'w+b')

data = htmlfile.read(8192)

while data:

parser.feed( data )

csvfile.write( parser.getCSV() )

sys.stdout.write('%d CSV rows written.r' % parser.rowCount)

data = htmlfile.read(8192)

csvfile.write( parser.getCSV(True) )

csvfile.close()

htmlfile.close()

except:

print 'Error converting %s ' % htmlfilename

try: htmlfile.close()

except: pass

try: csvfile.close()

except: pass

print 'All done. '

相关阅读:

python实现将html表格转换成CSV文件的方法

python实现将pvr格式转换成pvr.ccz的方法

Python实现将绝对URL替换成相对URL的方法

python通过pil模块将raw图片转换成png图片的方法

python使用PythonMagick将jpg图片转换成ico图片的方法

python实现支持目录FTP上传下载文件的方法

Python实现压缩与解压gzip大文件的方法

python实现将英文单词表示的数字转换成阿拉伯数字的方法

python将图片文件转换成base64编码的方法

python将文本转换成图片输出的方法

python实现将元祖转换成数组的方法

Python实现简单HTML表格解析的方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328945.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM调优总结(2):基本垃圾回收算法

转载自 JVM调优总结(2):基本垃圾回收算法可以从不同的的角度去划分垃圾回收算法: 按照基本回收策略分 引用计数(Reference Counting): 比较古老的回收算法。原理是此对象有一个引用,即增加一个…

巧妙使用信用卡N个小技巧

大家看标题也看出来了,今天的博文与之前的相差十万八千里,既不是代码,也不是黑科技,既不属于创业,也不属于赚钱,今天咱们坐下来就慢慢的谈谈信用卡吧,现在大多数白领,老板&#xff0…

ubuntu16.4下用jexus部署asp.net core rtm

今天说下ubuntu 下部署asp.net core,不需要安装.net core sdk,自带运行时方式部署,利用jexus服务器转发请求到asp.net core. 1.部署准备环境 vmware虚拟机(其他也可以) ubuntu16.04镜像 2.发布环境 win10系统 vs2015 u…

html页面会出现浏览器崩溃,大规模WebGL应用引发浏览器崩溃的几种情况及解决办法...

我们使用Javascript写WebApp的时候,一般都不会考虑对象的生命周期,不太关注内存“泄露”的问题,依赖JS引擎的垃圾回收机制就可以运行的很好,基本上很少会出现浏览器崩溃的情况。但在Web端显示大规模三维模型的时候,内存…

细说SSO单点登录

什么是SSO? 如果你已知道,请略过本节! SSO核心意义就一句话:一处登录,处处登录;一处注销,处处注销。即:在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应…

java实现字符逆序输出

package cn.jbit.array;import java.util.Arrays;public class CharsSort {/*** 字符逆序输出*/public static void main(String[] args) {char[] chars new char[]{a,c,u,b,e,p,f,z};System.out.print("原字符序列&#xff1a;");for(int i 0; i < chars.lengt…

html5页面转场,基于HTML5 SVG的页面过渡切换效果

示例中使用了CSS Flexbox和CSS变量&#xff0c;不是所有的浏览器都支持这些新的CSS属性。该HTML5 SVG的页面过渡变形切换效果的基本HTML结构如下&#xff1a;d"M -44,-50 C -52.71,28.52 15.86,8.186 184,14.69 383.3,22.39 462.5,12.58 638,14 835.5,15.6 987,6.4 1194,1…

JVM调优总结(4):分代垃圾回收

转载自 JVM调优总结&#xff08;4&#xff09;&#xff1a;分代垃圾回收为什么要分代 分代的垃圾回收策略&#xff0c;是基于这样一个事实&#xff1a;不同的对象的生命周期是不一样的。因此&#xff0c;不同生命周期的对象可以采取不同的收集方式&#xff0c;以便提高回收效…

.NET Core系列 : 2 、project.json 这葫芦里卖的什么药

.NET Core系列 &#xff1a; 1、.NET Core 环境搭建和命令行CLI入门 介绍了.NET Core环境&#xff0c;本文介绍.NET Core中最重要的一个配置文件project.json的相关内容。我们可以使用.NET Core 的dotnet 命令行接口&#xff08;CLI&#xff09;dotnet new命令创建一个应用&…

html5 地图效果,html5 echarts图表插件炫光的分布地图动画特效

特效描述&#xff1a;图表插件 炫光的动画 分布地图动画 动画特效。html5地图动画&#xff0c;html5 echarts图表插件代码结构1. 引入JS2. HTML代码&#xfeff;ECharts$(#document).ready(function(){getEcharts();});function getEcharts(){// Step:3 conifg EChartss path, …

ASP.NET MVC @helper使用说明

简单的 helper 方法应用场景 Razor中的helper语法让您能够轻松创建可重用的方法&#xff0c;此方法可以在您的视图模板中封装输出功能。他们使代码能更好地重用&#xff0c;也使代码更具有可读性。 在我们定义helper方法之前的代码 让我们看一个简单的产品列表应用场景。在此场…

java实现向有序数组中插入一个元素

package cn.jbit.array; import java.util.*;public class Insert {public static void main(String[] args) {//字符排序char[] chars new char[9];chars[0] a;chars[1] c;chars[2] u;chars[3] b;chars[4] e;chars[5] p;chars[6] f;chars[7] z;System.out.print(&quo…

JVM调优总结(5):典型配置

转载自 JVM调优总结&#xff08;5&#xff09;&#xff1a;典型配置以下配置主要针对分代垃圾回收算法而言。 堆大小设置 年轻代的设置很关键 JVM中最大堆大小有三方面限制&#xff1a;相关操作系统的数据模型&#xff08;32-bt还是64-bit&#xff09;限制&#xff1b;系统的…

html点击弹出iframe,JavaScript:关于跨iframe弹窗

index.htmliframe.html$(function(){$("#window").window({width: 200,height: 100});});效果由于是在iframe中弹窗致使窗口被腰斩&#xff0c;所以需要向window中追加节点再弹窗&#xff0c;解决方式如下var win window.top.document.createElement("div"…

Visual Studio “15”第三个预览版发布

微软发布了Visual Studio 2015后继版本Visual Studio “15” (VS15)的第三个预览版本。目前为止&#xff0c;VS15延续了开发过程的迭代特性&#xff0c;升级了IDE的功能&#xff0c;提供了用户可以修改的C#格式规则以及一个新的异常辅助程序。 经过修改的智能提示弹出框包含了一…

计算一个班的平均分

package cn.jbit.nestedloops; import java.util.Scanner; /*** 计算一个班的平均分*/ public class AvgScore {public static void main(String args[]){int[] score new int[4]; //成绩数组float sum 0.0f; //成绩总和float average 0.0f; //成绩平均值//循环输入学…

IronPython死而复生

IronPython是一个运行在.Net框架通用语言运行库上的实现&#xff08;Common Language Runtime&#xff0c;CLR&#xff09;。这个项目曾一度停滞不前&#xff0c;最近&#xff0c;团队换了领导者&#xff0c;带来了新的进展。 Jeff Hardy&#xff0c;IronPython项目的前领导人&…

阳泉2021高考成绩查询时间段,2021年阳泉高考成绩排名及成绩公布时间什么时候出来...

阳泉高考结束后&#xff0c;每年都有很多家长和考试不知道阳泉高考成绩排名如何查询、阳泉高考成绩什么时候公布以及查询方式&#xff0c;本文小编整理了阳泉高考成绩查询排名的相关知识。一、阳泉高考成绩公布时间及查询方式根据往年阳泉高考成绩公布时间预测&#xff0c;2021…

深入JVM——OOM异常解析

转载自 深入JVM——OOM异常解析JVM对象访问解析 对象访问过程的内存情况 public void function(){Object obj &#xff1d; new Object(); }?function方法被执行的时候&#xff0c;JVM在JVM栈中为function创建一个栈帧&#xff0c;用于存放function在运行过程中的一些信息。O…

mvc html.antiforgerytoken,MVC Html.AntiForgeryToken() 防止CSRF***

MVC中的Html.AntiForgeryToken()是用来防止跨站请求伪造(CSRF:Cross-site request forgery)***的一个措施,它跟XSS(XSS又叫CSS:Cross-Site-Script),***不同,XSS一般是利用站内信任的用户在网站内插入恶意的脚本代码进行***&#xff0c;而CSRF则是伪造成受信任用户对网站进行***…