python验证码 识别代码不准_谈谈Python进行验证码识别的一些想法

用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管是用什么方法,都需要首先对图片进行处理,于是试着对下面的验证码进行分析。

一、图片处理

2016012510373719.png

这个验证码中主要的影响因素是中间的曲线,首先考虑去掉图片中的曲线。考虑了两种算法:

第一种是首先取到曲线头的位置,即x=0时,黑点的位置。然后向后移动x的取值,观察每个x下黑点的位置,判断前后两个相邻黑点之间的距离,如果距离在一定范围内,可以基本判断该点是曲线上的点,最后将曲线上的点全部绘成白色。试了一下这种方法,结果得到的图片效果很一般,曲线不能完全去除,而且容量将字符的线条去除。

第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数,将单位面积内点个数少于某一指定数的面积去除,剩余的部分基本上就是验证码字符的部分。本例中,为了便于操作,取了5*5做为单位范围,并调整单位面积内点的标准密度为11。处理后的效果:

2016012510373720.jpg

二、字符验证

这里我使用的方法是利用pytesser进行ocr识别,但由于这类验证码字符的不规则性,使得验证结果的准确性并不是很高。具体哪位大牛,有什么好的办法,希望能给指点一下。

三、准备工作与代码实例

1、PIL、pytesser、tesseract

(1)安装PIL:下载地址:http://www.pythonware.com/products/pil/

(2)pytesser:下载地址:http://code.google.com/p/pytesser/,下载解压后直接放在代码相同的文件夹下,即可使用。

(3)Tesseract OCR engine下载:http://code.google.com/p/tesseract-ocr/,下载后解压,找到tessdata文件夹,用其替换掉pytesser解压后的tessdata文件夹即可。

2、具体代码

#encoding=utf-8

###利用点的密度计算

import Image,ImageEnhance,ImageFilter,ImageDraw

import sys

from pytesser import *

#计算范围内点的个数

def numpoint(im):

w,h = im.size

data = list( im.getdata() )

mumpoint=0

for x in range(w):

for y in range(h):

if data[ y*w + x ] !=255:#255是白色

mumpoint+=1

return mumpoint

#计算5*5范围内点的密度

def pointmidu(im):

w,h = im.size

p=[]

for y in range(0,h,5):

for x in range(0,w,5):

box = (x,y, x+5,y+5)

im1=im.crop(box)

a=numpoint(im1)

if a<11:##如果5*5范围内小于11个点,那么将该部分全部换为白色。

for i in range(x,x+5):

for j in range(y,y+5):

im.putpixel((i,j), 255)

im.save(r'img.jpg')

def ocrend():##识别

image_name = "img.jpg"

im = Image.open(image_name)

im = im.filter(ImageFilter.MedianFilter())

enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)

im = im.convert('1')

im.save("1.tif")

print image_file_to_string('1.tif')

if __name__=='__main__':

image_name = "1.png"

im = Image.open(image_name)

im = im.filter(ImageFilter.DETAIL)

im = im.filter(ImageFilter.MedianFilter())

enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)

im = im.convert('1')

##a=remove_point(im)

pointmidu(im)

ocrend()

本人的这个方法,最终识别率确实不高,写出来,哪位高手有好的思路或者做法,望不惜赐教!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab 安装jdbc.jar

加到matlab的启动项下面。 方法如下&#xff1a;找到matlab的安装路径&#xff0c;如下&#xff1a; 有一个classpath的txt文件&#xff0c;打开&#xff0c;在末尾添加jdbc的jar包路径即可&#xff0c;如下&#xff1a; 或者&#xff0c;直接在matlab 上用以下命令&#xff0…

MyEclipse软件中快捷键

在调试程序的时候&#xff0c;我们经常需要注释一些代码&#xff0c;在用Myeclipse编程时&#xff0c;就可以用 Ctrl/ 为选中的一段代码加上以 // 打头的注释&#xff1b;当需要恢复代码功能的时候&#xff0c;又可以用Ctrl/ 去掉注释。这样的快捷键确实让我们编程变得容易多了…

python3:(unicode error) 'utf-8' codec can't decode

操作系统&#xff1a;win7 旗舰版 语言&#xff1a;python3.4 文本编辑器&#xff1a;vim、notepad 报错&#xff1a;SyntaxError: (unicode error) utf-8 codec cant decode byte 0xb4 in position 0:invalid start byte 基本知识&#xff1a;在python中默认的编码格式是 utf-…

传统的Web应用程序和RESTful API

如今&#xff0c;当我们构建Web应用程序时&#xff0c;将所有功能公开为RESTful API&#xff0c;然后自己使用它是一种最佳实践。 这通常与使用繁重的javascript的丰富前端配合使用&#xff0c;例如Angular / Ember / Backbone / React。 但是沉重的前端似乎不是一个很好的默认…

c语言怎样获得函数内参数的值_C语言可变参数函数的实现原理

在本人的《C语言可变参数函数的实现方法》一文中&#xff0c;介绍了如何建立自己的可变参数函数。下面继续介绍可变参数函数的实现原理。在汇编语言程序设计中&#xff0c;详细介绍了子程序的实现思想&#xff1a;(1)子程序只是一段代码的起始地址&#xff1b;(2)调用子程序之前…

Log4j使用详解(log4j.XML格式)——整理

log4j.xml配置详解&#xff08;原文地址&#xff09; 首先当然是得到log4j的jar档&#xff0c;推荐使用1.2.X版&#xff0c;下载地址&#xff1a; http://logging.apache.org/log4j/1.2/download.html xml格式的log4j配置文件概述 xml格式的log4j配置文件需要使用org.apache…

SAS

options nosource; * 抑制SAS语句日志;options nosource2; * 抑制宏到日志文件的打印;options notes; * 抑制所有消息记录;你也可以三个一起用&#xff0c;如下&#xff1a;options nosource nosource2 notes; 下面的是连错误都不打印 option nonotes nomprint nosource nos…

[Swift]LeetCode39. 组合总和 | Combination Sum

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号&#xff1a;山青咏芝&#xff08;shanqingyongzhi&#xff09;➤博客园地址&#xff1a;山青咏芝&#xff08;https://www.cnblogs.com/strengthen/&#xff09;➤GitHub地址&a…

eclipse 重构_Eclipse对类固醇的重构

eclipse 重构在上一篇有关常见Java违规的文章中 &#xff0c;我列出了Java开发人员容易犯的一系列错误。 在重构Java项目以解决这些违规问题的同时&#xff0c;我广泛使用Eclipse的重构功能来快速更改代码。 下面是这种重构技术的汇编。 1.在块级语句周围添加花括号 用{curly …

python中能够处理的最大整数是_实例讲解Python中整数的最大值输出

在Python中可以存储很大的值&#xff0c;如下面的Python示例程序&#xff1a;x 10000000000000000000000000000000000000000000;x x 1print (x)输出&#xff1a;10000000000000000000000000000000000000000001在Python中&#xff0c;整数的值不受位数的限制&#xff0c;可以…

SAS宏保存以便快速调用的三种解决方案(转载)

1.方式一&#xff1a;%include %include "full_path\sortds.txt"; inserts any code in the file called sortds.txt into your program at the location of the %include statement. Using this method, the macro must be recompiled every time a %INCLUDE is exe…

log4j.properties log4j.xml 路径问题

自动加载配置文件&#xff1a; &#xff08;1&#xff09;如果采用log4j输出日志&#xff0c;要对log4j加载配置文件的过程有所了解。log4j启动时&#xff0c;默认会寻找source folder下的log4j.xml配置文件&#xff0c;若没有&#xff0c;会寻找log4j.properties文件。然后加…

webpack4+react多页面架构

webpack在单页面打包上应用广泛&#xff0c;以create-react-app为首的脚手架众多&#xff0c;单页面打包通常是将业务js&#xff0c;css打包到同一个html文件中&#xff0c;整个项目只有一个html文件入口,但也有许多业务需要多个页面不同的入口&#xff0c;比如不同的h5活动&am…

Spring安全性和密码编码

在以前的文章中&#xff0c;我们深入探讨了Spring安全性。 我们实现了由jdbc支持的安全性&#xff0c;基于自定义 jdbc查询的安全性以及从nosql数据库检索安全性的信息。 通过足够小心&#xff0c;我们会发现密码为纯文本格式。 尽管这在实际环境中可以很好地用于示例目的&…

SAS宏技术中,%let和call symput有什么区别?

平时经常使用的宏变量定义方法有三种&#xff1a; 1. %let xxxyyy; 2. Call Symput(xxx,yyy); 3. select xxx into: yyy. 三种定义方式最大的区别是在MACRO函数内定义所生成的宏变量的类型不同&#xff1a; Call Symput在宏函数中定义的宏变量可以在函数外调用&#xff1b;而%…

阿里巴巴的开源项目Druid(关于数据库连接)

原文地址&#xff1a;http://www.iteye.com/magazines/90文章简介 Druid首先是一个数据库连接池&#xff0c;但它不仅仅是一个数据库连接池&#xff0c;它还包含一个ProxyDriver&#xff0c;一系列内置的JDBC组件库&#xff0c;一个SQLParser。Druid支持所有JDBC兼容的数据库&a…

springcloud服务注册和发现

微服务架构中&#xff0c;服务发现组件是一个非常关键的组件&#xff0c;服务消费者、服务提供者、服务发现组件的关系大致如下&#xff1a; 各个微服务启动时&#xff0c;将自己的网络地址等信息注册到服务发现组件中&#xff0c;服务发现组件会存储这些信息服务消费者可从服务…

sas infile和filename

3.1 追加原始文件 原始数据可以使用以下的方法进行纵合并。INFILE语句 FILENAME语句 FILEVAR选项 操作系统自身的技术 首先&#xff0c;你可能要察看原始数据。可以用FSLIST过程。 语法&#xff1a; PROC FSLIST FILE file-specification; RUN; 实际使用中&#xff0c;专门的编…

Java 多线程(六) synchronized关键字详解

多线程的同步机制对资源进行加锁&#xff0c;使得在同一个时间&#xff0c;只有一个线程可以进行操作&#xff0c;同步用以解决多个线程同时访问时可能出现的问题。 同步机制可以使用synchronized关键字实现。 当synchronized关键字修饰一个方法的时候&#xff0c;该方法叫做同…

java自动化_作为测试工程师进阶自动化选Java还是Python?

这是很多测试工程师从功能跨入自动化纠结的问题&#xff0c;今天本文带大家一探究竟。Java和Python一直都是两种很火的语言&#xff0c;用Python的一定觉得Python好&#xff0c;用Java的只觉得Java好。Java语言 VS Python语言Java自动化方法 VS Python自动化方法综上所述&…