手写与印刷数字数据集,共计两千万,按需求售卖或随程序服务赠品赠送

手写和印刷数字集合,手写数字每个数字200个,总共2000个,印刷数字每个超过1000个,总数据超过1w。 手写和印刷分开卖。 如果买程序和服务可以送数据集,mnist和emnist也有。

打开文件夹看到手写数字的那一刻,我对着屏幕吹了声口哨。这年头搞机器学习,谁没在MNIST上栽过跟头?但眼前这批数据有意思——手写体每个数字200样本,整齐码在目录里像阅兵方阵。印刷体那边更夸张,随便点开个"7"的文件夹,上千个宋体、黑体、楷体的数字挤得密密麻麻。

顺手敲了段Python看看数据质量:

import matplotlib.pyplot as plt import numpy as np def load_handwritten_digit(num, index): path = f'handwritten/{num}/sample_{index}.png' return plt.imread(path) digit_5 = load_handwritten_digit(5, 42) plt.imshow(digit_5, cmap='gray') plt.title('这个5写得像S...有意思') plt.show()

跑出来的结果是个歪脖子5,笔画粗细不均,边缘带着扫描件的噪点。这种不完美反而真实——毕竟现实中的快递单数字比MNIST里的潦草多了。

印刷体处理起来就痛快得多。用OpenCV批量预处理时发现个好玩的现象:

import cv2 def binarize_print(img): _, thresh = cv2.threshold(img, 170, 255, cv2.THRESH_BINARY_INV) kernel = np.ones((3,3), np.uint8) return cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel) # 对比处理效果 print_img = cv2.imread('printed/3/print_1337.jpg', 0) processed = binarize_print(print_img) plt.subplot(1,2,1) plt.imshow(print_img, cmap='gray') plt.subplot(1,2,2) plt.imshow(processed, cmap='gray') plt.tight_layout()

左边原图带着印刷特有的网点纹理,右边处理完棱角分明得像矢量图。这种数据喂给CRNN做文字识别,准确率估计能飚到98%以上。

突然想到个骚操作:把两类数据混着用。手写体当正样本,印刷体作负样本,搞个二分类器过滤快递单里的印刷体数字。代码骨架大概长这样:

from tensorflow.keras.layers import Input, Conv2D, Dense from tensorflow.keras.models import Model inputs = Input(shape=(28,28,1)) x = Conv2D(32, (3,3), activation='relu')(inputs) x = Conv2D(64, (3,3), activation='relu')(x) outputs = Dense(1, activation='sigmoid')(x) verifier = Model(inputs, outputs) verifier.compile(loss='binary_crossentropy', optimizer='adam') print(verifier.summary())

模型结构平平无奇,妙的是数据配比——每batch里手写和印刷体按1:5混入,让网络学会区分两种数字的笔触特征。实际跑下来,验证集准确率三天就破了90%大关。

说到数据来源,卖家悄悄透露买服务送EMNIST全集。这波不亏,毕竟光EMNIST的字母数据集就值回票价。不过最惊喜的是他们自带的预处理工具,能把扫描件自动矫正成28x28灰度图,省了老子写数据增强的功夫。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1131014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

告别论文方法部分逻辑断层!用费曼学习法+AI五步串联写作思路,让实验可重复、读者能看懂

论文方法部分,要求可重复、可验证,但在实际写作中,不少同仁写着写着,容易出现逻辑断层等问题,导致读者看不懂,实验也很难复现出来。 针对该问题,七哥今天教你用费曼学习法并结合AI,来串联起论文方法部分写作思路。它的核心原理是通过教别人的方式来检验和巩固自己的知…

2026年1月六大主流远程工具测评:ToDesk 凭超低延迟霸榜第一

一、前言最近公司在一个项目现场遇到紧急故障,技术支持人员到场排查后发现问题较为复杂,需要后方工程师远程协助才能快速解决。传统电话沟通效率低、信息传递容易出错,而远程控制软件能够让工程师远程操作项目现场的电脑进行实际调试&#xf…

24小时AI绘画挑战:用Z-Image-Turbo快速构建你的创意工具包

24小时AI绘画挑战:用Z-Image-Turbo快速构建你的创意工具包 在创意工作领域,时间就是灵感。当参加24小时创作马拉松时,如何快速搭建一个高效的AI辅助工具集成为关键。Z-Image-Turbo作为阿里开源的6B参数图像生成模型,通过创新的8步…

跨平台解决方案:如何在任何设备上通过云端访问Z-Image-Turbo的强大功能

跨平台解决方案:如何在任何设备上通过云端访问Z-Image-Turbo的强大功能 作为一名经常出差的设计师,你是否遇到过这样的困扰:手边只有平板电脑或轻薄本,却需要快速生成高质量的AI绘画作品?Z-Image-Turbo作为阿里通义实验…

懒人专属:不用写代码也能玩转Z-Image-Turbo的WebUI一键部署方案

懒人专属:不用写代码也能玩转Z-Image-Turbo的WebUI一键部署方案 作为一名市场营销人员,你是否经常需要快速生成大量产品概念图,却苦于没有编程基础?Z-Image-Turbo的WebUI一键部署方案正是为你量身定制的解决方案。这款基于Stable…

❿⁄₅ ⟦ OSCP ⬖ 研记 ⟧ 密码攻击 ➱ 密码破解理论(下)

郑重声明:本文所涉安全技术仅限用于合法研究与学习目的,严禁任何形式的非法利用。因不当使用所导致的一切法律与经济责任,本人概不负责。任何形式的转载均须明确标注原文出处,且不得用于商业目的。 🔋 点赞 | 能量注入…

基于XGBoost的混凝土力学性能预测系统

基于XGBoost的混凝土力学性能预测系统 1. 项目概述与背景 1.1 研究背景 混凝土作为现代建筑工程中应用最广泛的建筑材料之一,其力学性能直接关系到工程结构的安全性和耐久性。混凝土的力学性能受到多种因素影响,其中配合比参数(如水灰比、骨料用量、水泥用量等)是决定其…

科哥魔改版终极体验:三步部署定制化AI绘画工作台

科哥魔改版终极体验:三步部署定制化AI绘画工作台 作为一名游戏美术设计师,你是否经常需要快速生成不同风格的素材来激发灵感?但公司IT部门的云服务器审批流程漫长,让你错失创意火花?今天我要分享的"科哥魔改版终极…

AI艺术家的秘密武器:云端一键部署Z-Image-Turbo创作工作室

AI艺术家的秘密武器:云端一键部署Z-Image-Turbo创作工作室 作为一名自由艺术家,你是否曾想过借助AI的力量来拓展创作边界,却被复杂的安装配置和硬件要求劝退?Z-Image-Turbo正是为解决这一痛点而生的AI创作工具。本文将带你从零开始…

Docker相关命令详解

Docker 相关命令详解(2026 年最新版) Docker CLI 是管理容器、镜像、网络、卷等的核心工具。截至 2026 年 1 月,Docker Engine 的 CLI 结构保持稳定,主要命令以 docker 开头,后跟子命令(如 docker contain…

day57(1.8)——leetcode面试经典150

530. 二叉搜索树的最小绝对差 530. 二叉搜索树的最小绝对值 题目: 题解: 一开始用的笨办法: /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode…

DBSCAN相似重复记录检测优化实现【附代码】

✅ 博主简介:擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。✅成品或者定制,扫描文章底部微信二维码。(1) 基于测地距离的初始点选取及核密度估计的参数自适应方法DBSCAN聚类算法在执行相似…

Z-Image-Turbo性能监控指南:部署后的优化与调校

Z-Image-Turbo性能监控指南:部署后的优化与调校 Z-Image-Turbo作为一款高性能图像生成模型,通过创新的8步蒸馏技术实现了亚秒级图像生成能力。对于已经完成服务部署的运维团队而言,建立完善的监控系统是保障服务稳定运行的关键。本文将详细介…

绿色计算:评估AI图像生成碳足迹及优化策略

绿色计算:评估AI图像生成碳足迹及优化策略 随着AI图像生成技术的普及,越来越多的环保组织开始关注数字技术对环境的影响。如何量化比较不同部署方式下AI模型的能源消耗情况,成为当前研究的热点之一。本文将介绍如何使用绿色计算方法来评估AI图…

MySQL索引明明建了,查询还是慢,排查发现踩了这些坑

背景 同事说他的SQL查询很慢,但他明明建了索引。 我过去一看: SELECT * FROM orders WHERE user_id 10086 AND status 1; 表有500万数据,user_id和status都有索引,但这条SQL执行要3秒。 用EXPLAIN一看: EXPLAI…

改进人工蜂群算法优化主动悬架控制策略【附代码】

✅ 博主简介:擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。✅成品或者定制,扫描文章底部微信二维码。(1) 改进人工蜂群算法优化的PID控制器设计主动悬架系统的性能很大程度上取决于控制器…

教育特供版:如何在校园网环境下快速部署Z-Image-Turbo

教育特供版:如何在校园网环境下快速部署Z-Image-Turbo 作为一名计算机实验室管理员,你是否遇到过这样的困境:想要为学生搭建AI图像生成学习环境,但校园网的网络限制、软件安装权限等问题让部署变得异常困难?本文将介绍…

毕设成品 基于单片机的姿态检测与可视化系统(源码+硬件+论文)

文章目录 1 前言2 设计方案2.1 MPU60502.2 工作原理2.3 单片机与MPU6050通信2.4 mpu6050 数据格式2.5 倾角计算方法 3 核心软件设计4 实现效果5 最后 1 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点&#x…

基于Django的在线课程学习平台 计算机毕业设计选题 计算机毕设项目 前后端分离【源码-文档报告-代码讲解】

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

零成本启动:用免费云端GPU快速运行阿里通义Z-Image-Turbo WebUI

零成本启动:用免费云端GPU快速运行阿里通义Z-Image-Turbo WebUI 作为一名学生党,想要完成AI图像生成相关的课程项目,却苦于个人电脑性能不足,又难以承担高昂的云计算费用?别担心,本文将带你零成本快速上手阿…