临武县网站建设专业洛阳霞光网络科技

web/2025/9/27 5:33:35/文章来源:
临武县网站建设专业,洛阳霞光网络科技,网站建设公司的名字,郴州的正确读音推荐#xff1a;使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景 我们都知道#xff0c;GAN在生成非结构化合成数据#xff08;如图像和文本#xff09;方面越来越受欢迎。然而#xff0c;在使用GAN生成合成表格数据方面所做的工作很少。合成数据具有许多好处#x… 推荐使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景 我们都知道GAN在生成非结构化合成数据如图像和文本方面越来越受欢迎。然而在使用GAN生成合成表格数据方面所做的工作很少。合成数据具有许多好处包括其在机器学习应用程序、数据隐私、数据分析和数据增强中的使用。只有少数模型可用于生成合成表格数据CTGAN条件表格生成对抗网络就是其中之一。与其他 GAN 一样它使用生成器和鉴别器神经网络来创建与真实数据具有相似统计属性的合成数据。CTGAN可以保留真实数据的底层结构包括列之间的相关性。CTGAN的额外好处包括通过特定于模式的规范化来增强训练过程一些架构更改以及通过使用条件生成器和采样训练来解决数据不平衡问题。 在这篇博文中我使用CTGAN根据从Kaggle收集的信用分析数据集生成合成数据。 CTGAN的优点 生成与实际数据具有类似统计属性的合成表格数据包括不同列之间的相关性。保留真实数据的底层结构。CTGAN生成的合成数据可用于各种应用例如数据增强数据隐私和数据分析。可以处理连续、离散和分类数据。 CTGAN的缺点 CTGAN需要大量的真实表格数据来训练模型并生成与真实数据具有相似统计属性的合成数据。CTGAN是计算密集型的可能需要大量的计算资源。CTGAN生成的合成数据的质量可能会有所不同具体取决于用于训练模型的真实数据的质量。 调整CTGAN 与所有其他机器学习模型一样CTGAN在调优时表现更好。在调整CTGAN时需要考虑多个参数。但是对于此演示我使用了“ctgan 库”附带的所有默认参数 纪元生成器和鉴别器网络在数据集上训练的次数。学习率模型在训练期间调整权重的速率。批量大小每次训练迭代中使用的样本数。生成器和鉴别器网络大小。优化算法的选择。 CTGAN还考虑了超参数例如潜在空间的维数生成器和判别器网络中的层数以及每层中使用的激活函数。参数和超参数的选择会影响生成的合成数据的性能和质量。 CTGAN的验证 CTGAN的验证是棘手的因为它存在局限性例如难以评估生成的合成数据的质量特别是在涉及表格数据时。尽管有一些指标可用于评估真实数据和合成数据之间的相似性但确定合成数据是否准确表示真实数据中的基本模式和关系仍然具有挑战性。此外CTGAN容易受到过度拟合的影响并且可以产生与训练数据过于相似的合成数据这可能会限制它们泛化到新数据的能力。 一些常见的验证技术包括 统计测试比较生成数据和真实数据的统计属性。例如使用相关性分析、柯尔莫哥罗夫-斯米尔诺夫检验、安德森-达林检验和卡方检验等检验来比较生成的数据和真实数据的分布。可视化通过绘制直方图、散点图或热图来可视化异同。应用程序测试通过在实际应用程序中使用合成数据查看其性能是否与真实数据相似。 个案研究 关于信用分析数据 信用分析数据包含连续和离散/分类格式的客户数据。出于演示目的我通过删除具有 null 值的行并删除本演示不需要的几列来预处理数据。由于计算资源的限制运行所有数据和所有列将需要大量的计算能力而我没有。以下是连续变量和分类变量的列列表离散值如子变量计数 CNT_CHINDREN 被视为分类变量 分类变量 TARGET NAME_CONTRACT_TYPE CODE_GENDER FLAG_OWN_CAR FLAG_OWN_REALTY CNT_CHILDREN 连续变量 AMT_INCOME_TOTAL AMT_CREDIT AMT_ANNUITY AMT_GOODS_PRICE 生成模型需要大量干净的数据来训练以获得更好的结果。但是由于计算能力的限制我从超过 10000 行的真实数据中只选择了 9993 行正好是 300000 行进行本演示。虽然这个数字可能被认为相对较小但对于本演示的目的来说应该足够了。 真实数据的位置 Credit Analysis | Kaggle 生成的合成数据的位置 CTGAN的综合信用分析数据KaggleCTGAN生成的合成表格数据集研究门DOI 10.13140/RG.2.2.23275.82728 信用分析数据 |图片来源作者 结果 我生成了 10k确切地说是 9997合成数据点并将它们与真实数据进行了比较。结果看起来不错尽管仍有改进的潜力。在我的分析中我使用了默认参数其中“relu”作为激活函数和 3000 个 epoch。增加纪元的数量应该可以更好地生成类似真实的合成数据。生成器和鉴别器损失看起来也不错损耗越低表示合成数据和真实数据之间的相似性越近 发生器和鉴别器损耗 |图片来源作者 绝对对数平均值和标准差图中沿对角线的点表示生成的数据质量良好。 数值数据的绝对对数平均值和标准差 |图片来源作者 下图中连续列的累积总和并不完全重叠但它们很接近这表明合成数据的生成良好且没有过度拟合。分类/离散数据的重叠表明生成的合成数据接近真实。进一步的统计分析见下图   每个要素的累计总和 |图片来源作者 功能分布|图片来源作者 特征分布 |图片来源作者 主成分分析 |图片来源作者 以下关联图显示了变量之间的明显相关性。重要的是要注意即使经过彻底的微调真实数据和合成数据之间的属性也可能存在差异。这些差异实际上是有益的因为它们可能会揭示数据集中可用于创建新解决方案的隐藏属性。据观察增加纪元数可以提高合成数据的质量。   变量之间的相关性真实数据 |图片来源作者 变量之间的相关性合成数据 |图片来源作者 样本数据和实际数据的汇总统计似乎也令人满意。 真实数据和合成数据的汇总统计 |图片来源作者 Python代码 # Install CTGAN !pip install ctgan# Install table evaluator to analyze generated synthetic data !pip install table_evaluator# Import libraries import torch import pandas as pd import seaborn as sns import torch.nn as nnfrom ctgan import CTGAN from ctgan.synthesizers.ctgan import Generator# Import training Data data pd.read_csv(./application_data_edited_2.csv)# Declare Categorical Columns categorical_features [TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN, ]# Declare Continuous Columns continuous_cols [AMT_INCOME_TOTAL, AMT_CREDIT, AMT_ANNUITY, AMT_GOODS_PRICE]# Train Model from ctgan import CTGANctgan CTGAN(verboseTrue) ctgan.fit(data, categorical_features, epochs100000)# Generate synthetic_data synthetic_data ctgan.sample(10000)# Analyze Synthetic Data from table_evaluator import TableEvaluatorprint(data.shape, synthetic_data.shape) table_evaluator TableEvaluator(data, synthetic_data, cat_colscategorical_features) table_evaluator.visual_evaluation() # compute the correlation matrix corr synthetic_data.corr()# plot the heatmap sns.heatmap(corr, annotTrue, cmapcoolwarm)# show summary statistics SYNTHETIC DATA summary synthetic_data.describe() print(summary)结论 CTGAN的训练过程有望收敛到生成的合成数据与真实数据无法区分的程度。然而在现实中不能保证趋同。有几个因素会影响CTGAN的收敛性包括超参数的选择、数据的复杂性和模型的架构。此外训练过程的不稳定性可能导致模式崩溃其中生成器仅生成一组有限的相似样本而不是探索数据分布的全部多样性。 原文链接揭示CTGAN的潜力利用生成AI进行合成数据 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81171.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

佛山网站建设联系电话天津建站平台

网红营销已经演变成一个由品牌、MCN机构、红人和消费者组成的复杂生态系统,并在某种程度上重新定义了当今社交媒体时代营销和广告的本质。在这个情况下,品牌找红人进行营销推广已经成为大势,而最能体现网红营销发展的莫过于Instagram这个平台…

网站开发到上线的流程网站排名突然下降

来源:国际电子商情 概要:11月6日,博通官方发出公告,宣布将以每股60美元现金,另加10美元公司股票收购高通全部流通股,交易总价值达到1300亿美元。 高通昨日证实已收到了博通公司发出的主动收购提议&#xf…

天门市网站建设seo网站页面设计优化方案

官网:👉详情一 👉详情二 👉关于redux 使用原因:👉详情 /** 2-1、随着javascript单页应用程序的发展,需要在代码中管理更多的状态(包括服务器响应数据、缓存数据、本地创建还未发送…

专做服装的网站企业所得税

前言 解决问题:Adobe Acrobat快速自动批量添加书签/目录, 彻底告别手动添加书签的烦恼 AutoBookmark 前言1 功能简介2 实现步骤2.1 下载插件2.2 将插件复制到Acrobat文件夹下2.3 自动生成书签 1 功能简介 我们在查看PDF版本的论文或者其他文件的时候, 虽然相比较于…

支付网站怎么设计的下载168网站

简介 “今天发现一个比较奇怪的现象,因为博主不熟悉mysql,所以在安装hive的使用了postgresql作为hive的元数据库,在测试几个连接工具对hive进行链接,后面再测试的时候发现链接不上了,并且报错日志如下:” …

律师网站建设与维护深圳南山区网站建设

1、反向代理后,自然而然就引出了负载均衡,下面简单实现负载均衡的效果; 2、实现该效果需要再添加一个 Nginx ,所以要增加一个文件夹。 /home|---mutou|----nginx|----conf.d|----html|----conf.d2|----html3 1.创建 html3 文件夹, 新建 index…

中车网站建设的优缺点酒店网站建设的构思

一、说明 本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速,分享它会很有用,这样你也可以掌握这门艺术。【免责声明:本文展示了我的抓取做法,如果您有更多相关做法请在评论中分享】 二、计划策略 2.1 策划 确定您…

保定自助建站网页设计布局有哪几种方法

前言 LM358双运放有几十年的历史了吧?通用运放,很常用,搞电路的避免不了接触运放,怎么选择运放,是工程师关心的问题吧? 从本文开始,将陆续发一些常用的运放,大家选型可以参考&#…

行政部建设公司网站点匠网站开发流程

Maven内网开发使用离线仓库 离线或者内网环境开发与外网不通,中央仓库连不上,使用 Maven 管理项目会遇到很多问题。 比如:依赖包缺失,内网的Nexus私服的包老旧,很久没有维护,项目无法运行打包,…

河间网站制作内部链接网站大全

环境:CentOS 7 目的:安装docker、启动服务 依据: 🔗官方文档 一、前提 1、查看内核版本 uname -rTip:docker需要内核版本3.10以上。所以CentOS 7是最低要求 2、更新软件包 耗时较长 yum update -y3、安装yum…

宜宾建设教育培训中心网站财务软件排行榜前十名

C实现数组中是否存在递增三元组的巧妙方法 在解决数组问题时,尤其是涉及到子序列的查找,我们需要考虑时间复杂度和空间复杂度,以确保算法的效率。我们将介绍一种高效的解决方案,详细讲解其思路和实现。 问题描述 给你一个整数数…

苏州区建设局网站首页wordpress调用分类目录

proxy只是一个变量名,翻译过来是“代理”的意思 当你使用 const { proxy } getCurrentInstance() 这句代码时,它执行了以下步骤: getCurrentInstance() 是 Vue 3 中的一个函数,用于获取当前正在执行的 Vue 组件实例的上下文信息…

企业网站前台模板服务器 打开网站iis7

(首发地址:学习日记 https://www.learndiary.com/2024/05/grub-xorg/) 朋友们,大家好!我是来自淘宝网学习日记小店的 Linux 服务者 learndiary。今天,我将和大家分享一个关于AMD Ryzen 9 7950X3D 16核 CPU …

友情链接网站被降权wordpress升级缓存

目录 一、第三方库 1、mysql-connector-python 1-1、由来 1-2、优缺点 1-2-1、优点 1-2-1-1、官方支持 1-2-1-2、纯Python实现 1-2-1-3、全面支持 1-2-1-4、兼容性 1-2-1-5、易于使用 1-2-2、缺点 1-2-2-1、性能 1-2-2-2、安装 1-2-2-3、社区支持 1-2-2-4、扩…

织梦的手机端网站潍坊网站建设策划

功能: 1、即时生成网站内容摘要; 2、支持提问并从页面获得直接回答; 3、通过关键词获取相关信息; 4、可以与 PDF 对话,方便理解大型文档、学习或审阅报告; 5、与 YouTube 视频交互问答(测试…

东莞企业建设网站官网有限公司很大气的网站 营销

在Data Geekery ,我们喜欢Java。 而且,由于我们真的很喜欢jOOQ的流畅的API和查询DSL ,我们对Java 8将为我们的生态系统带来什么感到非常兴奋。 Java 8星期五 每个星期五,我们都会向您展示一些不错的教程风格的Java 8新功能&#…

大鼠引物在线设计网站用第三方做网站

导读:今天对象回家,输入电子门锁密码怎么也打不开,指示灯也不亮,前段时间也时不时的能按,我就预感到电池没电了,那么我是如何进入家门的呢? 一般这种电子门锁可以输入密码,也可以使用机械钥匙。说实话,这钥匙在哪我压根没见过,租的房子,房东都不知道,只能输入密码才…

建设南大街小学网站网站数字化建设

转载自 最通俗易懂的乐观锁与悲观锁原理及实现 一、乐观锁 总是认为不会产生并发问题,每次去取数据的时候总认为不会有其他线程对数据进行修改,因此不会上锁,但是在更新时会判断其他线程在这之前有没有对数据进行修改,一般会使用…

给公司做门户网站 可以用凡客吗做任务佣金的网站

主服务器数据库的每次操作都会记录在其二进制文件mysql-bin.xxx(该文件可以在mysql目录下的data目录中看到)中,从服务器的I/O线程使用专用账号登录到主服务器中读取该二进制文件,并将文件内容写入到自己本地的中继日志relay-log文件中,然后从…

网站建设开发方式包括哪些做一个互联网平台需要多少钱

🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌在这个漫长的过程,中途遇到了不少问题,但是…