【第十五章:Sentosa_DSML社区版-机器学习之关联规则】

目录

15.1 频繁模式增长

15.2 PrefixSpan


【第十五章:Sentosa_DSML社区版-机器学习之关联规则】

        机器学习关联规则是一种用于发现数据集中项之间有趣关系的方法。它基于统计和概率理论,通过分析大量数据来识别项之间的频繁共现模式。

15.1 频繁模式增长 

1.算子介绍

        频繁模式增长算子(FPGrowth)是通过构造频繁模式树的方式,可以通过较少的对数据集的遍历来构造频繁项集或频繁项对,根据输入的数据A,按照关联程度大小,得出与A关联最深的数据集。

2.算子类型

        机器学习/关联规则算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

mode_select

模式选择

必选

String

listMode

[list模式,多条模式]

选择算法模式

items_col

物品列

必选

String

null

单选:输入数据集的所有列

列名

min_confidence

最小置信度

必填

Double

0.8

[0.0,1.0]

生成关联规则的最小置信度

min_support

最小支持级别

必填

Double

0.3

[0.0,1.0]

频繁模式的最小支持级别,任何超出(minSupport *数据集大小)次数的模式都将在频繁项目集中输出

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        频繁模式增长算子属性设置如图所示

频繁模式增长算子属性设置

频繁模式增长多条模式属性设置示意图

(3)算子的运行

        通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个频繁模式增长算子,然后执行运行。

频繁模式增长算子流

执行算子流操作示意图

        算子的运行结果再添加一个图表算子即可执行

频繁模式增长算子运行结果

        如下图可点击查看模型信息

查看模型信息操作示意图

        在模型信息中可以查看该算子的频繁项集

查看频繁项集示意图

15.2 PrefixSpan

1.算子介绍

        PrefixSpan算法的目标是挖掘出满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列,且投影数据库缩小的很快,内存消耗比较稳定,作频繁序列模式挖掘的时候效果很高。PrefixSpan和fp-growth 类似也是基于分治的思想,其基于前缀将原有数据进行投影,并不断地将前缀进行组合并输出满足最小支持度的模式。

2.算子类型

        机器学习/关联规则。

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

minSupport

最小支持级别

用户

输入

Double

0.1

(0,1)

最低支持级别的参数。出现次数超minSupport*数据集size 次的序列模式被识别为频繁序列模式。

maxPatternLength

最大模式长度

单选

Integer

10

[2,100]

序列模式的最大长度。

index

Index列

单选

String

null

DataModel里的Continuous的Column

用来排序的列

Key

Key列

单选

String

null

DataModel里的Categorical的column

类别列

event

事件列

单选

String

null

DataModel里的Categorical的Column

事件列

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        PrefixSpan算子的属性设置如图所示

PrefixSpan属性设置示例

(3)算子的运行

        通过数据源算子读取数据,中间可以接任意个数据处理算子,然后接一个PrefixSpan算子,后可接任意个数据处理算子。如下为使用举例:

        1)通过数据读入算子读取需要处理的数据。

        2)连接一个PrefixSpan算子。

        3)编辑PrefixSpan 算子,key列为类别列,index列为排序列,event列为“事件列”,其他参数可参考默认值设置。

        连接一个表格算子,运行,如图所示

运行PrefixSpan示例

最终评估结果示例

        可得到所有满足支持度要求的频繁序列集和频度


        为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版

Sentosa_DSML算子流开发视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 爬虫 根据ID获得UP视频信息

思路: 用selenium库对网页进行获取,然后用bs4进行分析,拿到bv号,标题,封面,时长,播放量,发布时间 先启动webdriver.,进入网页之后,先等几秒,等加…

CMake 中 add_definitions() 使用的注意事项及替代方案

CMake 中 add_definitions() 使用的注意事项及替代方案 在 CMake 中使用 add_definitions() 函数时,虽然其作用范围是全局的,但在实际应用中可能会遇到一些问题,导致其对子目录的影响不如预期。理解和避免这些问题可以帮助更高效地使用 CMak…

python中序列化和反序列化

在 Python 编程中,序列化 是指将一个 Python 对象转换为一种可以存储或传输的格式的过程。通过序列化,可以将对象的数据结构转化为诸如 JSON、XML、YAML 等格式,以便将其存储到文件、数据库,或者通过网络进行传输。与之对应的过程…

lvm管理磁盘过程记录

lvm管理磁盘过程记录.md 0.参考文章一、使用lvm在Linux系统上进行磁盘管理1.安装 LVM 工具2.创建物理卷(PV)3.创建卷组(VG)4.创建逻辑卷(LV)5.格式化逻辑卷6.挂载使用7.开机自动挂载(可选&#…

Unity 的Event的Use()方法

对于Event的Use方法,其在调用后将不会再判断同类型的事件 这种情况下,第二个MosueDown不会进入,因为已经Use 如果把Use注释掉 依旧能进入第二个MosueDown 也就是说当使用了Use方法,相同的事件类型不会进第二遍

【反素数】

题目 思路 首先分析 的性质 一定是 中约数最大的一定是约数同是最大的数字中值中最小的进一步挖掘性质,紧贴枚举的做法 约数最大值最小(也决定了层数、其它约束),是枚举的比较条件实现上述目的,枚举的质数种类在大小…

Tensorflow 2.0 cnn训练cifar10 准确率只有0.1 [已解决]

cifar10 准确率只有0.1 问题描述踩坑解决办法 问题描述 如果你看的是北京大学曹健老师的tensorflow2.0,你在class5的部分可能会遇见这个问题 import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras.layers import Dense, Dropout,MaxPooling2D,Fla…

VS Code breadcrumbs view 是什么

VS Code breadcrumbs view 是什么 正文 正文 breadcrumbs view:中文翻译,面包屑视图,乍听起来感觉十分抽象。这里我们来解释一下这个视图的含义? 如下图所示,红色框标记的部分就是 这个视图可以显示出当前打卡文件所…

新手答疑 | 零基础该怎么学习嵌入式?嵌入式Linux学习路线是什么?嵌入式开发板推荐?

很多初学者想要涉足嵌入式Linux开发领域,但往往在刚入门阶段,会因为初次接触到大量复杂的概念术语和深奥的技术文档感到压力重重,面对这些内容不知从何下手,感到十分迷茫,网上的内容也纷繁复杂,没有清晰的学…

从 Kafka 到 WarpStream: 用 MinIO 简化数据流

虽然 Apache Kafka 长期以来一直是流数据的行业标准,但新的创新替代方案正在重塑生态系统。其中之一是 WarpStream,它最近在 Confluent 的所有权下进入了新的篇章。此次收购进一步增强了 WarpStream 提供高性能、云原生数据流的能力,巩固了其…

SAP Message - self-explanatory 自身说明

SAP Message 解释、创建和应用可见如下文章:SAP Abap】SE91 - SAP MESSAGE 消息类创建与应用-CSDN博客 SE91 SAP消息类型 - tongxiaohu - 博客园 这里主要想聊一下常用的SE91 中不常用的功能 - 自身说明 选项的作用。 以 VF - 004 为例: 我们都知道自…

2024双十一买啥最划算?2024双十一五款值得入手的好物入手

2024双十一购物狂欢节将至,还在为买什么而纠结吗?这里为你入手五款值得入手的好物。从生活必备到时尚单品,涵盖多个领域,让你在双十一以划算的价格买到心仪之物,开启品质生活新旅程。 一、西圣find可视挖耳勺 入手理…

毕业设计选题:基于ssm+vue+uniapp的校园订餐小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

【补充】倒易点阵定义

晶体点阵:晶体内部结构在三维空间周期平移的客观存在的数学抽象,反映晶体实际原子排列。 倒易点阵:通过对晶体的正点阵进行傅里叶变换得到的,其中正点阵中每个阵点的位置矢量方向代表晶面族的法向,位置矢量的长度是晶…

CSS04-Chrome调试工具

Chrome 浏览器提供了一个非常好用的调试工具,可以用来调试我们的 HTML结构和 CSS 样式。

wpf如何进行数据绑定与动态数据操作?

前面两篇博文,我们比较清楚的介绍了开启wpf项目已经如何生成和使用事件来操作控件,这一篇到了我们把数据放进来的时候了,没有数据实际上任何软件都是没有灵魂的,下面我们详细介绍。 文章原出处:https://blog.csdn.net…

工作笔记20240927——vscode + jlink调试

launch.json的配置,可以用的 {"name": "Debug","type": "cppdbg","request": "launch","miDebuggerPath": "./arm-gnu-toolchain-12.2.rel1-x86_64-arm-none-eabi/bin/arm-none-eabi-g…

Java 入门指南:并发设计模式 —— Copy-on-Write 模式

文章目录 Copy-On-Write工作原理Copy-On-Write 的应用场景Java 中的 CopyOnWriteArrayListCopyOnWriteArrayList 的特点 示例代码Copy-On-Write 的优缺点 Copy-On-Write CopyOnWrite(写时复制,简称COW)是一种在计算机领域中广泛应用的优化策…

Go函数式编程与闭包

1. 什么是函数式编程 函数式编程(Functional Programming)是一种编程范式,它将计算视为数学函数的求值,强调使用高阶函数和不可变数据。在函数式编程中,函数是第一类公民,意味着函数可以像其他数据类型一样…

自动化办公-Python-os模块的使用

os.path 模块的使用 在指定文件路径时,由于操作系统的差异,直接使用硬编码的路径可能会导致程序在不同平台上无法正常运行。为了解决这个问题,Python 提供了 os.path 模块,它包含了一系列用于路径操作的函数,可以帮助您…