早晨网站建设wordpress 餐饮 主题

bicheng/2026/1/21 0:24:48/文章来源:
早晨网站建设,wordpress 餐饮 主题,建设工程公司起名,自己做外贸网站本文是关于聚类算法的第二篇K-means#xff0c;感兴趣的同学可以前往http://ihoge.cn/2018/clustering.html 阅读完整版。 二、K-means 1. 算法步骤 1 选择KK个点作为初始质心 2 Repeat: 3 将每个点指派到最近的质心,形成K role=pre…本文是关于聚类算法的第二篇K-means感兴趣的同学可以前往http://ihoge.cn/2018/clustering.html 阅读完整版。 二、K-means 1. 算法步骤 1 选择KKK个点作为初始质心 2 Repeat: 3 将每个点指派到最近的质心,形成K" role="presentation" style="position: relative;">KKK个簇 4 重新计算每个簇的质心 5 Until: 质心不发生变化终止 2. 距离的度量 闵可夫斯基距离 闵可夫斯基距离不是一种距离而是一类距离的定义。对于 n 维空间中的两个点 x(x1,x2,x3,...,xn)x(x1,x2,x3,...,xn)x(x_1,x_2,x_3,...,x_n)和y(y1,y2,y3,...,yn)y(y1,y2,y3,...,yn)y(y_1,y_2,y_3,...,y_n)那么xxx和y" role="presentation" style="position: relative;">yyy亮点之间的闵可夫斯基距离为 dxy∑i1n(xi−yi)p‾‾‾‾‾‾‾‾‾‾‾‾⎷dxy∑i1n(xi−yi)p d_{xy}=\sqrt{\sum_{i=1}^{n}{\left( x_{i}-y_{i} \right)^{p}}} 其中p是一个可变参数当p1时被称为曼哈顿距离当p2时被称为欧式距离当p∞∞\infty 时被称为切比雪夫距离。 余弦相似度 cos(Θ)aTb|a|∗|b|cos(Θ)aTb|a|∗|b| cos(\Theta )=\frac {a^Tb}{|a|*|b|}a,ba,ba,b表示两个向量|a||a||a|和|b||b||b|表示向量的模。 余弦相似度一般衡量两个向量的相似情况常用与文本处理。余弦角越小越相似。 杰卡德Jaccard相似系数 J(A,B)|A⋂B||A⋃B|J(A,B)|A⋂B||A⋃B| J(A,B)=\frac {|A \bigcap B|}{|A \bigcup B|}这里A、BA、BA、B表示集合A⋂BA⋂BA \bigcap B表示两个集合公共元素的个数A⋃BA⋃BA \bigcup B表示两个集合并集元素的个数。 Jaccard 相似系数适用于度量两个集合的相似程度取值在 01 之间越大越相似。在推荐系统中常用衡量客户或商品的相似度。 3. 变量标准化 在聚类前通常需要对个连续变量进行标准化因为方差大的变量比方差晓得变量对距离或相似度的影响更大从而对聚类结果的影响更大。 常用的方法有 正态标准化xixi−mean(X)std(Xxixi−mean(X)std(Xx_i=\frac {x_i-mean(X)}{std(X} 归一化xixi−min(X)max(X)−min(X)xixi−min(X)max(X)−min(X)x_i=\frac {x_i-min(X)}{max(X)-min(X)} 4. 变量的维度分析 假设一组变量中一个维度有5个变量二另一个维度只有1个变量则第一个维度的权重被明显提高了。一般情况下每个维度上使用的变量个数应该是一样的不过分析人员要结合具体场景不同维度提供不同数量的变量个数这相当于加大了一些维度的权重。 除了机遇业务定义进行变量的选择另一种常用的方法是在聚类之前进行主成分分析。 5. 质心的目标函数 5.1 SSE 误差平方和 聚类的目标通常用一个目标函数表示该函数依赖于点之间或点到簇的质心的临近性 如考虑临近性度量为欧几里得距离的数据我们使用误差平方和SSE作为度量聚类质量的目标函数即最小化簇中点到质心的距离平方和。 SSE也称散布scatter定义如下 SSE∑Ki1∑x∈Cidist(ci,x)2SSE∑i1K∑x∈Cidist(ci,x)2 SSE=∑^K_{i=1}∑_{x\in C_i}dist(c_i,x)^2 其中distdistdist是欧几里得空间中两个对象之间的标准欧几里得距离。给定这些假设实际上可以证明对 SSE 求导另导数为 0 求解 ckckc_k使簇的 SSE 最小的质心是均值 ∂∂ckSSE∂∂ck∑Ki1∑x∈Ci(ci,x)20∂∂ckSSE∂∂ck∑i1K∑x∈Ci(ci,x)20 \frac {\partial }{\partial c_k}SSE =\frac {\partial }{\partial c_k}∑^K_{i=1}∑_{x\in C_i}(c_i,x)^2=0 最终得到 ∑x∈Ck2(ck−xk)0⟹mkck∑x∈Ckxk⟹ck1mk∑x∈Ckxk∑x∈Ck2(ck−xk)0⟹mkck∑x∈Ckxk⟹ck1mk∑x∈Ckxk ∑_{x\in C_k}2(c_k-x_k)=0\Longrightarrow m_kc_k=∑_{x\in C_k}x_k \Longrightarrow c_k = \frac 1{m_k}∑_{x\in C_k}x_k文档数据 考虑文档数据和余弦相似性度量。这里我们假定文档数据用文档——词矩阵表示我们的目标是最大化簇中文档与簇的质心的相似性该量乘坐簇的凝聚度cohesion。对于该目标可以证明与欧几里得数据一样簇的质心是均值。总 SSE 的类似量是总凝聚度total cohesion TotalCohesion∑Ki1∑x∈Cicosine(ci,x)TotalCohesion∑i1K∑x∈Cicosine(ci,x) Total Cohesion=∑^K_{i=1}∑_{x\in C_i}cosine(c_i,x)关于凝聚度的知识会在下文模型评估里面详细介绍 5.2 SAE 绝对误差和 为了表明KKK均值可以用各种不同的目标函数,我们考虑如何将数据分成K" role="presentation" style="position: relative;">KKK个簇使得点到其簇中心的曼哈顿距离之和最小。如下式绝对误差和SAE SAE∑Ki1∑x∈Ci|ci−x|SAE∑i1K∑x∈Ci|ci−x| SAE = ∑^K_{i=1}∑_{x \in C_i}|c_i-x|∂∂ckSAE∂∂ck∑Ki1∑x∈Ci|ci−x|0∂∂ckSAE∂∂ck∑i1K∑x∈Ci|ci−x|0 \frac {\partial }{\partial c_k}SAE =\frac {\partial }{\partial c_k}∑^K_{i=1}∑_{x\in C_i}|c_i-x|=0 最终得到 ∑x∈Ck∂∂ck|ck−x|0⟹∑x∈Cksign(x−ck)0⟹ckmedian{x∈Ck}∑x∈Ck∂∂ck|ck−x|0⟹∑x∈Cksign(x−ck)0⟹ckmedian{x∈Ck} ∑_{x\in C_k}\frac {\partial }{\partial c_k}|c_k-x|=0\Longrightarrow ∑_{x\in C_k}sign(x-c_k )=0 \Longrightarrow c_k=median\{x\in C_k\} 即簇中点的中位数。一组点的中位数的计是直截了当的并且减少受离群值的影响。5.3 常见的邻近度、质心和目标函数组合 邻近度函数质心目标函数曼哈顿距离中位数最小化对象与质心的绝对误差和SAE平方欧几里得距离均值最小化对象与质心的误差平方和SSE余弦均值最大化对象与质心的余弦相似度和Bregman散度均值最小化对象到质心的Bregman散度和 Bregman散度实际上是一类紧邻性度量包括平方欧几里得距离。Bregman散度函数的重要性在于任意这类函数都可以用作以均值为质心的 K-means 类型的聚类算法的基础。 6. 选择初始质心 当质心随机初始化时K-means 将产生不同的总 SEE。选择适当的初始质心是基本 K-menas 过程的关键步骤。常见的是随机选取但这种情况下簇的质量常常很差。考虑什么情况下选择的初始质心能找到最优解答案是每个簇刚好分到一个质心。事实证明发生这种情况的概率是非常非常低的。 常见一种技术是多次运行然后选取具有最小 SEE 的簇集。该策略虽然简单但是效果可能不太好依然是概率事件。 另一种有效的技术是取一个样本并使用层次聚类技术对他聚类。从层次聚类中提取 KKK 个簇,并用这些簇的质心作为初始质心。该方法虽然有效,但仅对下列情况有效:(1)样本相对较小,例如数百到数千(层次聚类开销较大);(2)K" role="presentation" style="position: relative;">KKK 相对与样本大小较小。 还有一种方法是随机选择第一个点或者所有点到质心作为第一个点。然后对于每个候机初始质心选择里已经选取的初始质心最远的点并且把该方法应用与点样本。 这样可以大大缓解可能会选择离群点作为质心的可能并且大大减小计算量。 另外我们也可以采用对初始化问题不太敏感的 K-means 的变种二分K-means、使用后处理来“修补” 所产生的簇集 7. 时间复杂性和空间复杂性 所需空间O((mK)n)O((mK)n)O((m+K)n)m 是点数 n 是属性数所需时间O(I∗K∗m∗n)O(I∗K∗m∗n)O(I*K*m*n)IIscript typemath/tex idMathJax-Element-34I/script 是收敛所需迭代次数通常很小可以是有界的。 8. K-means 其他问题 8.1 处理空簇 K-means 存在的问题之一是如果所有的点在指派的步骤都为分配到某个簇就会得到空簇。这种情况下需要选择一个替补质心否则误差将会偏大。 方法一 选择一个距离当前任何质心最远的点方法二 从具有最大 SSE 的簇中选择一个替补质心。浙江分裂簇并降低聚类的总 SSE。 8.2 离群点 当然我们想到的第一反应是删除离群点但是有些聚类应用不能删除离群点。在某些情况下财经分析明显的离群点可能是最令人感兴趣的点。 那么问题来了如何识别离群点 方法一聚类前删除离群点方法二后处理离群点。如删除那些具有不寻常影响的点尤其是多次运行算法时另外也可以删除那些很小的簇他们尝尝代表离群点的组。 8.3 后处理降低 SSE 增加簇个数 分裂一个簇通常选择具有最大 SSE 的簇页可以分裂在特定属性上具有最大标准差的簇。引进一个新的质心通常选择离所有质心最远的点。减少簇个数 拆散一个簇 通常选择拆散使总 SSE 增加最少的簇 删除对应的质心合并两个簇 通常选择合并质心最接近的两个簇或者合并两个导致总 SSE 增加最少的簇。这两种方法与层次聚类使用的方法相同分别乘坐质心方法和 Ward 方法。 9. 二分 K-means 二分 K-means 算法时基于 K-means 算法的直接扩充它基于一种简单想法为了得到 K 个簇将所有点的集合分裂成两个簇从这些簇中选取一个继续分裂如此下去知道产生 K 个簇。 算法实现步骤 1 初始化簇表是指包含有所有的点组成的簇。 2 Repeat 3 从簇表中取出一个簇 4 对选出的簇进行多次二分“实验” 5 for i 1 to 试验次数 do 6 使用基本 K-means二分选定的簇 7 end for 8 从二分实验中选择具有最小 SSE 的两个簇 9 将这两个簇添加到簇表中 10 Until 簇表包含 K 个簇。 待分裂的簇有许多不同的选择方法。可以选择最大的簇选择具有最大 SSE 的簇或者使用一个基于大小和 SSE 的标准进行选择。不同的选择导致不同的簇。 我们通常使用结果簇的质心作为基本 K-means 的初始质心对结果逐步求精。 因为尽管 K-means 可以保证找到使 SSE 局部最小的聚类但是自二分 K-means 算法中我们“局部地”使用了 K-means 即二分个体簇。因此最终的簇集并不代表使 SSE 局部最小的聚类。 10. K-means优缺点 10.1 优点 简单并且可以用于各种数据类型具备适合的空间复杂度和计算负责度适用于大样本数据K-means 某些变种甚至更有效 二分K-means且不受初始化问题影响。 10.2 缺点 不能处理非球形簇、不同尺寸和不同密度的簇对离群点敏感K-means 仅限于具有中心质心概念的数据。有一种相关的 K-中心点聚类技术没有这种限制但是开销更大。 参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/88336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度seo公司整站优化软件用多说的网站

外边距折叠(collapsing margins) 毗邻的两个或多个margin会合并成一个margin,叫做外边距折叠。 规则如下: 两个或多个毗邻的普通流中的块元素垂直方向上的 margin会折叠浮动元素 / inline-block元素 / 绝对定位元素 / 行内元素的margin不会和垂直方向上的其他元素…

公司网站建设注意什么省内新闻最新消息

功能需求 在 SwiftUI 开发的 App 界面中,有时我们需要在全局层面向用户展示一些消息: 如上图所示:我们弹出的全局消息横幅位于所有视图之上,这意味这它不会被任何东西所遮挡;而且用户可以点击该横幅关闭它。这是怎么做到的呢? 在本篇博文中,您将学到以下内容 功能需求…

西双版纳网站建设开发公司网站建设网站优化相关资讯文章

参考:逆向-IDA工具的基本使用 地址:https://qingmu.blog.csdn.net/article/details/118862881 目录1、文件的打开与关闭2、窗口介绍:图形 文本 其他窗口2.1、图形界面:2.2、文本界面:2.3、反汇编窗口2.4、 十六进制窗口…

高端网站价格wordpress导航栏美化

目录: Spring Boot 整合 "Servlet三大组件" :1. 使用 "组件注册" 的方式 "整合Servlet三大组件" ( 实际操作为 : 创建自定义的"三大组件"对象 结合刚创建"的自定义组件对象"来 将 XxxRegistrationBean对象 通过…

桂林哪里做网站门户网站系统建设项目投标书

一、实验目的 1、加深对离散信号频谱分析的理解; 2、分析不同加窗长度对信号频谱的影响; 3、理解频率分辨率的概念,并分析其对频谱的 影响; 4、窗长和补零对DFT的影响 实验源码: 第一题: % 定义离散信…

商丘哪里做网站重庆行业网站建设

Vue.js 一个核心思想是数据驱动。所谓数据驱动,是指视图是由数据驱动生成的,我们对视图的修改,不会直接操作 DOM,而是通过修改数据。它相比我们传统的前端开发,如使用 jQuery 等前端库直接修改 DOM,大大简化…

兼职做网站系统免费做网站软件2003

文章目录 引言迭代器模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用迭代器示例代码地址 引言 想象一下,你在一个书店里浏览各种书籍。你可能会从头到尾查看每一本书,或者可能跳过一些不感兴趣的部分。在这个过程中,你实…

做网站的能赚多少钱互联网推广方式有哪些

应用需求变化多端的物联网,虽具备庞大的发展潜力及应用商机,但由于市场过于分散,几乎没有杀手应用可言,因此对有意耕耘相关市场的半导体业者而言,如何借力使力,寻找盟友共同搭建出的生态系统,遂…

佛山企业网站设计制作茂名专业网站建设

本文要点 1、词汇表Vocabulary (普通名词) 1) 三组词(数据库支持的三个数字散列): 工作,工件,工具。论题,主题词,关键字。口号,符号,编号。 2…

机关单位网站建设申请远象建设 网站

由悉尼科技大学和西南交通大学联合主办,四川大学、中南大学社会计算研究中心、西南财经大学、武汉理工大学协办的2024年第四届数字化社会与智能系统国际学术会议将于2024年11月22-24日在中国郑州举行。会议主题主要聚焦智能系统在数字化社会中的相关技术和应用发展。…

seo网站结构图一个电商网站开发要多久

本来想搞存档的&#xff0c;失败了&#xff0c;要再学学文件操作的函数。还有一个打印地图的函数&#xff0c;更失败&#xff0c;彻底放弃。最近开学了&#xff0c;游戏不会经常更新&#xff0c;要写作业。昨天写到10点T_T #include<bits/stdc.h> #include<windows.h…

滕州市网站建设seo和sem是干什么的

在JS中&#xff0c;我们可以通过添加单击事件来屏蔽a标签的href跳转页面。下面是实现这个功能的完整攻略&#xff1a; 1.使用addEventListener函数添加单击事件 我们可以通过addEventListener函数来为a标签添加单击事件&#xff0c;代码如下&#xff1a; document.querySele…

长春专业网站制作wordpress跟随插件

文章目录 前言一、列表框二、文本框&#xff08;域&#xff09; 1.文本框2.文本域三、密码框总结 前言 该篇文章简单介绍了Java中Swing组件里的列表框、文本框、密码框。 一、列表框 列表框&#xff08;JList&#xff09;相比下拉框&#xff0c;自身只是在窗体上占据固定的大小…

西安跨境电商平台网站没域名可以用wordpress么

1.选题背景 基于Spring Boot的企业资产管理系统的设计与实现选题背景主要源于现代企业对资产管理的需求。随着企业规模的扩大和业务的发展&#xff0c;各类资产的数量和种类都在不断增加&#xff0c;包括办公设备、电脑、软件许可证、车辆等。传统的手工记录和管理方式已经无法…

静态网站托管网站建设能带来流量么

华为的“大海思”与“小海思” https://www.cnbeta.com/articles/tech/828275.htm没先到华为海思这么狠.. 作为华为的全资子公司&#xff0c;说起海思半导体&#xff0c;大家可能第一时间会想起麒麟处理器。经过多年的持续的研发投入&#xff0c;华为海思自研的麒麟处理器现在确…

手机网站建设liedns怎做卖东西的网站

在前面使用DllImport去调用了公司祖传的PLC;坑也被坑了一下,但是总感觉还是基于祖传的Dll木有一点意思;毕竟就是一个数据的监控和开关量的控制;要是直接能用我的屌丝机控制一下就可以好好开(Z)心(B);毕竟前面咱也是玩过一点点Xamarin的,那就再次拾起来去玩耍一下吧;来看看最终咱…

网站数据库默认地址怎样申请企业邮箱账号

接口测试是软件测试中的一项重要工作&#xff0c;它涉及到系统与系统之间的交互点。接口可以是外部接口&#xff0c;也可以是内部接口&#xff0c;包括上层服务与下层服务接口以及同级接口。在接口测试中&#xff0c;我们需要确保接口能够按照预期的方式进行通信和交互&#xf…

兰州网站seo收费标准网络开发工程师工资

文章目录 一、创建数组的四种方式二、详解三、数组存储的弊端 一、创建数组的四种方式 以int数据类型为例 Test public void testNewArray() {//创建数组//法一int[] arr1 new int[]{1,2,3,4,5};System.out.println(arr1.length " " arr1[2]); //5 3//Arr…

什么是微网站系统怎么做网站轮播图片

1、解决方法&#xff1a;采用循环以及String类的charAt()方法 charAt()方法将返回String对象中索引值**&#xff08;从0开始&#xff09;**位置的字符。所以&#xff0c;我们只需要执行从0到String.length()-1的循环&#xff0c;就能够依次处理字符串中的所有字符。 注意&#…

中卫网站设计厂家太原关键词优化公司

程序功能是利用NtQueueApcThreadEx注入ShellCode到一个进程中&#xff0c;程序运行后会让你选择模式&#xff0c;按1为普通模式&#xff0c;所需的常规API接口都是使用Windows原本正常的API&#xff1b;在有游戏保护的进程中Windows原本正常的API无法使用&#xff0c;这时候需要…