通过 Continual Learning 提高 ML.NET 模型准确性并增强性能

从事机器学习的学者大多认为持续学习(Continual Learning)是迈向人工智能的根本一步。持续学习是模型模仿人类在整个生命周期中不断从数据流中学习、微调、转移知识和技能的能力。实际上,这意味着模型在进入新数据时能自主学习和适应生产。过去提出自动自适应学习(Auto-adaptive Learning),或持续自动机器学习(Continual AutoML)就是出于对这项能力的支持。在机器学习中,目标是通过生产环境部署模型,通过持续学习,我们希望使用进入生产环境的数据,并激活训练过程重新训练模型。

持续学习带来的好处是显而易见的,典型的就是商品销售推荐。随着不同时期客户流量的特点热销商品会发生变化,比如以往在运动季节买饮料的客户,过了几个月会慢慢改成买纯净水了,这个过程不是突然转变的,如果没有持续学习的机制让推荐模型适应,那就要等到人为感知到模型的不准确,然后再重新收集数据训练新模型,这样一来不仅要耗费专门的时间处理,还错过了好的销售时机。

持续学习最重要的构件之一就是 AutoML,当我们有了预处理后的数据集或数据流,也设计好了在管道中训练的流程闭环,AutoML 才会发挥价值,在算法种类、超参数、迭代方式、内存消耗、指标、准确性等方面择优平衡。ML.NET 在 1.x 版本后就已经具备了 AutoML 的特性,这在我以前的文章介绍过了。这次仅介绍 ML.NET 是怎么开展重新训练步骤的。

到目前已知 ML.NET 中重新训练支持以下这些算法:

  • AveragedPerceptronTrainer

  • FieldAwareFactorizationMachineTrainer

  • LbfgsLogisticRegressionBinaryTrainer

  • LbfgsMaximumEntropyMulticlassTrainer

  • LbfgsPoissonRegressionTrainer

  • LinearSvmTrainer

  • OnlineGradientDescentTrainer

  • SgdCalibratedTrainer

  • SgdNonCalibratedTrainer

  • SymbolicSgdLogisticRegressionBinaryTrainer

以回归算法训练的模型为例,假设我们已经有了如下的训练过程:

// Define data preparation estimator
IEstimator<ITransformer> dataPrepEstimator =mlContext.Transforms.Concatenate("Features", new string[] { "Size", "Prices" }).Append(mlContext.Transforms.NormalizeMinMax("Features"));// Create data preparation transformer
ITransformer dataPrepTransformer = dataPrepEstimator.Fit(data);// Define OnlineGradientDescent regression algorithm estimator
var ogdEstimator = mlContext.Regression.Trainers.OnlineGradientDescent();// Pre-process data using data prep operations
IDataView transformedData = dataPrepTransformer.Transform(data);// Train regression model
RegressionPredictionTransformer<LinearRegressionModelParameters> trainedModel = ogdEstimator.Fit(transformedData);

保存数据准备管道和已训练的模型,我们一般使用以下方式:

// Save Data Prep transformer
mlContext.Model.Save(dataPrepTransformer, data.Schema, "data_preparation_pipeline.zip");// Save Trained Model
mlContext.Model.Save(trainedModel, transformedData.Schema, "model.zip");

当我们开始要重新训练前,反过来要先加载预训练的模型,使用以下代码:

// Create MLContext
MLContext mlContext = new MLContext();// Define DataViewSchema of data prep pipeline and trained model
DataViewSchema dataPrepPipelineSchema, modelSchema;// Load data preparation pipeline
ITransformer dataPrepPipeline = mlContext.Model.Load("data_preparation_pipeline.zip", out dataPrepPipelineSchema);// Load trained model
ITransformer trainedModel = mlContext.Model.Load("model.zip", out modelSchema);

然后就可以提取预训练的模型参数,加载模型后,通过访问预训练模型的 Model 属性来提取已学习的模型参数。

// Extract trained model parameters
LinearRegressionModelParameters originalModelParameters =((ISingleFeaturePredictionTransformer<object>)trainedModel).Model as LinearRegressionModelParameters;

重新训练模型的过程与训练模型的过程没有什么不同。唯一的区别是,除了数据之外,Fit 方法还将原始学习模型参数作为输入,并将它们用作重新训练过程的起点。

//Load New Data
IDataView newData = mlContext.Data.LoadFromEnumerable<SomeData>(someData);// Preprocess Data
IDataView transformedNewData = dataPrepPipeline.Transform(newData);// Retrain model
RegressionPredictionTransformer<LinearRegressionModelParameters> retrainedModel =mlContext.Regression.Trainers.OnlineGradientDescent().Fit(transformedNewData, originalModelParameters);

当然我们总是想比较一下模型参数,看看是否真的进行了重新训练。一种方法是比较重新训练模型的参数是否与原始模型的参数不同。下面的代码示例将原始模型与重新训练模型的权重进行比较,并将它们输出到控制台。

// Extract Model Parameters of re-trained model
LinearRegressionModelParameters retrainedModelParameters = retrainedModel.Model as LinearRegressionModelParameters;// Inspect Change in Weights
var weightDiffs =originalModelParameters.Weights.Zip(retrainedModelParameters.Weights, (original, retrained) => original - retrained).ToArray();Console.WriteLine("Original | Retrained | Difference");
for(int i=0;i < weightDiffs.Count();i++)
{Console.WriteLine($"{originalModelParameters.Weights[i]} | {retrainedModelParameters.Weights[i]} | {weightDiffs[i]}");
}

下表演示了比较模型参数的输出效果, 从表格中反映了四项参数权重发生了调整:

原始重新训练后 差值
33039.8656293.76-23253.9
29099.1449586.03-20486.89
28938.38 48609.23-19670.85
30484.0253745.43-23261.41

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/308816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[mybatis]动态sql_choose_分支选择

choose 如果带了id就用id查&#xff0c;如果带了lastName就用lastName查&#xff1b;只会进入其中一个 public List<Employee> getEmpByConditionChoose(Employee employee);<!-- public List<Employee> getEmpByConditionChoose(Employee employee);-->…

7.15周三晚8点,dotnet课堂全新起航,张善友/陈计节/刘腾飞我们一起来聊聊abp的故事...

直播主题&#xff1a;我们和Abp的故事直播嘉宾&#xff1a;张善友&#xff0c;陈计节&#xff0c;刘腾飞直播话题张善友&#xff1a;我是如何使用Abp的刘腾飞&#xff1a;利用Abp的模块化解决单体和分布式混合架构陈计节&#xff1a;Abp开源项目的DevOps实践Abp VNext 处于被低…

[mybatis]动态sql_set_与if结合的动态更新

因为sql语句拼装后&#xff0c;set语句后面可能会多一个逗号&#xff0c;所以要用set标签 set <!-- public void updateEmp(Employee employee);--> <update id"updateEmp">update tb1_employee<set><if test "lastName!null"&…

ASP.NET Core端点路由 作用原理

端点路由(Endpoint Routing)最早出现在ASP.NET Core2.2&#xff0c;在ASP.NET Core3.0提升为一等公民。Endpoint Routing的动机在端点路由出现之前&#xff0c;我们一般在请求处理管道的末尾&#xff0c;定义MVC中间件解析路由。这种方式意味着在处理管道中&#xff0c;MVC中间…

[mybatis]动态sql_foreach_遍历集合批量插入

foreach遍历集合 collection:指定要遍历的集合 list类型的参数会特殊处理封装在map中&#xff0c;map的key就叫list item:将当前遍历出的元素赋值给指定的变量 #{变量名}就能取出变量的值也就是当前遍历出的元素 separator:每个元素之间的分隔符 open:遍历出所有结果拼接一…

程序员修神之路--分布式系统设计理念这么难学?

点击“蓝字”关注我们吧福利&#xff1a;有件小事想和大家说一下菜菜哥&#xff0c;问你个问题&#xff0c;为什么现在的系统都设计为分布式系统呢&#xff1f;这个问题问得好&#xff0c;就像为什么程序员会慢慢脱发一样神奇01PART分布式系统身为二十一世纪的一名程序员&#…

[mybatis]动态sql_sql_抽取可重用的sql片段

sql 抽取可重用的sql片段&#xff0c;方便后面引用 1.sql抽取&#xff1a;经常将要查询的列名&#xff0c;或者插入用的列名抽取出来方便引用2.include来引用已经抽取的sql3.include还可以自定义一些property&#xff0c;sql标签内部就能使用自定义属性 取值的正确方式&#x…

使用keepalived搭建双机热备高可用一览

很多时候大家为了部署高可用方案都是前端配一个 nginx&#xff0c;如果nginx挂掉怎么办&#xff0c;比如下面这张图&#xff1a;你可以清楚的看到&#xff0c;如果 192.168.2.100 这台机器挂掉了&#xff0c;那么整个集群就下线了&#xff0c;这个问题该怎么解决呢&#xff1f;…

Linus通过了Linux中避免master/slave等术语的提案

Linux 内核维护者 Dan Williams 曾于 7 月初提交一份提案&#xff0c;建议逐步取消 master/slave 和 blacklist/whitelist 术语。近日&#xff0c;Linus Torvalds 则在 Linux 5.8 版本库的拉取请求中批准了该提议。自此&#xff0c;Linux 开发人员则需要使用新的术语来替代 mas…

[mybatis]缓存_一级缓存_一级缓存失效的四种情况

1.sqlSession不同 Testpublic void test05() throws IOException {SqlSessionFactory sqlSessionFactory getSqlSessionFactory();SqlSession sqlSession01 sqlSessionFactory.openSession();try{EmployeeMapper mapper01 sqlSession01.getMapper(EmployeeMapper.class);Emp…

LINQ :最终统治了​所有的语言!

LINQ&#xff1a;最终统治了所有的语言&#xff01;让我们看看LINQ如何彻底改变了.NET中访问数据的方式.NET与其他技术栈的不同之处之一绝对是LINQ&#xff0c;它是Language Integrated Query的首字母缩写。实际上&#xff0c;它是随.NET Framework 3.5和Visual Studio 2008引入…

[SpringBoot2]文件上传_单文件与多文件上传的使用

<form role"form" th:action"{/upload}" method"post" enctype"multipart/form-data"><div class"form-group"><label for"exampleInputEmail1">邮箱</label><input type"email&…

使用Docker运行SQL Server

现在.net core已经跨平台了&#xff0c;大家也都用上了linux用上了docker。跟.net经常配套使用的SQL SERVER以前一直是windows only&#xff0c;但是从SQL Server 2017开始已经支持运行在docker上&#xff0c;也就说现在SQL Serer已经可以运行在linux下了。下面在Ubuntu 16.4上…

[mybatis]映射文件_select_resultMap_关联查询_association分步查询延迟加载

association分步查询 场景一 查询Employee的同时查询员工对应的部门 EmployeeDepartment 一个员工有与之对应的部门信息 Employee表: Department表&#xff1a; public interface DepartmentMapper {public Department getDeptById(Integer id);}public interface EmployeeMap…

C#中你想象的Task,很简单?

【导读】网上关于Task的文章如数家珍&#xff0c;不过有一部分并未谈到一个根本的问题&#xff0c;所创建的Task一定在线程池上运行&#xff1f;如何合理的使用Task&#xff1f;这里并不会去重新讲解每一个APi的使用&#xff0c;没有任何意义&#xff0c;这属于包括我在内的各位…

【复杂系统迁移 .NET Core平台系列】之应用发布与部署

源宝导读&#xff1a;微软跨平台技术框架—.NET Core已经日趋成熟&#xff0c;已经具备了支撑大型系统稳定运行的条件。本文将介绍明源云ERP平台从.NET Framework向.NET Core迁移过程中的实践经验。一、背景随着ERP的产品线越来越多&#xff0c;业务关联也日益复杂&#xff0c;…

[mybatis]映射文件_select_resultMap_discriminator鉴别器

discriminator 鉴别器&#xff1a;mybatis可以使用discriminator判断某列的值&#xff0c;然后根据某列的值改变封装行为 封装Employee: 如果查出的是女生&#xff1b;就把部门信息查询出来&#xff0c;否则不查询 如果查出的是男生&#xff1b;把last_name这一列的值赋给ema…

不懂数据库索引原理?因为你心里没有一点B树

什么是B树&#xff1f;B树是一种数据结构它按排序顺序在其节点中存储数据&#xff0c;B树存储数据使得每个节点按升序包含密钥&#xff0c;这些键中的每一个都有两个对另外两个子节点的引用&#xff0c;Te左侧子节点键小于当前键右侧子节点键多于当前键&#xff0c;如果单个节点…

[mybatis]缓存_二级缓存使用细节

二级缓存 开启全局二级缓存 <setting name"cacheEnabled" value"true"/>去mapper.xml中配置使用二级缓存 <cache></cache><cache eviction"FIFO" flushInterval"60000" readOnly"false" size"1…