TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

引言

从 2018 年到 2024 年,数据科学的进展超越了许多技术领域的速度。Towards Data Science 博客依然是这个领域的关键平台,记录了从基础工具到前沿技术的多方面发展。本文将对 2018 至 2024 年间的 123 篇精选文章进行整理与翻译,系统梳理数据科学的进化轨迹。

文章目录

    • TowardsDataScience 博客中文翻译 2018~2024(一百二十三)
      • 引言
      • 第一部分:人工智能与自动化
        • 1. 自动化机器学习(AutoML)新时代
        • 2. 强化学习的商业应用
      • 第二部分:大语言模型与生成式 AI
        • 3. 大语言模型的核心原理
        • 4. 文本生成的伦理与挑战
      • 第三部分:可解释性与透明化
        • 5. 可解释机器学习(XAI)工具
        • 6. 透明 AI 的政策与趋势
      • 总结与展望

在这里插入图片描述


第一部分:人工智能与自动化

1. 自动化机器学习(AutoML)新时代

原文标题:“The New Era of AutoML”

摘要

  • AutoML 工具的普及降低了数据科学的门槛。
  • 流行工具:Google AutoML、H2O.ai、DataRobot。
  • 使用 AutoML 的典型工作流。
from h2o.automl import H2OAutoML
import h2o
h2o.init()# 导入数据
data = h2o.import_file("data.csv")
train, test = data.split_frame(ratios=[.8])# 自动化建模
aml = H2OAutoML(max_models=10, seed=42)
aml.train(y="target", training_frame=train)# 输出最佳模型
print(aml.leaderboard)
2. 强化学习的商业应用

原文标题:“Reinforcement Learning in Real-World Business”

摘要
强化学习(RL)从理论走向实际的典型案例:

  • 电商个性化推荐。
  • 供应链优化。
  • 游戏 AI。

常用框架

  • OpenAI Gym
  • Stable Baselines
import gym
import stable_baselines3 as sb3# 创建环境
env = gym.make("CartPole-v1")
model = sb3.PPO("MlpPolicy", env, verbose=1)# 训练模型
model.learn(total_timesteps=10000)# 测试模型
obs = env.reset()
for _ in range(1000):action, _states = model.predict(obs)obs, rewards, done, info = env.step(action)env.render()

第二部分:大语言模型与生成式 AI

3. 大语言模型的核心原理

原文标题:“The Principles of Large Language Models”

摘要

  • Transformer 架构的崛起。
  • BERT、GPT 系列模型的对比。
  • 应用场景:机器翻译、文本生成、对话机器人。

代码示例:使用 Hugging Face 加载 GPT 模型。

from transformers import GPT2LMHeadModel, GPT2Tokenizertokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")# 文本生成
def generate_text(prompt):inputs = tokenizer.encode(prompt, return_tensors="pt")outputs = model.generate(inputs, max_length=50, num_return_sequences=1)return tokenizer.decode(outputs[0], skip_special_tokens=True)print(generate_text("人工智能的未来是"))
4. 文本生成的伦理与挑战

原文标题:“Ethics and Challenges in Text Generation”

摘要

  • 偏见与歧视问题。
  • 生成内容的真实性验证。
  • 开源与商业模型的平衡。

温馨提示
“在部署生成式 AI 应用时,务必考虑多样性与公平性。”


第三部分:可解释性与透明化

5. 可解释机器学习(XAI)工具

原文标题:“Explainable AI: Tools and Techniques”

摘要

  • 可解释性方法:SHAP、LIME、Integrated Gradients。
  • 具体案例:银行业的信用评分模型。
import shap
import xgboost# 数据加载
X, y = shap.datasets.boston()
model = xgboost.XGBRegressor().fit(X, y)# SHAP 分析
explainer = shap.Explainer(model, X)
shap_values = explainer(X)
shap.summary_plot(shap_values, X)
6. 透明 AI 的政策与趋势

原文标题:“Policies and Trends for Transparent AI”

摘要

  • 全球政策框架:欧盟的 AI 法规、美国的 NIST 指南。
  • 企业实践案例:Google、Microsoft、OpenAI。

未来展望:透明化将成为 AI 系统发展的核心竞争力。


总结与展望

Towards Data Science 博客 2018-2024 系列文章不仅反映了数据科学的快速迭代,也展示了从基础技术到行业实践的全面发展。本系列中文翻译希望帮助更多国内开发者理解和应用这些技术。

技术趋势

  • 生成式 AI 的主流化。
  • 数据科学的行业标准化与规范化。
  • 新兴领域如量子机器学习的探索。

期待您持续关注下一阶段的翻译内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65124.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker Build 命令详解:在 Ubuntu 上构建 Docker 镜像教程

简介 Docker 通过提供轻量级、可移植和高效的解决方案,彻底改变了软件开发和部署。docker build 命令是 Docker 镜像创建过程的核心。本文将探讨 docker build 命令、其语法、用法以及优化 Docker 构建的最佳实践。本教程的目标是手把手教你如何在 Linux 服务器上使…

【Linux编程】一个基于 C++ 的 TCP 客户端异步(epoll)框架(一))

TcpClient 类的设计与实现:一个基于 C 的 TCP 客户端框架 在现代网络编程中,TCP(传输控制协议)客户端是实现网络通信的基础组件之一。本文将详细介绍一个基于 C 的 TcpClient 类的设计与实现,该类提供了创建 TCP 连接…

【Python知识】Python进阶-什么是装饰器?

Python装饰器介绍 概述1. 基本装饰器2. 带参数的装饰器3. 带参数的函数装饰器(使用functools.wraps)4. 类装饰器5. 方法装饰器(在类中使用) 参考文献 概述 Python装饰器是一种高级功能,允许你在不修改函数或方法定义的…

Springboot应用开发:配置类整理

目录 编写目的 一、线程池 1.1 setCorePoolSize 1.2 setMaxPoolSize 1.3 setQueueCapacity 1.4 setKeepAliveSeconds 1.5 setThreadNamePrefix 1.6 setRejectedExecutionHandler 1.7 示例代码 二、Durid数据库连接池 2.1 ServletRegistrationBean 2.2 FilterRegist…

【Spring】深入解析 Spring 原理:Bean 的多方面剖析(源码阅读)

🔥个人主页: 中草药 🔥专栏:【Java】登神长阶 史诗般的Java成神之路 一、Bean的作用域 在 Java Spring 框架中,Bean 的作用域是一个关键概念,它决定了 Bean 的生命周期和实例化方式,对应用的性…

Excel 列名称转换问题 Swift 解答

文章目录 摘要描述题解答案Swift 实现代码:题解代码分析示例测试及结果 时间复杂度空间复杂度总结未来展望参考资料 摘要 本篇文章将通过 Swift 编程语言解答一个常见的算法问题:给定一个整数 columnNumber,将其转换为 Excel 表中的列名称。…

基于艾伦方差的频率稳定性分析

某个授时系统通过串口或网口采集时间间隔计数器、频率计数器、相位噪声分析仪设备的重要信息,用于评估和分析频率源的频率稳定度,确保测量的准确性和可靠性。 数据处理: 读取保存在文件中的时间间隔计数器测量的时差数据,计算时间稳定度(用TDEV表示)并保存。TDEV包括秒稳…

秒鲨后端之MyBatis【1】环境的搭建和核心配置文件详解

​ 别忘了请点个赞收藏关注支持一下博主喵!!!! ! ! Mybatis简介 MyBatis历史 MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下&#xff…

虚幻引擎结构之ULevel

在虚幻引擎中,场景的组织和管理是通过子关卡(Sublevel)来实现的。这种设计不仅提高了资源管理的灵活性,还优化了游戏性能,特别是在处理大型复杂场景时。 1. 场景划分模式 虚幻引擎采用基于子关卡的场景划分模式。每个…

Linux文件目录 --- 移动和改名命令MV、强制移动、试探性移动过、按时间移动

二、MV移动改名命令 重命名文件:mv [选项] 旧文件名 新文件名 移动文件/文件夹:mv [选项] 源文件 目标目录 选项作用-b当覆盖文件时会对被覆盖文件进行先行备份。-i交互式操作,当目标文件已经存在时,会询问是否覆盖。-n试探性覆盖…

Linux服务器端自动挂载存储设备(U盘、移动硬盘)

前言 Linux服务器挂载存储设备需要使用mount,因为服务器的存储通常是固定的,很少存在频繁的插拔USB存储设备的现象 ,使用Linux系统本身是没有较为简单的自动挂载存储设备的方法的。 涉及知识点 udev udev可以监测USB设备的插入、拔出事件&…

CentOS7下的vsftpd服务器和客户端

目录 1、安装vsftpd服务器和ftp客户端; 2、配置vsftpd服务器,允许普通用户登录、下载、上传文件; 3、配置vsftpd服务器,允许anonymous用户登录、下载、上传文件; 4、配置vsftpd服务器,允许root用户登录…

系统思考—全局思维

昨天接到一个企业需求,某互联网公司VP希望N-1的核心团队一起学习系统思考,特别是在新业务快速发展的阶段。公司增长势头不错,但如何解决跨部门的协作问题,成为了瓶颈。全局思维就是关键。产品、技术、市场、运营、客服……如何打破…

information_schema是什么?

前言 在现代数据驱动的应用开发中,理解和管理数据库结构变得尤为重要。几乎所有的SQL数据库管理系统(DBMS)都提供了一个名为 information_schema 的虚拟数据库。它不仅是一个了解数据库内部结构的强大工具,也是一个实现跨平台兼容…

MySQL中Seconds_Behind_Master是怎么计算的

目录 1.Seconds_Behind_Master计算方式2.Seconds_Behind_Master 计算方式会存在什么问题3.更好的方式3.1 实现方法3.2 优点在MySQL中,Seconds_Behind_Master是一个用于表示从库(Slave)落后于主库(Master)的时间(以秒为单位)的指标。 1.Seconds_Behind_Master计算方式 其…

Linux 中检查 Apache Web Server (httpd) 正常运行时间的 4 种方法

注:机翻,未校。 4 Ways To Check Uptime of Apache Web Server (httpd) on Linux November 28, 2019 by Magesh Maruthamuthu We all know about the purpose of uptime command in Linux. 我们都知道 Linux 中 uptime 命令的目的。 It is used to c…

活着就好20241225

亲爱的朋友们,大家早上好!🌞 今天是25号,星期三,2024年12月的第二十五天,同时也是第51周的第三天,农历甲辰[龙]年十一月初二十一日。在这晨光熹微的美好时刻,愿那和煦而明媚的阳光照…

《Swift 字面量》

《Swift 字面量》 介绍 在 Swift 编程语言中,字面量是一种表示源代码中固定值的表达方式。字面量可以直接表示数字、字符串、布尔值等基本数据类型,为编程提供了简洁和直观的方式。Swift 支持多种类型的字面量,包括整数字面量、浮点数字面量…

oracle使用imp命令导入dmp文件

需求: 增量导入 tbl_servicelegalclause 表数据(dmp格式)。 导入思路:使用 dba 创建一个 临时库,先将 tbl_servicelegalclause.dmp(增量的数据) 文件导入到 临时库,然后确认临时库数…

美国加州房价数据分析01

1.项目简介 本数据分析项目目的是分析美国加州房价数据,预测房价中值。 环境要求: ancondajupyter notebookpython3.10.10 虚拟环境: pandas 2.1.1 numpy 1.26.1 matplotlib 3.8.0 scikit-learn1.3.1 2. 导入并探索数据集 通用的数据分析…