11.17日学习笔记

news/2025/11/17 18:40:07/文章来源:https://www.cnblogs.com/wenbushi-dream/p/19234035

本周学习内容
(一)Hadoop 集群优化与实践
完全分布式模式配置
将 Hadoop 伪分布式模式升级为完全分布式模式,配置了多个 DataNode 节点,实现了数据的分布式存储和计算。
修改了 core-site.xml、hdfs-site.xml 和 mapred-site.xml 配置文件,配置了 HDFS 的 NameNode 和 DataNode,以及 MapReduce 的 JobTracker 和 TaskTracker。
成功启动了完全分布式模式下的 Hadoop 集群,通过 jps 命令验证了所有守护进程的运行状态。
YARN 资源管理器配置
学习了 Hadoop 的资源管理器 YARN,配置和管理 YARN 集群,优化资源分配。
修改了 yarn-site.xml 配置文件,设置了 YARN 的调度器类型(CapacityScheduler),并配置了队列的资源分配策略。
通过 YARN 的 Web 界面监控集群的资源使用情况,确保资源的合理分配和高效利用。
数据清洗和预处理程序
编写了一个基于 Hadoop 的数据清洗和预处理程序,处理实际的数据集。该程序使用 MapReduce 模型,实现了数据的去重、过滤和格式化。
在 Map 任务中,读取原始数据文件,过滤掉无效数据和重复数据,并将清洗后的数据输出到中间文件。
在 Reduce 任务中,对中间文件进行进一步处理,格式化数据并输出到最终结果文件。
(二)Python 项目实践
Web 爬虫项目
完成了一个简单的 Python Web 爬虫项目,使用 requests 和 BeautifulSoup 库爬取网页数据。
编写了一个爬虫脚本,爬取了某新闻网站的新闻标题和链接,并将数据存储到本地的 JSON 文件中。
学习了如何处理网页的动态加载内容,使用 Selenium 库模拟浏览器行为,获取动态加载的数据。
数据可视化
学习了 Python 的数据可视化库 matplotlib 和 seaborn,绘制简单的数据图表。
使用 matplotlib 绘制了柱状图和折线图,展示了新闻网站的新闻数量和发布趋势。
使用 seaborn 绘制了热力图,展示了不同类别新闻的分布情况。
(三)Java Web 项目优化
数据库查询优化
对 Java Web 项目中的数据库查询语句进行了优化,减少了数据库连接的频繁创建和销毁。
使用连接池技术(Apache DBCP)管理数据库连接,提高了数据库访问的效率。
优化了 SQL 查询语句,减少了不必要的全表扫描,提高了查询速度。
用户头像上传功能
添加了用户头像上传功能,支持图片的上传和存储。使用 Apache Commons FileUpload 组件处理文件上传请求。
在 UserServlet 中,添加了文件上传的处理逻辑,将用户头像存储到服务器的指定目录,并将头像路径保存到数据库中。
在用户详情页面(userDetail.jsp)中,动态显示用户头像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/968220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在线升级

在线升级 在线升级 https://zhuanlan.zhihu.com/p/691579476#:~:text=4%E3%80%81%E6%9B%B4%E6%96%B0Flash%E4%B8%ADUpdate%E9%83%A8%E5%88%86%E7%9A%84bin%E6%96%87%E4%BB%B6%E5%8D%B3%E5%8F%AF%EF%BC%88%E9%80%9A%E8…

docker+jenkins实现自动化部署

使用 docker+jenkins 实现自动化部署个人网站,只记录过程和可能要注意的点。 Docker docker 是一个应用容器引擎,可以理解为是操作系统上的软件包(容器)的集合,其容器之间相互独立,没有接口,完全使用沙箱机制隔…

ftp服务器搭建 linux

搭建一个FTP服务器在Linux系统上是一个常见的任务,通常使用 vsftpd(Very Secure FTP Daemon)作为FTP服务器。以下是一个基础的Linux FTP服务器搭建指南,适用于大多数基于Debian/Ubuntu的系统,也适用于CentOS/RHEL…

javascript类型

Number 数值分为整数和浮点数,可使用十进制,八进制,十六进制和科学计数法来表示。 var a = 1; var b = 1.1; var c = 067; var d = 0xa; var e = 1.23e7;console.log(a, b, c, d, e);NaN 表示一个非数值,任何涉及到…

ftp工具linux

在 Linux 系统中,没有直接的 ftp 工具,但你可以使用 ftp 命令行工具或者通过 curl、wget 等命令来实现 FTP 的功能。以下是几种常见的 Linux 中实现 FTP 的方式:? 1. 使用 ftp 命令行工具 ftp 是 Linux 中用于 FTP…

DNS是如何工作的

DNS 查询路线 sequenceDiagramparticipant A as 用户participant B as 浏览器participant C as DNS根域名服务器participant D as 顶级域名服务器participant E as 域名服务器A ->> B: 输入网址B ->> C: 无…

美国研究生申请中介怎么选?2025高性价比机构测评推荐,藤校录取率超同行的机构盘点

美国研究生申请中介怎么选?2025高性价比机构测评推荐,藤校录取率超同行的机构盘点随着留学热潮的持续升温,美国研究生申请因优质教育资源和广阔发展前景,成为众多学子的首选目标。但美国高校申请流程复杂,院校偏好…

iframe代码验证器-专业测试工具

1 <!DOCTYPE html>2 <html lang="zh-CN">3 <head>4 <meta charset="UTF-8">5 <meta name="viewport" content="width=device-width, initial-…

浏览器渲染逻辑

解析没有 defer 或 async 属性的 js 时会阻塞 DOM 的解析graph LRA[页面加载] --> B[构建DOM树] --> D[render树]A --> C[构建CSSOM树] --> DB -..-> E[解析js图像等其他资源]D --> F[布局确定每个对…

不作评价。

注:【】用来替换我真名。(休息时间我干我自己的事)(无穷次)“要是能成为【我在干的事】就好~ 了~ ,就能被【】看~ 了~ ”“不喜欢我叫你哥~ 哥~ 我可以不叫”我:真的不喜欢“我们家【】哥~ 哥~ 啊,……”(我不…

2025头皮修护精华 TOP 榜:头皮护理精华植萃 + 生物肽技术,口碑厂家全解析!

随着头皮护理需求走向精细化,消费者不再盲目追逐大牌溢价,转而关注深耕细分领域、聚焦产品本质的小规模品牌。这些品牌摒弃过度营销,将精力投入配方研发与用户体验,以高适配性、温和有效性成为市场新宠。本次推荐榜…

正则的汉字匹配问题

/[U+4E00–U+9FA5]/ 这是我们平时最常用的汉字匹配正则表达式,Unicode1.0 收录了 U+4E00–U+9FA5 范围内的文字,共计 20902 个汉字,但问题是这是 1993 年发布的,至今已经过去将近 30 年时间,这中间也已经加入了相…

2025年北京搬家公司联系电话推荐榜单:速搬国际搬家精选榜单

在北京这座节奏飞快的城市,搬家既是新生活的起点,也常被视为 “最累的一天”。2025 年,随着租房换房、公司搬迁、跨城通勤需求同步上升,越来越多市民希望用一通电话就把 “打包、搬运、复原” 全部搞定。为了帮您在…

float类型在MySQL中的存储方式

在MySQL中,FLOAT 类型的存储方式可以描述为以下几个要点:存储方式:FLOAT 数据类型在数据库中是以二进制形式存储的浮点数。这种存储方式使得 FLOAT 类型能够提供相对较高的精度和计算性能。 存储大小与精度:FLOAT …

2025年东莞厂房装修公司最新榜单:聚焦仓储物流厂房装修/恒温恒湿厂房装修定制化解决方案

在东莞制造业蓬勃发展的背景下,厂房装修作为企业生产环境优化的关键环节,直接影响运营效率与空间利用率。装修公司凭借灵活定制、高性价比、服务精细的优势,成为众多中小企业的优选。本文聚焦 2025 年东莞厂房装修市…

Visual Studio 2022(VS2022)激活密钥

Visual Studio 2022(VS2022)激活密钥Visual Studio注册码专业版:NVTDK-QB8J9-M28GR-92BPC-BTHXK 企业版:VYGRN-WPR22-HG4X3-692BF-QGT2V Pro: TD244-P4NB7-YQ6XK-Y8MMM-YWV2J Enterprise: VHF9H-NXBBB-638P6-6JHCY-8…

贪心:贪心中的偏序关系

贪心:贪心中的偏序关系自反性:任取一元素,它和它自己 对称性:取a,b和b,a 传递性:取a,b,取b,c,然后看a,c的关系类似小于等于 有任意一个数都小于等于自身;任意两个数:a<=b,b<=a,那么a = b;任取三…

执行上下文

函数运行时所需要的信息 在最新的 ES2018 中,执行上下文包括词法环境(获取变量或 this 时) 变量对象(声明变量时) code evaluation state:恢复代码执行位置 Function:正在被执行的函数 Realm:‘国度’,代表了…

Flink SQL如何优化查询性能

Apache Flink SQL 是一个用于处理实时数据流的 SQL 查询引擎,它允许用户通过 SQL 语句进行数据处理和转换。为了优化 Flink SQL 查询性能,可以采取以下措施:数据分区:合理地对数据进行分区,可以显著提高查询性能。…

版本号

alpha:内部测试版本,测试或开发人员使用 beta:公测版本,消除了严重 bug,还有新功能添加 rc: 发行候选版本,主要是修改 bug,不做功能改变 release:发行版 例如 1(主版本).2(次版本).3(修订号)- alpha.1(…