AI基础01-文本数据采集

        本篇文章是学习文本数据的采集,作为人工智能训练师或者数据分析师有时需要先获取数据,然后进行数据清洗、数据标注。很明显数据采集是后续步骤的基础。

1)数据采集定义

数据采集:data acquisition,DAQ 又称为数据获取,是利用一种装置,从系统外部采集数据并输入系统内部的一个接口。数据采集技术广泛应用于各个领域。

2)数据采集实例

假如我们需要获取佛山市当天的天气情况,像天气是晴天还是多云,天气的气温以及风速。

步骤:请求网站获取HTML信息 ==》使用beautifulsoup解析HTML内容,并找出我们需要的内容 ==》保存到csv 文件中

a、需要安装Requests 库、beautifulsoup库

可以pip install requests

也可以直接在pycharm 里面导入时,提示没有库点击后安装

点击后安装成功,对应的库名下面就没有下划线了:

同样的方法也可以安装别的库。

b、Requests 库使用方法

在Python中,requests模块是一个非常流行的第三方库,用于发送HTTP请求。它提供了一个简单而强大的接口来与HTTP服务器进行交互。

requests.get() 是获取 HTML网页信息的主要方法

r = requests.get(url,params = None,**kwargs):

url:要获取页面的url

params :为字典或者字节序列,作为参数增加到url中

r:为返回的一个包含服务器资源的response对象

import requests

# 请求天气的网址
url = "https://www.weather.com.cn/weather/101280800.shtml"
r = requests.get(url,timeout=10)
print(r)
print(r.text)  #网页上获取的全部内容

c、Beautifulsoup 使用方式

Python中的BeautifulSoup是一个非常流行的库,用于解析HTML和XML文档。它提供了一个简单的API来提取数据。

在使用BeautifulSoup之前,你需要先安装这个库。如果你还没有安装,可以通过pip来安装:pip install beautifulsoup4

导入BeautifulSoup

在你的Python脚本中,首先需要导入BeautifulSoup和解析器(如lxml或html.parser)

from bs4 import BeautifulSoup

解析HTML或XML文档

你可以使用BeautifulSoup类来解析HTML或XML文档。通常,你需要传递文档内容和解析器类型给BeautifulSoup的构造函数。

# 示例HTML文档

html_doc = """

<html>

<head>

<title>The Dormouse's story</title>

</head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

</body>

</html>

"""

# 使用html.parser解析器解析HTML文档

soup = BeautifulSoup(html_doc, 'html.parser')

查找元素

BeautifulSoup提供了多种方法来查找元素,包括但不限于:

find(): 返回第一个匹配的标签。

find_all(): 返回所有匹配的标签。

find_parent(), find_parents(): 查找父标签。

find_next_sibling(), find_next_siblings(): 查找下一个兄弟标签。

find_previous_sibling(), find_previous_siblings(): 查找前一个兄弟标签。

select(): 使用CSS选择器查找元素。

示例:使用find()和find_all()

# 查找第一个<a>标签

first_link = soup.find('a')

print(first_link)  # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

# 查找所有<a>标签

all_links = soup.find_all('a')

for link in all_links:

    print(link)  # 打印所有<a>标签的详细信息

示例:使用select()(CSS选择器)

# 使用CSS选择器查找所有class为"sister"的<a>标签

sisters = soup.select('a.sister')

for sister in sisters:

    print(sister['href'], sister.text)  # 打印链接和文本内容

获取和修改属性及内容

你可以轻松获取或修改元素的属性或内容。

# 获取元素的属性值

href = first_link['href']  # 获取href属性值

print(href)  # http://example.com/elsie

# 修改元素的属性值或内容

first_link['href'] = "http://newexample.com/elsie"  # 修改href属性值

first_link.string = "Elsie New"  # 修改<a>标签内的文本内容为"Elsie New"

3) 编写脚本

获取佛山市当天的天气情况,像天气是晴天还是多云,天气的气温以及风速。

参考代码:
#网页请求函数
def get_html_text(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        print("访问网页成功")
        return r.text
    except:
        return "访问异常"
 

#数据存放到csv文件中
def write_to_csv(file_name,data,day=1):
    if not os.path.exists(file_name):
        with open(file_name,"w",errors="ignore",newline="") as f:
            if day==1:
                header = ["最高温度","最低温度","天气情况","风速"]
            f_csv = csv.writer(f)
            f_csv.writerow(header)
            f_csv.writerows(data)
    else:
        with open(file_name, "a", errors="ignore", newline="") as f:
            f_csv = csv.writer(f)
            #for i in range(0,len(data)):
            f_csv.writerows(data)

#主函数

if __name__ == '__main__':
    # 请求天气的网址
    url = "https://www.weather.com.cn/weather/101280800.shtml"
    # csv数据保存文件夹
    file_direction = "D:\\dewi\\project2024\\myListPractice\\pythonProject1\\test_data"

    # 打开网页天气预报佛山市
    html_text = get_html_text(url)
    print(html_text)
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(html_text, 'html.parser')

    # 获取当天的天气情况
    # <div class="temperature">25°C</div> 和 <div class="humidity">60%</div>
    if soup.find("p", class_="tem").span is None:
        temperature_H = "无"   #晚上请求的时候可能没有最高温度,这里做了判断
    else:
        temperature_H = soup.find("p", class_="tem").span.string
    temperature_L = soup.find('p', class_='tem').i.string  # find()这里返回第一个结果,最低温度
    weather = soup.find('p', class_='wea').string          #天气状态
    wind_speed = soup.find("p", class_="win").i.string     #风速

    # 获取的数据放到list
    weather_data = []
    weather_data.append([temperature_H, temperature_L, weather, wind_speed])  # 列表中包含列表,以便后续写入,或者使用列表中是字典
    print("今天天气情况:", weather_data)
    #保存到csv文件
    write_to_csv(file_direction + "\\weather_data.csv", weather_data, day=1)

4)进阶练习

如何获取最近7天的最低温度呢?

我们可以把它取出来放到列表中。

这里需要使用到find_all(),另外要分清html结构,然后用基本语法就可以实现了:

HTML结构参考如下:

参考代码如下:

import requests
from bs4 import BeautifulSoup
# 请求天气的网址
url = "https://www.weather.com.cn/weather/101280800.shtml"
r = requests.get(url,timeout=20)
r.encoding =
'utf-8'
print(r)
#print(r.text)  #网页上获取的全部内容

soup = BeautifulSoup(r.text,"html.parser")
#练习find()
temprature_low = soup.find("p",class_="tem").i.string
print("第一个最低温度:",temprature_low)

#练习find_all(),7天所有的最低温度
body = soup.body  #body内容
data = body.find('div', {'id': '7d'})#7天的数据
ul = data.find('ul'#找到第一个ul
li = ul.find_all('li') #找到所有li
temprature_7days = []
for day in li:
    temprature_day = day.find(
"p",class_="tem").i.string.replace('', '') #每天的最低温度
    temprature_7days.append(temprature_day)  #添加到list.如果是要每天的多个天气情况时,可以使用list包含list形式
print("最近7天的天气最低温度:",temprature_7days)

每天进步一点点,加油!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习Python编程:从入门到工程实践

第一章 Python语言概述与生态体系 1.3 Python在工业界的应用场景 # 示例:使用FastAPI构建RESTful接口 from fastapi import FastAPI from pydantic import BaseModelapp = FastAPI()class Item(BaseModel):name: strprice: float@app.post("/items/") async def cr…

使用CSS3实现炫酷的3D翻转卡片效果

使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…

HAl库开发中断方式接收Can报文的详细流程

下面给出一个基于 HAL 库的中断方式接收 CAN 报文的详细流程说明&#xff0c;描述每一步的硬件配置、软件调用和中断处理机制&#xff0c;而不涉及具体代码细节&#xff0c;只讲解整体原理和步骤&#xff1a; 在使用 HAL 库时&#xff0c;不需要手动清除中断标志位。原因如下&…

【读书笔记】华为《从偶然到必然》

note 华为的成功并非偶然&#xff0c;而是通过IPD体系、投资组合管理、平台战略等系统性工具&#xff0c;将研发投资转化为可持续的商业竞争力。书中强调的“管理即内部因素”理念&#xff0c;揭示了企业规模扩张与管理能力匹配的深层规律&#xff0c;为高科技企业提供了可借鉴…

6.4考研408数据结构图论核心知识点深度解析

一、最小生成树(Minimum Spanning Tree) 1.1 Prim算法 易错点与难点 lowcost数组更新逻辑 错误将已加入生成树的顶点距离重置为0后继续参与计算,导致后续顶点选择错误未正确处理非连通图情况,可能陷入死循环(需结合visited数组判断)示例错误:for(int j=0; j<G.vexn…

HashMap添加元素的流程图

文章目录 JDK7 vs JDK8 的 HashMap 结构变化Java8 中哈希表的红黑树优化机制HashMap 添加元素的完整流程解析1. 计算 key 的哈希值并确定索引2. 检查该索引位置是否已有元素3. 处理哈希冲突4. 判断当前存储结构&#xff08;链表还是红黑树&#xff09;5. 判断链表长度是否超过 …

Excel(进阶篇):powerquery详解、PowerQuery的各种用法,逆透视表格、双行表头如何制作透视表、不规则数据如何制作数据透视表

目录 PowerQuery工具基础修改现有数据理规则PowerQuery抓取数据的两种方式多文件合并透视不同表结构多表追加数据透视追加与合并整理横向表格:逆透视 数据用拆分工具整理数据算账龄 不等步长值组合合并文件夹中所有文件PowerQuery处理CSV文件双行表头、带合并单元格如何做数据…

从零开始:使用 Cython + JNI 在 Android 上运行 Python 算法

1. 引言 在 Android 设备上运行 Python 代码通常面临性能、兼容性和封装等挑战。尤其是当你希望在 Android 应用中使用 Python 编写的计算密集型算法时&#xff0c;直接运行 Python 代码可能导致较高的 CPU 占用和较差的性能。为了解决这个问题&#xff0c;我们可以使用 Cytho…

请为下面的html添加一个修改按钮,以便对书名、价格进行修改

下面的HTML段落&#xff0c;在书名和价格输入错误的情况下&#xff0c;无法进行修改。添加一个按钮&#xff0c;对已经输入的信息进行修改。 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title></…

FFmpeg + ‌Qt‌ 简单视频播放器代码

一个基于 ‌FFmpeg 4.x‌ 和 ‌Qt‌ 的简单视频播放器代码示例&#xff0c;实现视频解码和渲染到 Qt 窗口的功能。 1&#xff09;ffmpeg库界面&#xff0c;视频解码支持软解和硬解方式。 2&#xff09;QImage/QPixmap显示视频图片。 ‌1. Qt 项目配置&#xff08;.pro 文件&…

如何在百度搜索上删除与自己名字相关的资料

个人信息的网络足迹如同一张无形的网&#xff0c;将我们与世界的每一个角落紧密相连。然而&#xff0c;当某些与自己名字相关的资料不再希望被公众轻易检索到时&#xff0c;如何在百度搜索中有效“隐身”&#xff0c;成为了一个亟待解决的问题。面对复杂多变的网络环境&#xf…

WebSocket:现代实时通信协议的深度解析与实践

一、背景与演进历程 1.1 传统实时通信的困境 // 典型的HTTP轮询伪代码 while(true) {auto response http_client.get("/messages");if(response.has_data()) process(response);std::this_thread::sleep_for(1s); // 固定间隔轮询 } 高延迟&#xff1a;轮询间隔导…

[贪心算法]最长回文串 增减字符串匹配 分发饼干

1.最长回文串 我们可以存下每个字母的个数&#xff0c;然后分类讨论 如果是奇数就减一加到结果中如果是偶数就直接加入即可 最后判断长度跟原字符串的差距&#xff0c;如果小于原数组说明有奇数结果1 class Solution { public:int longestPalindrome(string s) {int ret0;//1.计…

STM32 的tf卡驱动

基于STM32的TF卡驱动的基本实现步骤和相关代码示例,主要使用SPI接口来与TF卡进行通信。 硬件连接 将TF卡的SPI接口与STM32的SPI引脚连接,通常需要连接SCK(时钟)、MOSI(主出从入)、MISO(主入从出)和CS(片选)引脚。 软件实现 初始化SPI 配置SPI的工作模式、时钟频率…

目标检测中的非极大值抑制(NMS)原理与实现解析

一、技术背景 在目标检测任务中&#xff0c;模型通常会对同一目标生成多个重叠的候选框&#xff08;如锚框或预测框&#xff09;。非极大值抑制&#xff08;Non-Maximum Suppression, NMS&#xff09; 是一种关键的后处理技术&#xff0c;用于去除冗余的检测结果&#xff0c;保…

探秘鸿蒙 HarmonyOS NEXT:鸿蒙存储核心技术全解析

引言 本文章基于HarmonyOS NEXT操作系统&#xff0c;API12以上的版本。 在 ArkTS (ArkUI 框架) 中&#xff0c;用户首选项 (Preferences) 和 持久化存储 (PersistentStorage) 都用于数据存储&#xff0c;但它们有不同的应用场景和特点。 1. 用户首选项 (Preferences) 概念&a…

Leetcode—15. 三数之和(哈希表—基础算法)

题目&#xff1a; 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的…

Linux 启动Jar脚本设置开机自启【超级详细】

Linux 启动Jar脚本&&设置开机自启【超级详细】 概要服务器开机自启服务重启脚本 概要 最近在Linux服务器中部署了一个项目&#xff08;单机版&#xff09;&#xff0c;每次更新服务的时候需要用到好几个命令&#xff0c;停止服务&#xff0c;再重启&#xff0c;并且服…

【第21节】windows sdk编程:网络编程基础

目录 引言&#xff1a;网络编程基础 一、socket介绍(套接字) 1.1 Berkeley Socket套接字 1.2 WinSocket套接字 1.3 WSAtartup函数 1.4 socket函数 1.5 字节序转换 1.6 绑定套接字 1.7 监听 1.8 连接 1.9 接收数据 1.10 发送数据 1.11 关闭套接字 二、UDP连接流程…

QT 图表(拆线图,栏状图,饼状图 ,动态图表)

效果 折线图 // 创建折线数据系列// 创建折线系列QLineSeries *series new QLineSeries;// series->append(0, 6);// series->append(2, 4);// series->append(3, 8);// 创建图表并添加系列QChart *chart new QChart;chart->addSeries(series);chart->setTit…