简单神经网络(ANN)实现:从零开始构建第一个模型

本文将手把手带你用 Python + Numpy 实现一个最基础的人工神经网络(Artificial Neural Network, ANN)。不依赖任何深度学习框架,适合入门理解神经网络的本质。


一、项目目标

构建一个三层神经网络(输入层、隐藏层、输出层),用于解决一个简单的二分类任务,例如根据两个输入特征判断输出是 0 还是 1。


二、基本结构说明

我们将构建如下结构的神经网络:

 

复制编辑

输入层(2个神经元) → 隐藏层(4个神经元) → 输出层(1个神经元)

  • 激活函数:使用 Sigmoid

  • 损失函数:均方误差

  • 学习方式:批量梯度下降 + 手动反向传播


三、准备数据

我们使用一个简单的数据集(可类比于 AND/OR 操作):

import numpy as np# 输入数据:4组样本,每组2个特征
X = np.array([[0, 0],[0, 1],[1, 0],[1, 1]
])# 标签:这里我们尝试模拟逻辑或(OR)操作
y = np.array([[0], [1], [1], [1]])

四、初始化网络参数

np.random.seed(0)# 网络结构:2 → 4 → 1
input_size = 2
hidden_size = 4
output_size = 1# 权重初始化(正态分布)
W1 = np.random.randn(input_size, hidden_size)
b1 = np.zeros((1, hidden_size))W2 = np.random.randn(hidden_size, output_size)
b2 = np.zeros((1, output_size))

五、激活函数

def sigmoid(x):return 1 / (1 + np.exp(-x))def sigmoid_derivative(x):# 输入为 sigmoid 的输出值return x * (1 - x)

六、训练循环

我们进行 10000 次迭代,手动实现前向传播、损失计算和反向传播。

learning_rate = 0.1
for epoch in range(10000):# --- 正向传播 ---z1 = np.dot(X, W1) + b1a1 = sigmoid(z1)z2 = np.dot(a1, W2) + b2a2 = sigmoid(z2)  # 预测值# --- 损失计算(均方误差)---loss = np.mean((y - a2) ** 2)# --- 反向传播 ---error_output = y - a2d_output = error_output * sigmoid_derivative(a2)error_hidden = d_output.dot(W2.T)d_hidden = error_hidden * sigmoid_derivative(a1)# --- 参数更新 ---W2 += a1.T.dot(d_output) * learning_rateb2 += np.sum(d_output, axis=0, keepdims=True) * learning_rateW1 += X.T.dot(d_hidden) * learning_rateb1 += np.sum(d_hidden, axis=0, keepdims=True) * learning_rateif epoch % 1000 == 0:print(f"Epoch {epoch}, Loss: {loss:.4f}")

七、模型测试

print("预测结果:")
print(a2.round())

输出如下,接近 OR 操作的结果 [0, 1, 1, 1]

预测结果:
[[0.][1.][1.][1.]]

八、总结与拓展

通过这篇文章,我们实现了一个从零开始的神经网络:

  • 完整构建了网络结构(无需框架)

  • 实现了正向传播与反向传播

  • 成功对二分类任务进行了拟合

拓展建议:

  • 改用 ReLU 激活函数;

  • 增加网络层数,提升模型表达能力;

  • 用 Softmax 处理多分类问题;

  • 尝试用真实数据集,如鸢尾花(Iris)或 MNIST。


这类“纯手写”的 ANN 实战项目非常适合用来理解深度学习的本质机制。如果你打算继续深入,可以尝试逐步迁移到 PyTorch 或 TensorFlow 框架实现更复杂的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用python进行人员轨迹跟踪

一、系统概述 该系统基于计算机视觉技术,实现对视频或摄像头画面中的人员进行检测、跟踪,并生成轨迹数据。支持透视变换校准(鸟瞰图显示)、多目标跟踪、轨迹存储及视频录制功能,适用于安防监控、行为分析等场景。 二…

[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程

本人为强化学习小白,为了在后续科研的过程中能够较好的结合强化学习来做相关研究,特意买了西湖大学赵世钰老师撰写的《强化学习数学原理》中文版这本书,并结合赵老师的讲解视频来学习和更深刻的理解强化学习相关概念,知识和算法技…

Docker入门指南:镜像、容器与仓库的核心概念解析

目录 前言:为什么需要Docker? 一、Docker能做什么? 二、核心概念解析 1. 镜像(Image):应用的标准化打包 2. 容器(Container):镜像的运行实例 3. 镜像仓库&#xff0…

大模型微调实战:基于GpuGeek平台的低成本高效训练方案

文章目录 引言一、GpuGeek平台使用入门1. 注册与账号设置2. 控制台功能概览3. 快速创建GPU实例3. 预置镜像与自定义环境 二、GpuGeek平台核心优势解析1. 显卡资源充足:多卡并行加速训练2. 镜像超多:开箱即用的开发环境3. 计费灵活:按需付费降…

Linux:计算机的层状结构

1.冯诺依曼体系结构 我们常见的计算机,如笔记本、台式机。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系结构。 CPU:运算器和控制器组成。运算器主要工作是做算术运算和逻辑运算。控制器主要工作是协调设备之间信息流动的…

LangGraph(四)——加入人机交互控制

目录 1. 引言2. 添加Human Assistance工具3. 编译状态图4. 提示聊天机器人5. 恢复执行参考 1. 引言 智能体可能不可靠,甚至需要人工输入才能完成任务。同样,对于某些操作,你可能需要在运行前获得人工批准,以保证一切按预期运行。 …

数据结构【AVL树】

AVL树 1.AVL树1.AVL的概念2.平衡因子 2.AVl树的实现2.1AVL树的结构2.2AVL树的插入2.3 旋转2.3.1 旋转的原则 1.AVL树 1.AVL的概念 AVL树可以是一个空树。 它的左右子树都是AVL树,且左右子树的高度差的绝对值不超过1。AVL树是一颗高度平衡搜索二叉树,通…

JavaScript【5】DOM模型

1.概述: DOM (Document Object Model):当页面被加载时,浏览器会创建页面的文档对象模型,即dom对象;dom对象会被结构化为对象树,如一个HTML文档会被分为head,body等部分,而每个部分又…

STM32烧录程序正常,但是运行异常

一、硬件配置问题 BOOT引脚设置错误 STM32的启动模式由BOOT0和BOOT1引脚决定。若设置为从RAM启动(BOOT01,BOOT10),程序在掉电后无法保存,导致复位后无法正常运行。应确保BOOT00(从Flash启动)15。…

汽车二自由度系统模型以及电动助力转向系统模型

汽车二自由度系统模型与电动助力转向系统(EPS)的详细建模方案,包含理论推导、MATLAB/Simulink实现代码及参数说明: 一、二自由度汽车模型 1. 模型描述 包含以下两个自由度: 横向运动(侧向加速度&#xf…

git提交库常用词

新功能 feat修改BUG fix文档修改 docs格式修改 style重构 refactor性能提升 perf测试 test构建系统 build对CI配置文件修改 ci修改构建流程、或增加依赖库、工具 chore回滚版本 revert

JavaScript 时间转换:从 HH:mm:ss 到十进制小时及反向转换

关键点 JavaScript 可以轻松实现时间格式(HH:mm:ss 或 HH:mm)与十进制小时(如 17.5)的相互转换。两个函数分别处理时间字符串到十进制小时,以及十进制小时到时间字符串的转换,支持灵活的输入和输出格式。这…

LLM智能体新纪元:深入解析MCP与A2A协议,赋能智能自动化协作

LLM智能体(LLM agents)是能够自主行动以实现特定目标的AI系统。在实际应用中,智能体能够将用户请求拆解为多个步骤,利用知识库或API获取数据,最终整合出答案。这让智能体相比于传统独立聊天机器人拥有更强大的能力——…

[PMIC]PMIC重要知识点总结

PMIC重要知识点总结 摘要:PMIC (Power Management Integrated Circuit) 是现代电子设备中至关重要的组件,负责电源管理,包括电压调节、电源转换、电池管理和功耗优化等。PMIC 中的数字部分主要涉及控制逻辑、状态机、寄存器配置、通信接口&am…

PYTHON训练营DAY28

类 (一)题目1:定义圆(Circle)类 要求: 包含属性:半径 radius。包含方法: calculate_area():计算圆的面积(公式:πr)。calculate_circ…

机器学习-人与机器生数据的区分模型测试 -数据筛选

内容继续机器学习-人与机器生数据的区分模型测试 使用随机森林的弱学习树来筛选相对稳定的特征数据 # 随机森林筛选特征 X data.drop([city, target], axis1) # 去除修改前的城市名称列和目标变量列 y data[target] X_train, X_test, y_train, y_test train_test_split(X…

Data whale LLM universe

使用LLM API开发应用 基本概念 Prompt Prompt 最初指的是自然语言处理研究人员为下游任务设计的一种任务专属的输入模板。 Temperature 使用Temperature参数控制LLM生成结果的随机性和创造性,一般取值设置在0~1之间,当取值接近1的时候预测的随机性较…

Azure 应用的托管身份与服务主体

Microsoft Entra ID -- 前称 Azure Active Directory -- 提供强大的身份验证和授权功能。托管身份和服务主体通过限制凭据暴露的风险来帮助确保对 Azure 资源的访问安全。 托管身份为Azure原生应用程序自动管理身份,而服务主体则非常适合需要访问Azure资源的外部应…

16 C 语言布尔类型与 sizeof 运算符详解:布尔类型的三种声明方式、执行时间、赋值规则

1 布尔类型 1.1 布尔类型概述 布尔类型用于表示逻辑上的真(true)和假(false)两种状态,是编程中条件判断和逻辑运算的基础。在 C 语言中,布尔值的表示方式随着标准的发展而不断完善。 1.2 布尔类型的三种声…

【C++详解】string各种接口如何使用保姆级攻略

文章目录 一、string介绍二、string使用构造函数析构函数赋值运算符重载string的遍历修改方法1、下标[]2、迭代器3、范围for 迭代器使用详解const迭代器反向迭代器(reverse) Capacity(容量相关)size/lengthmax_sizecapacityclear/emptyshrink_to_fit(缩容)reserve(扩…