大模型面试 请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解,它们在架构或训练策略上有何关键差异?

1.请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解,它们在架构或训练策略上有何关键差异?

已思考 12s

下面按“我怎么理解它是什么 / 关键技术点 / 与另一者的差异”来分别讲DeepSeek-V3DeepSeek-R1,并总结它们在架构训练策略上的关键差异。


1) 我对 DeepSeek-V3 的理解

一句话:V3 更像是 DeepSeek 的“高性价比通用基座模型(foundation model)”,核心目标是用稀疏化架构把训练与推理成本压下去,同时把通用能力做强。 arXiv

架构侧重点(V3)

  • MoE(Mixture-of-Experts)稀疏激活:总参数量很大,但每个token 只激活一小部分参数,从而把计算量控制在更可承受的水平。V3 报告里给的是671B 总参数、每 token 激活约 37BarXiv

  • Multi-headLatent Attention (MLA)DeepSeekMoE:属于 V 系列延续并验证过的高效结构选择,主要为训练/推理效率服务。 arXiv

  • “辅助损失(auxiliary loss)free”的负载均衡策略:很多 MoE 会用额外的 load-balancing loss 防止路由塌缩;V3 强调“aux-loss-free”作为重要工程/算法点之一(同时也会用补充性的序列级平衡项来避免极端不均衡)。 arXiv+1

  • Multi-token prediction 训练目标:不只预测下一个 token,而是引入多 token 预测目标以增强学习信号、提升性能。 arXiv

训练流程侧重点(V3)

  • 大规模预训练(报告给出14.8T tokens)→ 再做SFT→ 再做RL 阶段来“完全释放能力”。整体还是典型“强基座 + 对齐”的路线。 arXiv


2) 我对 DeepSeek-R1 的理解

一句话:R1 更像是“面向推理的模型家族/训练范式”,核心目标是用强化学习把‘会推理’这件事显式激励出来,并在可用性(可读性、语言一致性、偏好对齐)上补齐。 arXiv+1

架构侧重点(R1)

  • R1 的讨论重点不主要在发明全新 Transformer 架构,而在“让模型在生成过程中形成更强的推理行为模式”。论文/文章更强调“reasoning pattern 的涌现与被激励”。 Nature+1

  • 实务上,它通常建立在一个已经很强的预训练底座之上(媒体与分析也把 V3 看作强预训练底座,再通过 RL 得到 R1 的路线)。 金融时报

训练流程侧重点(R1)

  • DeepSeek-R1-Zero:纯 RL(不以 SFT 作为起步),展示“推理能力可以被纯 RL 激励出来”,但会出现可读性差、语言混杂等问题。 arXiv+1

  • DeepSeek-R1:多阶段框架把能力与可用性拉回平衡:论文提到结合rejection sampling、RL、SFT等阶段,使其继承 R1-Zero 的推理能力,同时用额外的非推理数据/对齐步骤让行为更符合人类偏好与使用习惯。 Nature+2arXiv+2


3) 它们在“架构/训练策略”上的关键差异(重点总结)

A. 定位不同:基座 vs 推理

  • **V3:**面向“通用能力 + 成本效率”的基座模型,架构创新(MoE/MLA/负载均衡/训练目标)是主角。 arXiv

  • **R1:**面向“推理能力被显式激励”的推理模型/训练范式,训练策略(尤其 RL 的角色与阶段设计)是主角。 Nature+1

B. 架构差异:V3 明确强调 MoE 与高效注意力;R1 更强调“行为/过程”的形成

  • V3清晰给出 MoE 稀疏激活规模(671B/37B)、MLA、aux-loss-free 负载均衡、多 token 预测目标等。 arXiv+1

  • R1更多是“在既有强底座上,通过 RL 让推理行为涌现并可控”,而不是靠结构本身取胜。 Nature+1

C. 训练策略差异:V3 是“预训练→SFT→RL”的常规强基座路线;R1 把 RL 推到核心

  • **V3:**大规模预训练是核心资产,然后 SFT/RL 做对齐与能力释放。 arXiv

  • **R1:**强调“推理能力可由纯 RL 激励”,并用多阶段(rejection sampling + RL + SFT)解决可读性与偏好对齐等工程问题。 Nature+2Nature+2


如果你愿意,我可以再进一步用一个更“工程视角”的对比表来回答:

  • 同等算力预算下为什么 V3(MoE)适合作基座

  • 为什么 R1(RL 激励推理)会带来更高推理 token 开销、但推理质量更强(业界也有类似讨论)。

Qwen 系列基座模型的结构是怎样的?Qwen3 相对于 Qwen2.5、Qwen2 改进了什么

已思考 48s

下面我按两部分回答:先讲Qwen 系列“基座模型”(Base LLM)总体结构,再讲Qwen3 相对 Qwen2 / Qwen2.5 的改进点(重点放在结构与训练/对齐策略的变化)。


1) Qwen 系列基座模型的结构大体是怎样的?

共同骨架:Decoder-only Transformer

Qwen2 明确写的是标准Transformer 解码器架构:多层 Transformer block,每层包含因果自注意力(causal mask)+ FFN。arXiv

注意力与 FFN 的“默认配置”(以 Qwen2/3 报告为准)

  • GQA(Grouped Query Attention):Qwen2 用GQA 替代传统 MHA,主要是为了推理时 KV cache 更省、吞吐更高。arXiv+1

  • SwiGLU 激活 + RoPE 位置编码 + RMSNorm(pre-norm):Qwen2 报告把这些作为稳定/效果的关键组件列出;Qwen3 也说明其 dense 架构与 Qwen2.5 类似,仍沿用这些组件。arXiv+1

  • 长上下文:DCA + YARN(在 Qwen2 中明确):Qwen2 为扩展上下文窗口引入Dual Chunk Attention (DCA),并结合YARN做长度外推更稳。arXiv

词表 / tokenizer

  • Qwen2 使用统一词表(报告里给出 151,643 regular tokens+ 3 control tokens,并提到分布式训练下embedding 有“有效尺寸”处理)。arXiv

  • Qwen3 仍使用 Qwen 的BBPE tokenizer,词表规模在报告中给到151,669。arXiv

另外一条线:MoE 基座(部分代际/型号)

Qwen2 系列里除了 dense 还包含 MoE:表格里给了57B-A14B(总 57B、每 token 激活 14B),并列出 routed experts / activated experts / shared experts 等配置。arXiv
Qwen3 也同时发布 dense 与 MoE(比如235B-A22B:总 235B、每 token 激活 22B),并给出 MoE 专家数与激活数等细节。arXiv


2) Qwen3 相对于 Qwen2.5、Qwen2 改进了什么?

我把改进分成三类:(A)结构细节(architecture knobs)(B)MoE 设计(C)数据与训练/对齐策略

A) 结构细节:在“Qwen2.5 风格”的基础上进一步稳定与简化

Qwen3 报告直接说:dense 架构整体与 Qwen2.5 类似(GQA/SwiGLU/RoPE/RMSNorm+ pre-norm)。arXiv
但相对Qwen2,Qwen3 做了两个很明确的结构变化:

  • 移除QKV-bias(Qwen2 使用过)

  • 引入 QK-Norm来保证训练稳定性
    这两点是 Qwen3 报告在架构段落里点名的“关键差异”。arXiv+1

另外,Qwen3 在报告里给了不同模型的上下文长度配置:小模型 32K、部分/大模型 128K。arXiv

B) MoE:更“干净”的专家结构 + 更明确的负载均衡信号

Qwen3 的 MoE 延续“细粒度专家切分(fine-grained expert segmentation)”,但对比上一代 MoE(报告里对比的是 Qwen2.5-MoE)有两点很突出:

  • 总专家 128、每 token 激活 8 个arXiv

  • 不再使用 shared experts(Qwen3-MoE “excludes shared experts”)arXiv

  • 使用 global-batch load balancing loss来鼓励专家专门化(specialization)arXiv

如果你关心工程含义:这通常意味着路由/专家利用率与“专家分工”更被当成一等公民来优化,而不仅是“堆更多专家”。

C) 数据与训练:规模、语言覆盖、以及“推理/思考”相关能力组织方式

这里 Qwen2.5 和 Qwen3 的报告都给了很明确的量化信息:

  • 预训练数据规模

    • Qwen2.5:高质量预训练数据从上一代的7T tokens 扩到 18T;并在后训练用>100 万样本 SFT + 多阶段 RL,显著改善长文本生成、结构化数据分析、指令遵循等。arXiv+1

    • Qwen3:预训练数据进一步到36T tokens,并把语言覆盖从29 扩到 119 种语言/方言。arXiv

  • “Thinking mode / Non-thinking mode”统一框架 + thinking budget(这是 Qwen3 非常标志性的产品化/推理侧改进)
    Qwen3 报告强调把“复杂多步推理的 thinking mode”和“快速响应的 non-thinking mode”统一到同一模型框架里,并提供thinking budget让推理时可控地分配计算资源。arXiv

直观对比一句话:
Qwen2 → 更像把“高效注意力/长上下文”工程打牢;Qwen2.5 → 主要通过数据与后训练系统性增强通用能力与指令对齐;Qwen3 → 在保持 Qwen2.5 架构基调下,进一步做训练稳定性(QK-Norm/去 bias)、MoE 路由策略升级,并把“推理模式切换 + 预算控制”变成核心卖点。arXiv+3arXiv+3arXiv+3


如果你想更深入一点,我也可以按你关心的方向继续展开其一:

  1. QK-Norm + 去 QKV-bias对稳定性/收敛的典型影响;

  2. Qwen3 MoE 去 shared experts可能带来的专家分工变化;

  3. thinking budget在推理成本与效果之间怎么调(给一些实践模板)。

Multi-head Latent Attention (MLA) 相对于其他 Attention 的改进了哪些,请作一个和其他 稀疏Attention 机制的对比

已思考 23s

下面我把MLA(Multi-head Latent Attention)当作一类“KV-cache 压缩型 attention”来解释,然后专门拿它和典型的 **稀疏 Attention(在 token 维度做稀疏)**做对比:Longformer/BigBird/Reformer(LSH)等;再补两类常被一起讨论的“高效注意力”:线性注意力(Performer)MQA/GQA


1) MLA 到底改进了什么(相对标准MHA / GQA / MQA

MLA 的核心:把KV cache 从“每层每 token 存一堆 head的 K/V”变成“每层每 token 存一个更小的 latent”

DeepSeek 在V2/V3 把 MLA 的定位讲得很直白:通过把 KV cache显著压缩成latent vector来保证高效推理。arXiv+1
在 DeepSeek-V2 的报告指标里,MLA+其它设计让KV cache下降 93.3%,并把最大生成吞吐提到5.76×(相对 DeepSeek 67B)arXiv。

你可以把它理解为:

  • MHA存 K/V 的维度 ≈(#heads × head_dim),token 越多,cache 线性变大。

  • GQA/MQA:减少KV 头数量,确实省 cache,但容易带来一定质量/表达能力损失(因为 KV 表达更“共享/粗糙”)。

  • MLA:不只是“少存几个 KV 头”,而是把 K/V先投影到一个低维 latent 空间存起来;用的时候再通过投影(或等价形式)参与注意力计算——目标是大幅省 cache,同时尽量不牺牲多头表达能力。这一点在“把 MHA 迁移到 MLA”的工作里也被强调:MLA相比 MHA/GQA 有显著成本劣势改善空间,且可以与 KV cache 量化叠加。arXiv

关键收益点(MLA 的“改进项”)

  1. 降低 decode 阶段的内存带宽压力(长上下文尤其明显)
    业界对 MLA 的硬件分析也指出:这种结构变化主要减少 KV-cache 尺寸,从而显著降低自回归解码阶段的内存带宽需求。arXiv

  2. 保留“多头”能力而不是简单把 KV 头数砍掉
    直觉上,MLA更像“用低秩/latent 的方式承载 K/V 信息”,而不是 MQA/GQA 那种直接共享 KV。DeepSeek 也把 MLA 作为 V2/V3 的“创新架构”核心之一。arXiv+1

  3. 对长上下文推理更友好(更像是‘省内存’而不是‘改注意力图’)
    它并不改变“每个 token 看哪些 token”的连接模式(注意力图仍然可以是 dense),所以不会像稀疏 Attention 那样引入“信息路径变长/需要更多层传递”的问题(下面会对比)。


2) MLA vs 典型稀疏 Attention:差异在“稀疏化的维度”完全不同

一句话
稀疏 Attention主要在token-to-token连接上做稀疏(让注意力矩阵变稀疏,降低计算/内存的 O(n2)O(n^2)O(n2))。
MLA主要在K/V 表示的通道/存储上做压缩(让 KV cache 变小,降低 decode 的内存带宽/显存占用)。arXiv+2arXiv+2

结构对比表(抓住本质)

机制“省在哪儿”注意力连接图复杂度主目标典型代价/风险代表工作
MLAKV cache 存储/带宽(把 KV 压到 latent)仍可 dense主要优化decode 内存带宽,长上下文更明显需要额外投影/实现复杂度;训练/迁移要处理 RoPE/低秩近似等细节DeepSeek-V2/V3arXiv+1;MHA→MLA迁移arXiv;硬件分析arXiv
Longformer(局部窗口+全局token)token 连接稀疏 → attention 计算更省稀疏:窗口 + 任务驱动全局把 O(n2)O(n^2)O(n2) 压到近线性全局 token 选择/任务依赖;信息跨远距离需靠全局或多层传递LongformerarXiv
BigBird(窗口+随机+全局)token 连接稀疏(块稀疏实现)稀疏:窗口 + 随机 + 全局近线性,并给出理论性质(通用逼近、图灵完备等)随机连接/模式超参;不同任务的最优稀疏图不一样BigBirdarXiv+1
Reformer(LSH attention)通过哈希把注意力限制在同桶(近似稀疏)数据相关稀疏(桶内)从 O(n2)O(n^2)O(n2) 到 O(nlog⁡n)O(n\log n)O(nlogn) 量级近似误差、桶碰撞;实现复杂Reformer(LSH)arXiv
Performer(线性注意力)用随机特征近似 softmax kernel不是稀疏图(是核近似)时间/空间线性近似方差/特征数超参;与 softmax attention 存在近似偏差PerformerarXiv+1
MQA/GQAKV 头更少 → KV cache 更省dense主要省 KV cache(但方式更“硬”)可能损失多头表达能力(KV 表示更共享)常见工程做法(MLA常拿它们作对比)arXiv

3) 更“对口”的结论:MLA 和稀疏 Attention 各自适合什么场景?

什么时候 MLA 更占优?

  • 你关心的是长上下文推理(decode)显存/带宽瓶颈,比如 64K/128K 上下文下的持续生成:KV cache 直接决定能跑多长、跑多快。DeepSeek-V2 报告里强调 MLA 带来的 KV cache 大幅下降与吞吐提升。arXiv

  • 你不想改“注意力看哪些 token”(保持 dense 的建模能力),而只是想把“存储/搬运”的成本打下来。

什么时候稀疏 Attention 更占优?

  • 你的主要瓶颈在 prefill(长提示一次性编码)或训练的 n2n^2n2:稀疏 attention 直接减少注意力矩阵计算量。Longformer/BigBird 明确就是为“长文档”把注意力做稀疏化。arXiv+1

  • 你能接受:连接图变稀疏后,跨远距离信息传递可能需要依赖全局token/随机边/更多层(这是稀疏图的经典权衡)。

重要提醒:MLA ≠ 稀疏 attention,它们是“正交”方向

  • 你甚至可以把它们看成可以叠加的两类优化:

    • 稀疏 attention:减少算什么(token 连接)

    • MLA:减少存什么/搬什么(KV cache 表示)arXiv+1


如果你愿意,我可以再把 MLA 的内部计算用更形式化的符号(latent 维度、投影矩阵、RoPE/partial-RoPE 的处理)写成 5–10 行推导,并对照说明为什么它对KV cache的下降是“结构性”的,而不是靠 quantization 这种“数值型压缩”。(需要的话我会尽量用不依赖 DeepSeek 私有实现的通用表述。)

qwen3 是怎么通过多阶段,达到超长文本 256k 或更多的。并且通过多阶段达到更好的效果。 baichuan M2 又是怎么在qwen3 基础上多阶段训练以至医疗提升的

已思考 40s

下面我分两块讲清楚:

  1. Qwen3 是怎么用“多阶段”把长上下文做到 256K / 更长,并且让效果更好

  2. Baichuan-M2 到底是不是基于 Qwen3?它又是怎么多阶段训练把医疗能力拉上去的(含关键 RL 分阶段)


1) Qwen3:多阶段把长上下文做到 256K(甚至更长)是怎么做的?

先给一个“结论式框架”:

长上下文几乎不可能只靠一次性把 max_length 拉到 256K 就训出来。更常见、更稳定的做法是:
先在较短长度(如 32K)把模型的语言/推理能力训扎实→ 再做“上下文扩展阶段”(progressive /staged context extension)专训长文档数据与长上下文任务 →最后在后训练阶段把“长上下文指令遵循/检索/跨段推理”对齐好

A. 明确“多阶段扩展”的公开证据(官方/一手)

  • Qwen3-VL 技术报告明确写了“两阶段”:先在32K上下文长度训练,然后扩展到256K,并且第二阶段聚焦长文档/长视频数据。arXiv+1
    这就是你说的“多阶段达到 256K 或更多”的典型模板。

  • **Qwen3-2507(文本/推理版本)**在官方 GitHub release 中写到:增强256K-token 长上下文理解,并且“可扩展到 100 万 token”。GitHub
    对应的 Hugging Face 模型卡也写了Context Length: 262,144 natively(即 256K 量级的原生支持)。Hugging Face

注意:Qwen3-2507 具体“训练时”是否也严格写成“32K→256K 两阶段”,官方 repo/模型卡不一定像 VL 报告那样把训练 phase 细节展开;但它至少明确了256K 原生上下文更长外推能力。GitHub+1


B. 为什么要多阶段?(“效果更好”的原因)

多阶段的核心目的是同时解决两类问题:

1) 训练稳定性与效率

如果你从头就用 256K:

  • 算力/显存成本爆炸(尤其 prefill)

  • 更容易出现优化不稳定(梯度噪声、loss spike、attention 数值问题)

  • 数据也不够“天然长”,会造成浪费

所以先用 32K 把基本能力训稳,再拉长,是一种“课程学习/渐进式扩展”的思路。Qwen3-VL 明确采用先 32K 再 256K 的阶段式训练,就是这个逻辑。arXiv+1

2) 长上下文并不是“能塞进去”就行,关键在“能用起来”

长上下文真正难的是:

  • 长距离信息保持(retention)

  • 跨段检索/引用(retrieval & cross-reference)

  • 长链路推理不丢线索(long-horizon reasoning)

因此在“扩展阶段”里通常会增加长文档任务比例(长文 summarization、跨章节 QA、needle-in-a-haystack、跨段对齐等),让模型学会“在长上下文里该看什么、怎么对齐证据”。

这也是 Qwen3-VL 在 256K 扩展阶段“聚焦长文档/长视频数据”的原因。arXiv+1


C. 256K 之后“更多”的一条常见路线:外推(inference-time scaling)

官方 release 提到“256K 并可扩到 1M”。GitHub
工程上常见做法是 RoPE scaling 家族(例如 YaRN)配合推理框架实现外推;但“能跑到 1M”与“1M 下效果稳”是两回事:效果要靠训练阶段真的见过足够的超长样本/超长任务分布,因此很多团队会把“原生 256K + 更长外推”作为组合策略。


2) Baichuan-M2:它不是“在 Qwen3 基础上”做的,而是基于 Qwen2.5-32B-Base

你这里有个关键信息需要纠正:

  • Baichuan-M2 论文里写得很明确:他们的 SFT 阶段是在Qwen2.5-32B-Base上训练(32K context,2 epochs)。arXiv

  • 论文脚注还提到:他们做过Qwen2.5-32B-Base vs Qwen3-32B的实验比较,最后选择从 base 开始以获得更好的训练稳定性、避免对齐模型带来的性能退化。arXiv

  • Baichuan 官方 GitHub repo 简介也写“基于 Qwen2.5-32B 基座”。GitHub

所以:Baichuan-M2 不是“基于 Qwen3”再多阶段训练出的医疗模型;它是Qwen2.5-32B-Base + 医疗领域一整套多阶段后训练(尤其是多阶段 RL)。arXiv+1


Baichuan-M2 的“多阶段”到底做了什么,为什么医疗能力提升大?

Baichuan-M2 的核心贡献不是“多喂医疗题库”,而是把医疗从“静态考试题”拉到更接近真实临床的 **动态交互+可验证强化学习(RLVR)**框架:

  • 他们构建了一个动态 verifier system

    • Patient Simulator:用脱敏病历/对话记录模拟真实患者与环境

    • Clinical Rubrics Generator:动态生成多维评分指标(诊断准确性、问诊逻辑、治疗合理性、沟通同理心、医疗伦理等)arXiv+1

训练流水线(论文明确写了这些阶段)
  1. 医疗领域适配的mid-training(domain adaptation

  2. SFT(带 rejection sampling):先把基础推理与医疗任务形态“训到位”,作为 RL 的稳定初始化arXiv

  3. 多阶段 RL(multi-stage reinforcement learning):把复杂的医疗能力拆成层级化、可控的阶段来逐步强化arXiv

三段式 RL(论文写得很清楚)

他们的 RL 分三段,每段目标不同:arXiv

  • (1)Rule-based RL:先用“有唯一答案/可规则验证”的任务,把基础推理、医学知识推理的“骨架”立起来(更像打底)。arXiv

  • (2) Rubric-based optimization:引入更结构化的临床评估标准,优化“医疗回答质量/临床表达”这类难以用唯一答案衡量的能力。arXiv

  • (3) Multi-turn training:专门训多轮动态问诊与临床交互能力(最贴近真实场景)。arXiv

他们还改了 GRPO(让 RL 更稳更能学)

论文列了几项关键修改:比如去掉 KL 项降低计算开销与约束非对称 clipping 防止熵过早塌缩长度归一化 loss等,用来提升多源医疗数据上的稳定性。arXiv

这套“多阶段 RL + 动态 verifier”的意义是:
不只让模型“背对答案”,而是让模型在模拟临床环境里学会怎么问、怎么推理、怎么解释、怎么权衡风险与伦理——这正是医疗场景里比 USMLE 刷分更关键的部分。arXiv+1


如果你希望我更“落地”一点,我可以按你的使用场景继续展开其中一个方向:

  • Qwen3 做 32K→256K 扩展阶段时,长文档训练数据/任务一般怎么配比(避免长文能力上去但短任务退化)

  • Baichuan-M2 三阶段 RL 每一阶段最适合用什么数据形态、奖励信号怎么设计(rule-based vs rubric-based vs multi-turn)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119513.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java BIO、NIO、AIO用法样例

1. BIO (Blocking I/O) - 同步阻塞 I/O BIO 是传统的网络编程模型,每个连接对应一个线程,当线程执行读/写操作时会被阻塞,直到数据就绪。 示例:BIO 服务器 import java.net.*; import java.io.*;public class BioServer {publi…

java垃圾收集 minorgc majargc fullgc

核心概念总览 这三种 GC 类型的本质区别在于回收的堆内存区域和触发原因。GC 类型别名回收区域触发原因特点Minor GCYoung GC只回收年轻代 (Eden Survivor)Eden 区空间不足非常频繁,速度通常很快,使用复制算法Major GCOld GC只回收老年代老年代空间不足…

基于RK3399Pro与RK3568的车载防撞方案:为货车泥头车安全护航

rk3399pro,rk3568,车载方案设计,4路AHD-1080P摄像头输入,防撞识别,助力货车泥头车安全运输!在货运行业中,货车与泥头车的安全运输至关重要。今天咱就聊聊基于RK3399Pro和RK3568芯片的车载方案设…

超详细逻辑回归解说

逻辑回归是用来做“分类”的模型(比如判断“是不是垃圾邮件”“病人有没有患病”“用户会不会点击广告”),而非回归。它的核心是:用“概率”的方式,把线性回归的输出(连续值)转化为“是/否”的分…

超声波传感器(HC-SR04)与Arduino Uno及Mixly使用

【结合AI智能体学习记录】一、(HC-SR04)超声波传感器工作原理:超声波传感器和蝙蝠的定位原理一致,核心是通过计算超声波往返时间来换算距离:1. 触发发射:模块的Trig引脚接收到高电平信号后,会自…

学霸同款2026TOP10AI论文网站:本科生毕业论文神器测评

学霸同款2026TOP10AI论文网站:本科生毕业论文神器测评 2026年学术写作工具测评:为何需要这份榜单? 随着人工智能技术的不断进步,AI论文网站逐渐成为高校学生和研究人员的重要辅助工具。然而,面对市场上琳琅满目的选择&…

react组件内添加一个全局点击时间,点击函数能区分是否是某个特定的id的dom触发的

在 React 组件内添加一个全局点击事件,并判断是否是某个特定 id 的 DOM 触发,可以这样实现: 实现思路 在组件 mount 时(useEffect),用 document.addEventListener 注册全局点击事件。回调函数中通过 event.…

.NET 某RFID标签打印客户端 崩溃分析

崩溃分析1. 为什么会崩溃双击打开dump,windbg会自动定位到崩溃的上下文,这一点我比较喜欢,有的时候也省去了用 !analyze -v 无趣的等待,参考输出如下:This dump file has an exception of interest stored in it. The …

游戏打不开、程序闪退怎么办?有效的DLL修复工具推荐,一键拯救你的电脑

“由于找不到MSVCP140.dll,无法继续执行代码。”“应用程序无法正常启动(0xc000007b)。”相信许多电脑用户都遇到过类似的弹窗警告,尤其是在运行新安装的游戏或专业软件时。这些令人头疼的问题,十有八九都指向同一个“元凶”——C运行库的缺失…

风光柴储多目标联合调度问题探索

风光柴储多目标联合调度问题 联合调度分析各部分消纳比例,目标各部分成本最小和排放最小。 约束各部荷电状态,功率平衡等等在当今能源转型的大背景下,风光柴储多目标联合调度成为了热门话题。这种联合调度旨在实现能源的高效利用,…

实体门店新纪元:从“单点AI尝试”到“系统智能体”的转型之路

近两年来,实体经营领域普遍感受到一种“矛盾现象”:技术在不断升级,设备在持续更新,AI话题也频繁出现在各类讨论中,然而,许多门店的经营压力并未因此减轻,反而呈现出更加复杂的挑战。客流获取成…

Oracle 高风险锁等待快速诊断手册

一、手册使用说明1.1 适用场景生产库出现会话阻塞、业务卡顿、事务超时监控工具(如OEM、Zabbix)告警“锁等待次数突增”“Concurrency等待占比超20%”出现高风险锁事件(如enq: CI - contention、enq: TX - allocate ITL entry)1.2…

从“经验驱动”到“系统智能”:实体门店经营的结构性升级

当前实体经营领域,普遍存在一个深层挑战:许多门店尽管在工具、设备乃至营销手段上不断更新,但其核心经营逻辑仍停留在较为传统的模式。获客依赖广告与促销,服务依靠人员经验与话术,客户离店后关系难以持续,…

UVM-phase中的object机制

在class uvm_phase extends uvm_object中1. 类的作用和结构这个类是 uvm_phase,它管理测试平台中阶段的 objection 机制。UVM 使用 objection 机制来控制仿真的执行时间,防止测试提前结束。核心成员:systemveriloguvm_objection phase_done; …

AI+IoT双轮驱动:构建风电设备预测性维护数字孪生体的全栈技术实践

凌晨三点,内蒙古某大型风电场运维主管王工接到SCADA系统告警:“#23风机异常停机”。他迅速调取振动频谱图,却发现数据杂乱无章——是主轴承即将失效?还是传感器松动导致误报?抑或只是电网波动引发的瞬时保护动作&#…

UE5 C++(7):

(31) (32) 谢谢

企业落地 ChatBI,如何构建可信可靠的数据底座?

在企业 ChatBI 落地过程中,数据底座的技术路线选择直接决定了数据可信度、维护成本和业务响应速度。传统宽表架构在数据口径一致性、维护成本和灵活性上已难以支撑企业级 ChatBI 的规模化应用,而基于 NoETL 明细语义层的方案正成为新一代数据底座的主流选…

亲测好用8个AI论文写作软件,本科生搞定论文不求人!

亲测好用8个AI论文写作软件,本科生搞定论文不求人! AI 工具如何让论文写作变得轻松高效 在当今这个信息爆炸的时代,本科生的论文写作任务日益繁重,尤其是在面对大量文献阅读、数据分析和文字表达时,许多同学都会感到力…

UE5 C++(6-2):描述角色 EndPlay 原因的枚举类 EEndPlayReason::Type,此命名空间里定义了一个枚举类。

(30)描述角色 EndPlay 原因的枚举类 EEndPlayReason::Type :(31) 谢谢