机器学习与深度学习理论基础

单选题

机器学习算法通常根据其学习范式进行分类。哪一项最准确地描述了机器学习的三种主要范式？B
A. 监督学习、无监督学习、深度学习
B. 监督学习、无监督学习、强化学习
C. 监督学习、半监督学习、自监督学习
D. 监督学习、特征工程、模型评估
在线性回归模型的训练过程中，梯度下降算法的核心目标是什么？A
A. 最小化模型在训练数据上的预测误差，通常通过最小化损失函数（如均方误差）来实现
B. 最大化模型参数的数量以提高模型复杂度
C. 确保所有特征对预测结果的贡献相同
D. 直接计算损失函数的全局最优解
K-means 算法是一种广泛应用的无监督学习算法，其主要目的是什么？B
A. 预测一个连续值输出
B. 将数据集划分为具有相似特征的 K 个不同的簇
C. 降低数据集的维度以便于可视化
D. 识别数据集中的异常点
在设计神经网络时，激活函数的引入至关重要，它们的主要作用是什么？B
A. 仅用于将神经元的输出限制在特定范围内
B. 为网络引入非线性，使其能够学习和表示复杂的模式和数据关系
C. 减少网络中的参数数量，防止过拟合
D. 加速网络的收敛速度，但不影响其表达能力
神经网络通过反向传播算法进行学习和参数调整。这个过程的核心机制是什么？B
A. 逐层计算网络输出，并将输入数据映射到预测结果
B. 从网络输出层开始，将误差逐层向后传播，并根据误差梯度更新网络权重
C. 随机初始化网络权重，以打破对称性
D. 在训练过程中动态增加或减少神经元数量
卷积神经网络（CNN）在图像处理任务中表现出色，其关键的组成部分“卷积层”主要功能是什么？C
A. 对输入特征图进行下采样，减少计算量
B. 引入非线性，增强模型的表达能力
C. 通过可学习的滤波器（卷积核）提取输入数据的局部特征，如边缘、纹理等
D. 将多维特征图展平为一维向量，以便输入到全连接层
深度残差网络（ResNet）通过引入“残差连接”（Skip Connections）有效地解决了什么问题？B
A. 显著减少了模型的参数数量
B. 使得非常深的网络也能有效训练，缓解了梯度消失和网络退化问题
C. 提高了模型对输入扰动的鲁棒性
D. 实现了模型并行化训练
长短期记忆网络（LSTM）是对传统循环神经网络（RNN）的重要改进，它主要解决了 RNN 在处理序列数据时的哪个核心问题？C
A. 难以处理可变长度的输入序列
B. 计算成本过高，训练时间过长
C. 难以捕捉和学习序列中的长期依赖关系，容易出现梯度消失或爆炸
D. 无法进行并行计算
Hugging Face Transformers 库对自然语言处理（NLP）领域产生了巨大影响，其主要贡献是什么？B
A. 开发了一种全新的、超越 Transformer 的神经网络架构
B. 提供了大量预训练的 Transformer 模型和便捷的 API，极大地简化了 SOTA 模型的应用和微调
C. 专注于提供高效的分布式训练硬件解决方案
D. 主要提供传统机器学习算法的实现
在深度学习模型训练中，AdamW 优化器相较于 Adam 优化器的主要改进点是什么？C
A. 引入了动量（Momentum）来加速梯度下降
B. 实现了对每个参数自适应调整学习率
C. 正确地实现了权重衰减（Weight Decay）与 L2 正则化的解耦，使其更符合原始 L2 正则化的意图，通常能带来更好的泛化性能
D. 显著减少了优化器的内存占用
当一个机器学习模型在训练数据上表现很好，但在未见过的测试数据上表现较差时，这种情况通常称为什么？B
A. 欠拟合 (Underfitting)
B. 过拟合 (Overfitting)
C. 高偏差 (High Bias)
D. 模型收敛
在机器学习中，“偏差 - 方差权衡”（Bias-Variance Tradeoff）是一个核心概念。一个具有高偏差（High Bias）的模型通常意味着什么？B
A. 模型对训练数据拟合得非常好，但在新数据上泛化能力差
B. 模型过于简单，未能捕捉到数据中的基本模式，导致在训练数据和测试数据上表现均不佳
C. 模型对训练数据的微小变化非常敏感
D. 模型参数过多，导致计算复杂
主成分分析（PCA）是一种常用的无监督学习技术，其主要目标是什么？C
A. 将数据点分配到预定义数量的簇中
B. 预测一个离散的类别标签
C. 通过线性变换将高维数据投影到低维空间，同时最大程度地保留原始数据的方差
D. 识别并移除数据集中的异常值
迁移学习（Transfer Learning）在深度学习中被广泛应用，其核心思想是什么？B
A. 从头开始训练一个全新的模型，不依赖任何已有知识
B. 将在一个任务上学到的知识（如特征、权重）应用于另一个相关但不同的任务，以提高学习效率和性能
C. 仅使用无标签数据进行模型训练
D. 专注于减少模型训练所需的计算资源
注意力机制（Attention Mechanism）在深度学习模型中（尤其是在 NLP 和计算机视觉领域）扮演了重要角色，其主要用途是什么？B
A. 显著降低模型训练所需的总计算量
B. 允许模型在处理输入序列或图像时，动态地将焦点放在与当前任务最相关的部分
C. 替代传统的激活函数，提供更好的非线性能力
D. 作为一种数据增强技术，扩充训练数据集

多选题

以下哪些属于监督学习的典型应用场景或任务？AB
A. 根据房屋的面积、位置等特征预测其价格
B. 将新闻文章自动分类到体育、政治、科技等类别
C. 根据用户的历史购买记录将其划分为不同的消费群体
D. 从大量未标记的图像中自动识别出不同的物体类别
以下哪些技术或概念与无监督学习密切相关？ACD
A. 聚类分析（如 K-means）
B. 决策树分类
C. 降维（如 PCA）
D. 图像中物体边缘检测（通常作为特征提取，可用于后续监督或无监督任务，但边缘检测本身可视为一种模式发现）
构成一个典型前馈神经网络（Feedforward Neural Network）的基本元素或过程包括哪些？ABCD
A. 输入层、隐藏层、输出层
B. 神经元之间的权重和偏置项
C. 每个神经元（除输入层外）的激活函数
D. 用于评估模型性能的损失函数和用于参数更新的优化算法
以下哪些是计算机视觉领域中经典的卷积神经网络（CNN）架构？AD
A. AlexNet
B. LSTM (长短期记忆网络)
C. ResNet (残差网络)
D. VGG (Visual Geometry Group Network)
在当前的深度学习实践中，哪些是主流的、被广泛使用的开源深度学习框架？AC
A. PyTorch
B. Scikit-learn (主要用于传统机器学习，但可与 DL 框架配合使用)
C. TensorFlow
D. Apache Spark (主要用于大数据处理，包含 MLlib，但非专为深度学习设计)

大模型发展全景与关键技术

单选题

Transformer 架构的提出，对自然语言处理领域产生了深远影响，其核心机制是什么？C
A. 循环神经网络 (RNN)
B. 卷积神经网络 (CNN)
C. 自注意力机制 (Self-Attention)
D. 梯度提升决策树 (GBDT)
在 Transformer 模型中，引入位置编码（Positional Encoding）的主要目的是什么？C
A. 增加模型的非线性表达能力
B. 解决梯度消失问题
C. 为模型提供序列中词语的顺序信息
D. 减少模型的参数数量
多头注意力（Multi-Head Attention）机制相比于单头注意力，其主要优势在于？B
A. 显著降低了计算复杂度
B. 能够让模型从不同角度、不同子空间学习信息并进行并行计算
C. 简化了模型的结构
D. 增强了模型处理长序列的能力
以下哪项是大语言模型（LLM）区别于传统机器学习模型最显著的特点之一？C
A. 仅能处理文本数据
B. 训练数据规模相对较小
C. 表现出“涌现能力”，如上下文学习和思维链推理
D. 必须依赖人工特征工程
“预训练 + 微调”（Pre-training + Fine-tuning）是大模型时代常见的训练范式，其中“预训练”阶段的主要目标是？B
A. 针对特定下游任务优化模型性能
B. 让模型从海量无标注或弱标注数据中学习通用的语言知识和模式
C. 降低模型在特定任务上的过拟合风险
D. 快速验证模型架构的有效性
在处理超长序列数据时，标准自注意力机制面临的主要挑战是什么？B
A. 难以捕捉局部依赖关系
B. 计算复杂度和内存消耗随序列长度呈平方级增长
C. 无法进行并行计算
D. 容易产生梯度爆炸
稀疏注意力（Sparse Attention）机制，如 Longformer 和 BigBird 中的设计，主要是为了解决什么问题？C
A. 提高模型对不同语言的翻译能力
B. 增强模型的可解释性
C. 降低处理长序列时的计算复杂度和内存占用
D. 提升模型生成文本的创造性
混合专家模型（MoE, Mixture of Experts）的核心思想是什么？B
A. 将多个不同架构的模型集成在一起
B. 通过门控网络（Gating Network）为每个输入动态选择一部分“专家”子网络进行处理，以扩大模型容量同时控制计算量
C. 让所有专家网络并行处理相同输入，然后对结果进行投票
D. 每个专家网络都针对一个完全不同的任务进行训练
模型量化（Quantization）是一种常见的模型压缩技术，其基本原理是？C
A. 移除模型中不重要的权重或连接
B. 将模型从一个大模型（教师模型）的知识迁移到小模型（学生模型）
C. 降低模型参数（权重和 / 或激活值）的数值表示精度，如从 FP32 转换为 INT8
D. 搜索更小、更高效的网络结构
知识蒸馏（Knowledge Distillation）的目标是？B
A. 提高模型训练数据的质量
B. 将一个大型、复杂的“教师模型”的知识迁移到一个更小、更高效的“学生模型”
C. 直接减少教师模型的参数量
D. 为模型参数添加噪声以增强鲁棒性
根据 AI 发展历史，Transformer 架构的诞生通常被认为是哪个阶段的关键成果？C
A. 弱人工智能阶段
B. 统计机器学习阶段
C. 深度学习阶段（并开启了大语言模型阶段）
D. 符号主义 AI 阶段
NNLM (Neural Network Language Model) 相比于传统的 N-Gram 模型，其主要创新在于？C
A. 引入了专家知识规则
B. 使用概率分布统计词频
C. 将语言模型问题从统计学方法转化为基于神经网络的目标函数优化问题，并引入了词向量的概念
D. 大幅提升了模型的并行计算能力
RoPE (Rotary Positional Encoding) 作为一种相对位置编码方法，相比于 Transformer 原始论文中的固定正余弦位置编码，其关键优势在于？B
A. 实现简单，计算量极小
B. 更好地支持模型对超长序列的外推能力和长文本的位置感知
C. 无需任何额外参数
D. 只能编码绝对位置信息
大模型的“涌现能力”（Emergent Abilities）通常在什么情况下开始显现？C
A. 模型参数规模较小，训练数据量少时
B. 模型采用特定激活函数时
C. 模型参数规模和训练数据量跨越某个“临界点”之后
D. 模型仅在特定任务上微调后
DeepSeekMoE 架构中提到的“细粒度专家分割”和“设备限制路由”等设计，主要目标是？C
A. 提升模型的多语言处理能力
B. 增强模型的视觉理解能力
C. 进一步优化 MoE 模型的训练和推理效率，提升专家专业化能力并降低通信开销
D. 简化模型的部署流程

多选题

以下哪些是大模型相比于传统机器学习模型的主要差异点？ABCD
A. 参数规模和训练数据量远超传统模型
B. 训练范式普遍采用“预训练 + 微调 / 指令跟随”
C. 往往展现出更强的泛化能力和“涌现能力”
D. 开发和使用上更依赖“提示工程”（Prompt Engineering）
E. 对算力的要求通常较低
Transformer 架构的关键组成部分包括哪些？ABCD
A. 自注意力机制 (Self-Attention)
B. 多头注意力机制 (Multi-Head Attention)
C. 位置编码 (Positional Encoding)
D. 前馈神经网络 (Feed Forward Network)
E. 循环连接 (Recurrent Connections)
混合专家模型（MoE）能够带来的潜在好处包括？ABCE
A. 在保持或提升性能的同时，显著增加模型总参数量
B. 在推理时，每个输入 token 只需要激活一部分专家，从而降低实际计算量
C. 允许模型学习到更专门化的知识（每个专家可能关注不同方面）
D. 训练成本和复杂度一定低于同等参数规模的稠密模型
E. 天然适合并行化训练和推理
模型压缩与加速技术主要为了解决大模型的哪些挑战？ABE
A. 模型体积过大，难以在资源受限设备上部署
B. 推理延迟高，影响用户体验
C. 训练成本过高
D. 训练数据量不足
E. 推理能耗大，运行成本高
以下哪些技术属于模型压缩与加速的范畴？ABC
A. 模型量化 (Quantization)
B. 知识蒸馏 (Knowledge Distillation)
C. 模型剪枝 (Pruning)
D. 数据增强 (Data Augmentation)
E. 学习率调度 (Learning Rate Scheduling)