nowcoder（nowcoder搜题）

大家好，我是讯享网，很高兴认识大家。
 <p id="3582PD4D"><strong>13本七月在线内部电子书在文末，自取~</strong><br/></p><p id="3582PD4G"><strong>公众号福利</strong></p><p id="3582PD4H">回复【<strong>100题</strong>】领取《名企AI面试100题》PDF</p><p id="3582PD4I">回复【<strong>干货资料</strong>】领取NLP、CV、ML、大模型等方向干货资料</p><p id="3582PD4L"><strong>问</strong><strong><strong>题</strong>1、fasttext原理，层次softmax，树构造</strong></p><p id="3582PD4M">FastText是Facebook AI Research（FAIR）提出的一种文本表示方法。其核心思想是将词看作字符n-grams的集合，因此能够捕捉词内的形态信息。FastText能够有效处理未登录词（即在训练集中未出现的词）。</p><p id="3582PD4N">层次Softmax：在传统Softmax中，输出层的计算复杂度随着类别数的增加而线性增长。层次Softmax通过构建二叉树，将输出类别组织成层次结构，只需在树中进行路径遍历，大大降低计算复杂度。具体步骤包括：</p><p><ul><li id="3582PD7H"></p><p id="3582PD4O">将所有类别组织成二叉树，每个叶子节点代表一个类别。</p><p></li><li id="3582PD7I"></p><p id="3582PD4P">使用哈夫曼编码等方法构建树，以降低高频类别的深度。</p><p></li><li id="3582PD7J"></p><p id="3582PD4Q">预测类别时，通过遍历树的路径来计算Softmax值，降低计算量。</p><p></li></ul></p><p id="3582PD4R">树构造：通常使用哈夫曼树构造层次Softmax。在训练过程中，频率高的词被放置在树的上部，频率低的词则在下部，这样可以提高常用词的预测效率。</p><p id="3582PD4S"><strong>问</strong><strong><strong>题</strong>2、mapreduce 原理和阶段</strong></p><p id="3582PD4T">MapReduce是一种编程模型，用于处理和生成大规模数据集。其工作流程主要分为两个阶段：</p><p id="3582PD4U">Map阶段：</p><p><ol><li id="3582PD7K"></p><p id="3582PD4V">输入数据被分割成多个片段，分配给不同的Map任务。</p><p></li><li id="3582PD7L"></p><p id="3582PD50">每个Map任务读取输入数据，并对数据进行处理，生成键值对（key-value pairs）。</p><p></li></ol></p><p id="3582PD51">Shuffle和Reduce阶段：</p><p><ol><li id="3582PD7M"></p><p id="3582PD52">Shuffle：将Map任务生成的键值对进行排序和分组，相同的键会被分到同一个Reduce任务。</p><p></li><li id="3582PD7N"></p><p id="3582PD53">Reduce阶段：Reduce任务接收相同键的所有值，进行合并、聚合等处理，输出最终结果。</p><p></li></ol></p><p id="3582PD54"><strong>问</strong><strong><strong>题</strong>3、minhash原理，LSH实现</strong></p><p id="3582PD55">MinHash是一种用于估计集合相似度的技术，特别适用于大规模数据集。其基本原理如下：MinHash通过对集合进行哈希处理，生成多个哈希值，并选取最小哈希值作为该集合的特征。多个哈希函数可以生成一组特征，从而形成一个签名。</p><p id="3582PD56">LSH（局部敏感哈希）：基于MinHash实现的技术，通过将相似的对象映射到同一桶中来加速相似度查询。步骤包括：</p><p><ul><li id="3582PD7O"></p><p id="3582PD57">使用MinHash生成对象签名。</p><p></li><li id="3582PD7P"></p><p id="3582PD58">将签名分成多个“桶”，在每个桶内查找相似对象。</p><p></li><li id="3582PD7Q"></p><p id="3582PD59">通过减少比较次数，提升效率。</p><p></li></ul></p><p id="3582PD5A"><strong>问</strong><strong><strong>题</strong>4、sentence-bert原理</strong></p><p id="3582PD5B">Sentence-BERT是一个用于句子相似度计算的模型，基于BERT模型进行扩展。其主要原理如下：</p><p><ul><li id="3582PD7R"></p><p id="3582PD5C">使用BERT提取句子的上下文信息。</p><p></li><li id="3582PD7S"></p><p id="3582PD5D">通过双塔结构（Siamese Network），对两个输入句子分别进行编码，得到固定长度的向量表示。</p><p></li><li id="3582PD7T"></p><p id="3582PD5E">利用这些向量进行相似度计算，通常使用余弦相似度等度量方法。</p><p></li></ul></p><p id="3582PD5F"><strong>问</strong><strong><strong>题5、BERT原理、维度、词表大小，模型结构、位置编码类型</strong></strong></p><p id="3582PD5G">BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的语言模型，其核心原理如下：</p><p><ul><li id="3582PD7U"></p><p id="3582PD5H">原理：使用Transformer架构的编码器部分，基于大规模文本进行双向训练，可以捕捉上下文信息。</p><p></li><li id="3582PD7V"></p><p id="3582PD5I">维度：BERT-base的隐层维度为768，BERT-large为1024。</p><p></li><li id="3582PD80"></p><p id="3582PD5J">词表大小：通常为30,000个词。</p><p></li><li id="3582PD81"></p><p id="3582PD5K">模型结构：包括多层Transformer编码器，BERT-base有12层，BERT-large有24层。</p><p></li><li id="3582PD82"></p><p id="3582PD5L">位置编码类型：使用正弦和余弦函数生成的位置编码，以表示词语在句子中的位置。</p><p></li></ul></p><p id="3582PD5M"><strong>问</strong><strong><strong>题6、precesion、recall、AUC指标和应用场景</strong></strong></p><p id="3582PD5N">Precision（精确率）：真正例占所有预测为正例的比例。高精确率表示模型在预测为正例时较为准确。</p><p id="3582PD5O">Recall（召回率）：真正例占所有实际正例的比例。高召回率表示模型能够捕捉到大多数正例。</p><p id="3582PD5R">AUC（曲线下面积）：ROC曲线下的面积，AUC值越接近1表示模型性能越好。AUC常用于二分类模型的性能评估，尤其在类不平衡时。应用场景：</p><p><ul><li id="3582PD83"></p><p id="3582PD5S">Precision和Recall常用于信息检索、医疗诊断等需要权衡正确性和完整性的场景。</p><p></li><li id="3582PD84"></p><p id="3582PD5T">AUC适用于分类任务，特别是在样本不平衡或需要评估分类器的整体性能时。</p><p></li></ul></p><p id="3582PD5U"><strong>问</strong><strong><strong>题</strong>7、LR、随机森林、GBDT的区别</strong></p><p id="3582PD5V"><strong>逻辑回归（Logistic Regression, LR）：</strong></p><p><ul><li id="3582PD85"></p><p id="3582PD60">类型：线性模型，用于二分类任务。</p><p></li><li id="3582PD86"></p><p id="3582PD61">原理：通过逻辑函数（sigmoid）将线性组合的输入转换为概率值。模型输出的是某一类别的概率，通常通过阈值（如0.5）进行分类。</p><p></li><li id="3582PD87"></p><p id="3582PD62">优点：简单易解释、计算效率高，适合线性可分的数据。</p><p></li><li id="3582PD88"></p><p id="3582PD63">缺点：对异常值敏感，无法捕捉复杂的非线性关系。</p><p></li></ul></p><p id="3582PD64"><strong>随机森林（Random Forest, RF）：</strong></p><p><ul><li id="3582PD89"></p><p id="3582PD65">类型：集成学习方法，基于决策树的集合。</p><p></li><li id="3582PD8A"></p><p id="3582PD66">原理：通过构建多棵决策树（每棵树使用不同的样本和特征子集）来进行分类或回归。最终的输出通过投票（分类）或平均（回归）获得。</p><p></li><li id="3582PD8B"></p><p id="3582PD67">优点：能够处理高维特征、抗过拟合能力强、对缺失值不敏感。</p><p></li><li id="3582PD8C"></p><p id="3582PD68">缺点：模型复杂，不易解释，训练和预测时间较长。</p><p></li></ul></p><p id="3582PD69"><strong>梯度提升树（Gradient Boosting Decision Trees, GBDT）：</strong></p><p><ul><li id="3582PD8D"></p><p id="3582PD6A">类型：集成学习方法，基于决策树的Boosting模型。</p><p></li><li id="3582PD8E"></p><p id="3582PD6B">原理：逐步构建决策树，每棵树都是在前一棵树的基础上，通过最小化损失函数来优化模型。每棵新树关注上一次树的错误（残差）。</p><p></li><li id="3582PD8F"></p><p id="3582PD6C">优点：高效、准确性高，能处理非线性问题，并且通常能提供较好的性能。</p><p></li><li id="3582PD8G"></p><p id="3582PD6D">缺点：训练时间较长，易于过拟合，需进行参数调优。</p><p></li></ul></p><p id="3582PD6E"><strong>问</strong><strong><strong>题</strong>8、word2vec原理</strong></p><p id="3582PD6F"><strong>Word2Vec</strong>是由Google提出的一种将词映射为向量的技术，其核心目标是捕捉词的语义关系。Word2Vec的实现主要有两种模型：Skip-gram和CBOW（Continuous Bag of Words）。</p><p><ul><li id="3582PD8H"></p><p id="3582PD6G"><strong>Skip-gram模型</strong>：通过当前词预测上下文词。给定一个词，模型试图预测在其周围的上下文词。</p><p></li><li style="list-style: none; display: inline"><ul><li id="3582PD8I"></p><p id="3582PD6H">输入层：当前词的独热编码。</p><p></li><li id="3582PD8J"></p><p id="3582PD6I">输出层：预测上下文词的概率分布。</p><p></li></ul></li><li id="3582PD8K"></p><p id="3582PD6J"><strong>CBOW模型</strong>：通过上下文词预测当前词。给定上下文的词，模型试图预测当前词。</p><p></li><li style="list-style: none; display: inline"><ul><li id="3582PD8L"></p><p id="3582PD6K">输入层：上下文词的独热编码（通常是多个词）。</p><p></li><li id="3582PD8M"></p><p id="3582PD6L">输出层：预测当前词的概率分布。</p><p></li></ul></li></ul></p><p id="3582PD6M"><strong>训练过程：</strong></p><p><ul><li id="3582PD8N"></p><p id="3582PD6N">Word2Vec使用负采样（Negative Sampling）或层次Softmax来加速训练和减少计算复杂度。</p><p></li><li id="3582PD8O"></p><p id="3582PD6O">通过最大化预测概率的方式，训练过程中更新词向量，使得在高维空间中，语义相似的词的向量距离较近。</p><p></li><li style="list-style: none; display: inline"></p><p id="3582PD71"><strong>↓以下13本书电子版免费领，直接送↓</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fc29081b2j00smha84000kd200g40053g00hc005g.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fdf5e7822j00smha84003dd200p0018gg00hc00ut.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fdbcf6ff4j00smha85003dd200p0018gg00hc00ut.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3582PD7B"><strong>扫码回复【999】免费领13本电子书</strong></p><p id="3582PD7D"><strong>（</strong><strong>或找七月在线其他老师领取</strong><strong>）</strong></p><p><br/></li></ul><br/></p>
讯享网
nowcoder（nowcoder搜题）

相关推荐