nowcoder(nowcoder搜题)

nowcoder(nowcoder搜题)p id 3582PD4D strong 13 本七月在线内部电子书在文末 自取 strong br p p id 3582PD4G strong 公众号福利 strong p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p id="3582PD4D"><strong>13本七月在线内部电子书在文末,自取~</strong><br/></p><p id="3582PD4G"><strong>公众号福利</strong></p><p id="3582PD4H">回复【<strong>100题</strong>】领取《名企AI面试100题》PDF</p><p id="3582PD4I">回复【<strong>干货资料</strong>】领取NLP、CV、ML、大模型等方向干货资料</p><p id="3582PD4L"><strong>问</strong><strong><strong>题</strong>1、fasttext原理,层次softmax,树构造</strong></p><p id="3582PD4M">FastText是Facebook AI Research(FAIR)提出的一种文本表示方法。其核心思想是将词看作字符n-grams的集合,因此能够捕捉词内的形态信息。FastText能够有效处理未登录词(即在训练集中未出现的词)。</p><p id="3582PD4N">层次Softmax:在传统Softmax中,输出层的计算复杂度随着类别数的增加而线性增长。层次Softmax通过构建二叉树,将输出类别组织成层次结构,只需在树中进行路径遍历,大大降低计算复杂度。具体步骤包括:</p><p><ul><li id="3582PD7H"></p><p id="3582PD4O">将所有类别组织成二叉树,每个叶子节点代表一个类别。</p><p></li><li id="3582PD7I"></p><p id="3582PD4P">使用哈夫曼编码等方法构建树,以降低高频类别的深度。</p><p></li><li id="3582PD7J"></p><p id="3582PD4Q">预测类别时,通过遍历树的路径来计算Softmax值,降低计算量。</p><p></li></ul></p><p id="3582PD4R">树构造:通常使用哈夫曼树构造层次Softmax。在训练过程中,频率高的词被放置在树的上部,频率低的词则在下部,这样可以提高常用词的预测效率。</p><p id="3582PD4S"><strong>问</strong><strong><strong>题</strong>2、mapreduce 原理和阶段</strong></p><p id="3582PD4T">MapReduce是一种编程模型,用于处理和生成大规模数据集。其工作流程主要分为两个阶段:</p><p id="3582PD4U">Map阶段:</p><p><ol><li id="3582PD7K"></p><p id="3582PD4V">输入数据被分割成多个片段,分配给不同的Map任务。</p><p></li><li id="3582PD7L"></p><p id="3582PD50">每个Map任务读取输入数据,并对数据进行处理,生成键值对(key-value pairs)。</p><p></li></ol></p><p id="3582PD51">Shuffle和Reduce阶段:</p><p><ol><li id="3582PD7M"></p><p id="3582PD52">Shuffle:将Map任务生成的键值对进行排序和分组,相同的键会被分到同一个Reduce任务。</p><p></li><li id="3582PD7N"></p><p id="3582PD53">Reduce阶段:Reduce任务接收相同键的所有值,进行合并、聚合等处理,输出最终结果。</p><p></li></ol></p><p id="3582PD54"><strong>问</strong><strong><strong>题</strong>3、minhash原理,LSH实现</strong></p><p id="3582PD55">MinHash是一种用于估计集合相似度的技术,特别适用于大规模数据集。其基本原理如下:MinHash通过对集合进行哈希处理,生成多个哈希值,并选取最小哈希值作为该集合的特征。多个哈希函数可以生成一组特征,从而形成一个签名。</p><p id="3582PD56">LSH(局部敏感哈希):基于MinHash实现的技术,通过将相似的对象映射到同一桶中来加速相似度查询。步骤包括:</p><p><ul><li id="3582PD7O"></p><p id="3582PD57">使用MinHash生成对象签名。</p><p></li><li id="3582PD7P"></p><p id="3582PD58">将签名分成多个“桶”,在每个桶内查找相似对象。</p><p></li><li id="3582PD7Q"></p><p id="3582PD59">通过减少比较次数,提升效率。</p><p></li></ul></p><p id="3582PD5A"><strong>问</strong><strong><strong>题</strong>4、sentence-bert原理</strong></p><p id="3582PD5B">Sentence-BERT是一个用于句子相似度计算的模型,基于BERT模型进行扩展。其主要原理如下:</p><p><ul><li id="3582PD7R"></p><p id="3582PD5C">使用BERT提取句子的上下文信息。</p><p></li><li id="3582PD7S"></p><p id="3582PD5D">通过双塔结构(Siamese Network),对两个输入句子分别进行编码,得到固定长度的向量表示。</p><p></li><li id="3582PD7T"></p><p id="3582PD5E">利用这些向量进行相似度计算,通常使用余弦相似度等度量方法。</p><p></li></ul></p><p id="3582PD5F"><strong>问</strong><strong><strong>题5、BERT原理、维度、词表大小,模型结构、位置编码类型</strong></strong></p><p id="3582PD5G">BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,其核心原理如下:</p><p><ul><li id="3582PD7U"></p><p id="3582PD5H">原理:使用Transformer架构的编码器部分,基于大规模文本进行双向训练,可以捕捉上下文信息。</p><p></li><li id="3582PD7V"></p><p id="3582PD5I">维度:BERT-base的隐层维度为768,BERT-large为1024。</p><p></li><li id="3582PD80"></p><p id="3582PD5J">词表大小:通常为30,000个词。</p><p></li><li id="3582PD81"></p><p id="3582PD5K">模型结构:包括多层Transformer编码器,BERT-base有12层,BERT-large有24层。</p><p></li><li id="3582PD82"></p><p id="3582PD5L">位置编码类型:使用正弦和余弦函数生成的位置编码,以表示词语在句子中的位置。</p><p></li></ul></p><p id="3582PD5M"><strong>问</strong><strong><strong>题6、precesion、recall、AUC指标和应用场景</strong></strong></p><p id="3582PD5N">Precision(精确率):真正例占所有预测为正例的比例。高精确率表示模型在预测为正例时较为准确。</p><p id="3582PD5O">Recall(召回率):真正例占所有实际正例的比例。高召回率表示模型能够捕捉到大多数正例。</p><p id="3582PD5R">AUC(曲线下面积):ROC曲线下的面积,AUC值越接近1表示模型性能越好。AUC常用于二分类模型的性能评估,尤其在类不平衡时。应用场景:</p><p><ul><li id="3582PD83"></p><p id="3582PD5S">Precision和Recall常用于信息检索、医疗诊断等需要权衡正确性和完整性的场景。</p><p></li><li id="3582PD84"></p><p id="3582PD5T">AUC适用于分类任务,特别是在样本不平衡或需要评估分类器的整体性能时。</p><p></li></ul></p><p id="3582PD5U"><strong>问</strong><strong><strong>题</strong>7、LR、随机森林、GBDT的区别</strong></p><p id="3582PD5V"><strong>逻辑回归(Logistic Regression, LR):</strong></p><p><ul><li id="3582PD85"></p><p id="3582PD60">类型:线性模型,用于二分类任务。</p><p></li><li id="3582PD86"></p><p id="3582PD61">原理:通过逻辑函数(sigmoid)将线性组合的输入转换为概率值。模型输出的是某一类别的概率,通常通过阈值(如0.5)进行分类。</p><p></li><li id="3582PD87"></p><p id="3582PD62">优点:简单易解释、计算效率高,适合线性可分的数据。</p><p></li><li id="3582PD88"></p><p id="3582PD63">缺点:对异常值敏感,无法捕捉复杂的非线性关系。</p><p></li></ul></p><p id="3582PD64"><strong>随机森林(Random Forest, RF):</strong></p><p><ul><li id="3582PD89"></p><p id="3582PD65">类型:集成学习方法,基于决策树的集合。</p><p></li><li id="3582PD8A"></p><p id="3582PD66">原理:通过构建多棵决策树(每棵树使用不同的样本和特征子集)来进行分类或回归。最终的输出通过投票(分类)或平均(回归)获得。</p><p></li><li id="3582PD8B"></p><p id="3582PD67">优点:能够处理高维特征、抗过拟合能力强、对缺失值不敏感。</p><p></li><li id="3582PD8C"></p><p id="3582PD68">缺点:模型复杂,不易解释,训练和预测时间较长。</p><p></li></ul></p><p id="3582PD69"><strong>梯度提升树(Gradient Boosting Decision Trees, GBDT):</strong></p><p><ul><li id="3582PD8D"></p><p id="3582PD6A">类型:集成学习方法,基于决策树的Boosting模型。</p><p></li><li id="3582PD8E"></p><p id="3582PD6B">原理:逐步构建决策树,每棵树都是在前一棵树的基础上,通过最小化损失函数来优化模型。每棵新树关注上一次树的错误(残差)。</p><p></li><li id="3582PD8F"></p><p id="3582PD6C">优点:高效、准确性高,能处理非线性问题,并且通常能提供较好的性能。</p><p></li><li id="3582PD8G"></p><p id="3582PD6D">缺点:训练时间较长,易于过拟合,需进行参数调优。</p><p></li></ul></p><p id="3582PD6E"><strong>问</strong><strong><strong>题</strong>8、word2vec原理</strong></p><p id="3582PD6F"><strong>Word2Vec</strong>是由Google提出的一种将词映射为向量的技术,其核心目标是捕捉词的语义关系。Word2Vec的实现主要有两种模型:Skip-gram和CBOW(Continuous Bag of Words)。</p><p><ul><li id="3582PD8H"></p><p id="3582PD6G"><strong>Skip-gram模型</strong>:通过当前词预测上下文词。给定一个词,模型试图预测在其周围的上下文词。</p><p></li><li style="list-style: none; display: inline"><ul><li id="3582PD8I"></p><p id="3582PD6H">输入层:当前词的独热编码。</p><p></li><li id="3582PD8J"></p><p id="3582PD6I">输出层:预测上下文词的概率分布。</p><p></li></ul></li><li id="3582PD8K"></p><p id="3582PD6J"><strong>CBOW模型</strong>:通过上下文词预测当前词。给定上下文的词,模型试图预测当前词。</p><p></li><li style="list-style: none; display: inline"><ul><li id="3582PD8L"></p><p id="3582PD6K">输入层:上下文词的独热编码(通常是多个词)。</p><p></li><li id="3582PD8M"></p><p id="3582PD6L">输出层:预测当前词的概率分布。</p><p></li></ul></li></ul></p><p id="3582PD6M"><strong>训练过程:</strong></p><p><ul><li id="3582PD8N"></p><p id="3582PD6N">Word2Vec使用负采样(Negative Sampling)或层次Softmax来加速训练和减少计算复杂度。</p><p></li><li id="3582PD8O"></p><p id="3582PD6O">通过最大化预测概率的方式,训练过程中更新词向量,使得在高维空间中,语义相似的词的向量距离较近。</p><p></li><li style="list-style: none; display: inline"></p><p id="3582PD71"><strong>↓以下13本书电子版免费领,直接送↓</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fc29081b2j00smha84000kd200g40053g00hc005g.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fdf5e7822j00smha84003dd200p0018gg00hc00ut.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fdbcf6ff4j00smha85003dd200p0018gg00hc00ut.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3582PD7B"><strong>扫码回复【999】免费领13本电子书</strong></p><p id="3582PD7D"><strong>(</strong><strong>或找七月在线其他老师领取</strong><strong>)</strong></p><p><br/></li></ul><br/></p> 

讯享网
小讯
上一篇 2025-05-31 09:41
下一篇 2025-04-21 07:16

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/165947.html