甲乙小朋友的房子

甲乙小朋友很笨,但甲乙小朋友不会放弃

0%

面试问题

搜索引擎

爬虫url怎么查重?

搜索引擎禁用词怎么处理?多个词同时出现的禁用词呢?

排序指标都有什么?—— 准确率召回率,前10结果的相关比例;

给两个文章,如何衡量相似性?

除了欧式距离,还有什么距离?余弦距离有什么问题

搜索引擎中,词的命中率越高越好吗?——eg:北大分数线是多少? 要考虑:term weight, 紧密度

TF-IDF有哪些缺点?—— 罕见词、不考虑词顺序

机器学习

FM原理

SVM常见核函数?高斯核原理?

SVM正则化在哪?

GBDT并行在哪?—— 特征选择(计算每个特征的信息增益时,特征之间并行)

什么时候用交叉熵误差?—— 分类用交叉熵误差,回归用均方误差

AUC哪里好?—— 不会被抽样影响;对排序友好

哪些模型可以增量计算?——LR,GBDT,k-means,朴素贝叶斯可以;SVM不可以

算法

两个200G文件,每个文件每行都是string。求两个文件交集?—— 分桶建trie

其它

网络

如果你突然打不开百度,怎么办?——从网络五层分别考虑,网络请求过程扫盲

网络请求的过程:你在浏览器地址框输入了域名并回车,然后通过DNS解析找到相应的IP地址;然后通过HTTP协议建立了链接,找到了目标服务器的位置;接着就是TCP三次握手建立可靠链接,发送数据,服务器处理数据TCP四次挥手断开链接;最后浏览器根据返回的数据解析渲染呈现页面

DNS -- 应用层 HTTP -- 应用层 TCP -- 传输层 IP、路由器 -- 网络层 网桥、交换机 -- 数据链路层 网关 -- 物理层