工厂模式是一种“对象创建”模式。它是为了在面向接口编程时,避免new object时对具体class的紧耦合的产物。典型的对象创建模式有工厂方法Factory Method, 抽象工厂Abstract Factory, Prototype, Builder.
AR模型选择&bound
这篇乱七八糟。想删了。
ms实习-指数平滑
指数平滑法是生产预测中常用的一种方法。也用于中短期经济发展趋势预测,所有预测方法中,指数平滑是用得最多的一种。
- 简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;
- 移动平均法则不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重;
- 而指数平滑法则兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。
也就是说指数平滑法是在移动平均法基础上发展起来的一种时间序列分析预测法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。
机器学习算法-sklearn GBDT 源码浅读
本次我们探究一下sk-learn的GBDT实现。
ms实习-总结
时间序列调研
单序列
平稳概念、平稳化处理(差分)、平稳性检验(ADF检验)、AR、MA、ARIMA
AR模型选择(AIC,BIC)
prediction bound
slider validation
EST原理、与AR比较
多序列
VAR、SVD、2DPCA、Matrix Estimation、TRMF
LSTM/CNN/GRU
多模型
header detection
简单特征+树模型
CRF
Heuristic Recognizer
面试问题
搜索引擎
爬虫url怎么查重?
搜索引擎禁用词怎么处理?多个词同时出现的禁用词呢?
排序指标都有什么?—— 准确率召回率,前10结果的相关比例;
给两个文章,如何衡量相似性?
除了欧式距离,还有什么距离?余弦距离有什么问题
搜索引擎中,词的命中率越高越好吗?——eg:北大分数线是多少? 要考虑:term weight, 紧密度
TF-IDF有哪些缺点?—— 罕见词、不考虑词顺序
机器学习
FM原理
SVM常见核函数?高斯核原理?
SVM正则化在哪?
GBDT并行在哪?—— 特征选择(计算每个特征的信息增益时,特征之间并行)
什么时候用交叉熵误差?—— 分类用交叉熵误差,回归用均方误差
AUC哪里好?—— 不会被抽样影响;对排序友好
哪些模型可以增量计算?——LR,GBDT,k-means,朴素贝叶斯可以;SVM不可以
算法
两个200G文件,每个文件每行都是string。求两个文件交集?—— 分桶建trie
其它
网络
如果你突然打不开百度,怎么办?——从网络五层分别考虑,网络请求过程扫盲:
网络请求的过程:你在浏览器地址框输入了域名并回车,然后通过DNS解析找到相应的IP地址;然后通过HTTP协议建立了链接,找到了目标服务器的位置;接着就是TCP三次握手建立可靠链接,发送数据,服务器处理数据,TCP四次挥手断开链接;最后浏览器根据返回的数据解析渲染呈现页面。
DNS -- 应用层 HTTP -- 应用层 TCP -- 传输层 IP、路由器 -- 网络层 网桥、交换机 -- 数据链路层 网关 -- 物理层
搜索引擎-ES引擎架构和原理
Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:
- 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。
- 实时分析的分布式搜索引擎。
- 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
操作系统-死锁
死锁是进程死锁的简称,是由Dijkstra于1965年研究银行家算法时首先提出来的。它是计算机系统乃至并发程序设计中最难处理的问题之一。 抛开语言,用一个例子来聊一聊死锁问题,聊一聊它是怎么产生的?应该怎么防止?
机器学习算法-LDA主题模型
基本概览
概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。
按照wiki上的介绍,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
LDA模型有一个前提,就是一篇文档生成的方式(注意是文档哦)如下:
- 从狄利克雷分布\(\alpha\)中取样生成文档i的主题分布\(\theta_i\)
- 从文档i的主题分布\(\theta_i\)中取样生成文档i第j个词的主题\(z_{i,j}\)
- 从狄利克雷分布\(\beta\)中取样生成主题\(z_{i,j}\)对应的词语分布\(\phi_{z_{i,j}}\)
- 从词语的多项式分布\(\phi_{z_{i,j}}\)中采样最终生成词语\(w_{i,j}\)
深度学习算法-网络优化
再不学深度学习,就真的跟不上了。