机器学习,K-近邻算法

K-近邻算法

  • k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。
  • 它的工作原理是:存在一个样本数据集(训练集),并且我们知道每一数据与目标变量的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相近的分类标签,一般来说,我们只选择样本集中前k个最相似的数据,通常k为不大于20的整数,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
  • K近邻算法思想和算法步骤
1
2
3
4
5
计算已知类别数据集中的点与当前点之间的距离;
按照距离递增次序排序;
选取与当前点距离最小的k个点;
确定前k个点所在类别的出现频率;
返回前k个点所出现频率最高的类别作为当前点的预测分类。
  • 经典举例根据电影镜头判断电影类别,电影6属于什么类型,就需要进行一算距离,二排序,三取值
电影名称 打斗镜头 接吻镜头 电影类型
电影1 3 102 爱情
电影2 4 105 爱情
电影3 10 200 爱情
电影4 200 10 动作
电影5 201 18 动作
电影6 38 39
  • K近邻的应用代码后续记录到github上