K-近邻算法
- k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。
- 它的工作原理是:存在一个样本数据集(训练集),并且我们知道每一数据与目标变量的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相近的分类标签,一般来说,我们只选择样本集中前k个最相似的数据,通常k为不大于20的整数,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
- K近邻算法思想和算法步骤
1 | 计算已知类别数据集中的点与当前点之间的距离; |
- 经典举例根据电影镜头判断电影类别,电影6属于什么类型,就需要进行一算距离,二排序,三取值
电影名称 | 打斗镜头 | 接吻镜头 | 电影类型 |
---|---|---|---|
电影1 | 3 | 102 | 爱情 |
电影2 | 4 | 105 | 爱情 |
电影3 | 10 | 200 | 爱情 |
电影4 | 200 | 10 | 动作 |
电影5 | 201 | 18 | 动作 |
电影6 | 38 | 39 | ? |
- K近邻的应用代码后续记录到github上