Python机器学习之KNN近邻算法


Posted in Python onMay 14, 2021

一、KNN概述

简单来说,K-近邻算法采用测量不同特征值之间的距离方法进行分类

优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称2型

工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系(训练集)。输入没有标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签(测试集)。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处。(通常k不大于20)

二、使用Python导入数据

我们先写入一段代码

from numpy import *		# 导入numpy模块
import operator		# 导入operator模块
def createDataSet():		# 创建数据集函数
	# 构建一个数组存放特征值
    group = array(
        [[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]
    )
    # 构建一个数组存放目标值
    labels = ['A', 'A', 'B', 'B']
    return group, labels

此处稍微介绍一下numpy这个包吧

三、numpy.array()

NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。
在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank,但是和线性代数中的秩不是一样的,在用python求线代中的秩中,我们用numpy包中的linalg.matrix_rank方法计算矩阵的秩
线性代数中秩的定义:设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在的话)全等于0,那末D称为矩阵A的最高阶非零子式,数r称为矩阵A的秩,记作R(A)。

四、实施KNN分类算法

依照KNN算法,我们依次来

先准备好四个需要的数据

  • inX:用于分类的输入向量inX
  • dataSet:输入的训练样本集dataSet
  • labels:标签向量labels(元素数目和矩阵dataSet的行数相同)
  • k:选择最近邻居的数目

五、计算已知类别数据集中的点与当前点之间的距离

使用欧式距离:

Python机器学习之KNN近邻算法

六、完整代码

# 返回矩阵的行数
dataSetSize = dataSet.shape[0]	
# 列数不变,行数变成dataSetSize列
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5

第一行

# 返回矩阵的行数
dataSetSize = dataSet.shape[0]	
# 以第一步的数据为例
answer:4		# 4行

第二行

inX = [1. , 0.]
# 列数不变,行数变成dataSetSize列
diffMat = tile(inX, (dataSetSize, 1)) - dataSet

# tile(inX, (dataSetSize, 1))
inX = [
	[1. , 0.],
	[1. , 0.],
	[1. , 0.],
	[1. , 0.]
]
# inX - dataSet两个矩阵相减(行列相等相加相减才有意义)
dataSet = [
		[1. , 1.1],
        [1. , 1. ],
        [0. , 0. ],
        [0. , 0.1]
]
diffMat = [
	[0. , -1.1],
	[0. , -1.],
	[1. , 0.],
	[1. , -0.1]
]

第三行

# 求平方差
sqDiffMat = diffMat * 2

第四行

# 计算矩阵中每一行元素之和
# 此时会形成一个多行1列的矩阵
sqDistances = sqDiffMat.sum(axis=1)

第五行

# 开根号
distances = sqDistances**0.5

按照距离递增次序排序

# 对数组进行排序
sortedDistIndicies = distances.argsort()

选择与当前点距离最小的k个点

classCount = {}		# 新建一个字典
# 确定前k个距离最小元素所在的主要分类
for i in range(k):
	# voteIlabel的取值是labels中sortedDistIndicies[i]的位置
	voteIlabel = labels[sortedDistIndicies[i]]
	classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

确定前k个点所在类别的出现概率

# 排序
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

###11# 返回前k个点出现频率最高的类别作为当前点的预测分类

return sortedClassCount[0][0]

刚刚试一试C++的版本…小心,救命

#include <iostream>
#include <vector>
#include <algorithm>
#include <cmath>
#include <map>
int sum_vector(std::vector<int>& v) {
	int sum = 0;
	for (int i = 0; i < v.size(); ++i) {
		sum = v[i] + sum;
	}
	return sum;
}
int knn(int k) {
	using std::cout;
	using std::endl;
	using std::vector;
	vector<vector<int>> x;	
	vector<int> x_sample = {2, 3, 4};	
	for (int i = 0; i < 4; ++i) {
		x.push_back(x_sample);
	}
	vector<int> y = {1, 1, 1, 1};
	int dataSetSize = x.size();		

	vector<int> x_test = {4, 3, 4};
	vector<vector<int>> x_test_matrix;
	for (int i = 0; i < dataSetSize; ++i) {
		x_test_matrix.push_back(x_test);
	}
	vector<int> v_total;
	for (int i = 0; i < dataSetSize; ++i) {
		for (int j = 0; j < x_test_matrix[i].size(); ++j) {
			x_test_matrix[i][j] = x_test_matrix[i][j] - x[i][j];
			x_test_matrix[i][j] = x_test_matrix[i][j] * 2;
		}
		int sum_vec = sum_vector(x_test_matrix[i]);
		v_total.push_back(sqrt(sum_vec));
	}
	sort(v_total.begin(), v_total.end());
	std::map<int, int> mp;
	for (int i = 0; i < k; ++i) {
		int label = y[v_total[i]];
		mp[label] += 1;
	}
	int max_end_result = 0;
	for (std::map<int, int>::iterator it = mp.begin(); it != mp.end(); it++) {
		if (it->first > max_end_result) {
			max_end_result = it->first;
		}
	}
	return max_end_result;
}
int main() {
	int k = 12;
	int value = knn(k);
	std::cout << "result:\n" << std::endl;
	return 0;
}

七、数据处理、分析、测试

处理excel和txt数据

excel数据是矩阵数据,可直接使用,在此不做处理。

文本txt数据需要一些数据处理

def file2matrix(filename):
	fr = open(filename)
	# 读取行数据直到尾部
	arrayOLines = fr.readlines()
	# 获取行数
	numberOfLines = len(arrayOLines)
	# 创建返回shape为(numberOfLines, 3)numpy矩阵
	returnMat = zeros((numberOfLines, 3))
	classLabelVector = []
	index = 0
	for line in arrayOLines:
		# 去除首尾的回车符
		line = line.strip()
		# 以tab字符'\t'为符号进行分割字符串
		listFromLine = line.split('\t')
		# 选取前3个元素,把他们存储到特征矩阵中
		returnMat[index, :] = listFromLine[0: 3]
		# 把目标变量放到目标数组中
		classLabelVector.append(int(listFromLine[-1]))
		index += 1
	return returnMat, classLabelVector

数据归一化和标准化

在数值当中,会有一些数据大小参差不齐,严重影响数据的真实性,因此,对数据进行归一化和标准化是使得数据取值在一定的区间,具有更好的拟合度。

例如归一化就是将数据取值范围处理为0到1或者-1到1之间

# max:最大特征值
# min:最小特征值
newValue = (oldValue - min)/(max-min)

写个函数

def autoNorm(dataSet):
	# min(0)返回该矩阵中每一列的最小值
	minVals = dataSet.min(0)
	# max(0)返回该矩阵中每一列的最大值
	maxVals = dataSet.max(0)
	# 求出极值
	ranges = maxVals - minVals
	# 创建一个相同行列的0矩阵
	normDataSet = zeros(shape(dataSet))
	# 得到行数
	m = dataSet.shape[0]
	# 得到一个原矩阵减去m倍行1倍列的minVals
	normDataSet = dataSet - tile(minVlas, (m,1))
	# 特征值相除
	normDataSet = normDataSet/tile(ranges, (m, 1))
	return normDataSet, ranges, minVals

归一化的缺点:如果异常值就是最大值或者最小值,那么归一化也就没有了保证(稳定性较差,只适合传统精确小数据场景)

标准化可查

八、鸢尾花数据测试

既然已经了解其内置的算法了,那么便调库来写一个吧

from sklearn.datasets import load_iris      # 导入内置数据集
from sklearn.model_selection import train_test_split        # 提供数据集分类方法
from sklearn.preprocessing import StandardScaler        # 标准化
from sklearn.neighbors import KNeighborsClassifier      # KNN


def knn_iris():
    # 获得鸢尾花数据集
    iris = load_iris()
    # 获取数据集
    # random_state为随机数种子,一个数据集中相等的行不能大于6
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6)
    # 特征工程:标准化
    transfer = StandardScaler()
    # 训练集标准化
    x_train = transfer.fit_transform(x_train)
    # 测试集标准化
    x_test = transfer.transform(x_test)
    # 设置近邻个数
    estimator = KNeighborsClassifier(n_neighbors=3)
    # 训练集测试形成模型
    estimator.fit(x_train, y_train)

    # 模型预估
    # 根据预测特征值得出预测目标值
    y_predict = estimator.predict(x_test)
    print("y_predict: \n", y_predict)
    # 得出预测目标值和真实目标值之间是否相等
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)


def main():
    knn_iris()


if __name__ == '__main__':
    main()

九、RESULT

Python机器学习之KNN近邻算法

到此这篇关于Python机器学习之KNN近邻算法的文章就介绍到这了,更多相关Python近邻算法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中index()和seek()的用法(详解)
Apr 27 Python
启动targetcli时遇到错误解决办法
Oct 26 Python
Python基于列表list实现的CRUD操作功能示例
Jan 05 Python
python实现超简单的视频对象提取功能
Jun 04 Python
详解Django-restframework 之频率源码分析
Feb 27 Python
借助Paramiko通过Python实现linux远程登陆及sftp的操作
Mar 16 Python
python seaborn heatmap可视化相关性矩阵实例
Jun 03 Python
Python使用plt.boxplot() 参数绘制箱线图
Jun 04 Python
Python descriptor(描述符)的实现
Nov 15 Python
浅谈Python协程asyncio
Jun 20 Python
python区块链持久化和命令行接口实现简版
May 25 Python
 python中的元类metaclass详情
May 30 Python
Python爬虫基础讲解之请求
自己搭建resnet18网络并加载torchvision自带权重的操作
May 13 #Python
如何使用flask将模型部署为服务
May 13 #Python
教你用python控制安卓手机
Python数据分析入门之数据读取与存储
May 13 #Python
python执行js代码的方法
pytorch加载预训练模型与自己模型不匹配的解决方案
May 13 #Python
You might like
星际争霸 Starcraft 游戏介绍
2020/03/14 星际争霸
PHP的Laravel框架中使用消息队列queue及异步队列的方法
2016/03/21 PHP
PHP实现基于栈的后缀表达式求值功能
2017/11/10 PHP
Gambit vs CL BO3 第三场 2.13
2021/03/10 DOTA
javaScript同意等待代码实现心得
2011/01/01 Javascript
Extjs4 关于Store的一些操作(加载/回调/添加)
2013/04/18 Javascript
js将控件隐藏的方法及display属性介绍
2013/07/04 Javascript
js 操作select与option(示例讲解)
2013/12/20 Javascript
用window.onerror捕获并上报Js错误的方法
2016/01/27 Javascript
微信小程序“摇一摇”的实例代码
2017/07/20 Javascript
vue 组件中添加样式不生效的解决方法
2018/07/06 Javascript
vue项目上传Github预览的实现示例
2018/11/06 Javascript
vue实现新闻展示页的步骤详解
2019/04/11 Javascript
手把手带你入门微信小程序新框架Kbone的使用
2020/02/25 Javascript
JS实现京东商品分类侧边栏
2020/12/11 Javascript
小程序实现列表倒计时功能
2021/01/29 Javascript
[02:30]联想杯DOTA2完美世界全国高校联赛—北京站现场
2015/11/16 DOTA
[01:08:24]DOTA2-DPC中国联赛 正赛 RNG vs Phoenix BO3 第一场 2月5日
2021/03/11 DOTA
详解python的数字类型变量与其方法
2016/11/20 Python
Python单例模式实例详解
2017/03/01 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
2017/04/24 Python
python实现汉诺塔算法
2021/03/01 Python
Python实现去除列表中重复元素的方法总结【7种方法】
2019/02/16 Python
自适应线性神经网络Adaline的python实现详解
2019/09/30 Python
Python用5行代码实现批量抠图的示例代码
2020/04/14 Python
Python可以实现栈的结构吗
2020/05/27 Python
音频处理 windows10下python三方库librosa安装教程
2020/06/20 Python
欧尚俄罗斯网上超市:Auchan俄罗斯
2018/05/03 全球购物
倩碧英国官网:Clinique英国
2018/08/10 全球购物
德国在线香料制造商:Gewürzland
2020/03/10 全球购物
优秀的教师个人的中文求职信
2013/09/21 职场文书
2014年廉洁自律承诺书
2014/05/26 职场文书
文明单位申报材料
2014/12/23 职场文书
逃课检讨书
2015/01/26 职场文书
订货会邀请函
2015/01/31 职场文书
酒店员工手册范本
2015/05/14 职场文书