纯python实现机器学习之kNN算法示例


Posted in Python onMarch 01, 2018

前面文章分别简单介绍了线性回归,逻辑回归,贝叶斯分类,并且用python简单实现。这篇文章介绍更简单的 knn, k-近邻算法(kNN,k-NearestNeighbor)。

k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。

原理

kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类。

具体讲,存在训练样本集, 每个样本都包含数据特征和所属分类值。

输入新的数据,将该数据和训练样本集汇中每一个样本比较,找到距离最近的k个,在k个数据中,出现次数做多的那个分类,即可作为新数据的分类。

纯python实现机器学习之kNN算法示例

如上图:

需要判断绿色是什么形状。当k等于3时,属于三角。当k等于5是,属于方形。

因此该方法具有一下特点:

  1. 监督学习:训练样本集中含有分类信息
  2. 算法简单, 易于理解实现
  3. 结果收到k值的影响,k一般不超过20.
  4. 计算量大,需要计算与样本集中每个样本的距离。
  5. 训练样本集不平衡导致结果不准确问题

接下来用oython 做个简单实现, 并且尝试用于约会网站配对。

python简单实现

def classify(inX, dataSet, labels, k):
  """
  定义knn算法分类器函数
  :param inX: 测试数据
  :param dataSet: 训练数据
  :param labels: 分类类别
  :param k: k值
  :return: 所属分类
  """

  dataSetSize = dataSet.shape[0] #shape(m, n)m列n个特征
  diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
  sqDiffMat = diffMat ** 2
  sqDistances = sqDiffMat.sum(axis=1)
  distances = sqDistances ** 0.5 #欧式距离
  sortedDistIndicies = distances.argsort() #排序并返回index

  classCount = {}
  for i in range(k):
    voteIlabel = labels[sortedDistIndicies[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 #default 0

  sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
  return sortedClassCount[0][0]

算法的步骤上面有详细的介绍,上面的计算是矩阵运算,下面一个函数是代数运算,做个比较理解。

def classify_two(inX, dataSet, labels, k):
  m, n = dataSet.shape  # shape(m, n)m列n个特征
  # 计算测试数据到每个点的欧式距离
  distances = []
  for i in range(m):
    sum = 0
    for j in range(n):
      sum += (inX[j] - dataSet[i][j]) ** 2
    distances.append(sum ** 0.5)

  sortDist = sorted(distances)

  # k 个最近的值所属的类别
  classCount = {}
  for i in range(k):
    voteLabel = labels[ distances.index(sortDist[i])]
    classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 # 0:map default
  sortedClass = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
  return sortedClass[0][0]

有了上面的分类器,下面进行最简单的实验来预测一下:

def createDataSet():
  group = np.array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]])
  labels = ['A', 'A', 'B', 'B']
  return group, labels

上面是一个简单的训练样本集。

if __name__ == '__main__':
  dataSet, labels = createDataSet()
  r = classify_two([0, 0.2], dataSet, labels, 3)
  print(r)

执行上述函数:可以看到输出B, [0 ,0.2]应该归入b类。

上面就是一个最简单的kNN分类器,下面有个例子。

kNN用于判断婚恋网站中人的受欢迎程度

训练样本集中部分数据如下:

40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1
75136 13.147394 0.428964 1
38344 1.669788 0.134296 1

第一列表示每年获得的飞行常客里程数, 第二列表示玩视频游戏所耗时间百分比, 第三类表示每周消费的冰淇淋公升数。第四列表示分类结果,1, 2, 3 分别是 不喜欢,魅力一般,极具魅力。

将数据转换成numpy。

# 文本转换成numpy
def file2matrix(filepath="datingSet.csv"):
  dataSet = np.loadtxt(filepath)
  returnMat = dataSet[:, 0:-1]
  classlabelVector = dataSet[:, -1:]
  return returnMat, classlabelVector

首先对数据有个感知,知道是哪些特征影响分类,进行可视化数据分析。

# 2, 3列数据进行分析
def show_2_3_fig():
  data, cls = file2matrix()
  fig = plt.figure()
  ax = fig.add_subplot(111)
  ax.scatter(data[:, 1], data[: ,2], c=cls)
  plt.xlabel("playing game")
  plt.ylabel("Icm Cream")
  plt.show()

纯python实现机器学习之kNN算法示例

如上图可以看到并无明显的分类。

纯python实现机器学习之kNN算法示例

纯python实现机器学习之kNN算法示例

可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测。

由于后面要用到距离比较,因此数据之前的影响较大, 比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理。

# 数据归一化
def autoNorm(dataSet):
  minVal = dataSet.min(0)
  maxVal = dataSet.max(0)
  ranges = maxVal - minVal

  normDataSet = np.zeros(dataSet.shape)
  m, n = dataSet.shape # 行, 特征
  normDataSet = dataSet - minVal
  normDataSet = normDataSet / ranges
  return normDataSet, ranges, minVal

衡量算法的准确性

knn算法可以用正确率或者错误率来衡量。错误率为0,表示分类很好。

因此可以将训练样本中的10%用于测试,90%用于训练。

# 定义测试算法的函数
def datingClassTest(h=0.1):
  hoRatio = h
  datingDataMat, datingLabels = file2matrix()
  normMat, ranges, minVals = autoNorm(datingDataMat)
  m, n = normMat.shape
  numTestVecs = int(m * hoRatio) #测试数据行数
  errorCount = 0 # 错误分类数


  # 用前10%的数据做测试
  for i in range(numTestVecs):
    classifierResult = classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
    # print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))
    if classifierResult != datingLabels[i]:
      errorCount += 1
  print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

调整不同的测试比例,对比结果。

使用knn进行预测。

有了训练样本和分类器,对新数据可以进行预测。模拟数据并进行预测如下:

# 简单进行预测
def classifypersion():
  resultList = ["none", 'not at all','in small doses','in large doses']
  # 模拟数据
  ffmiles = 15360
  playing_game = 8.545204
  ice_name = 1.340429

  datingDataMat, datingLabels = file2matrix()
  normMat, ranges, minVals = autoNorm(datingDataMat)
  inArr = np.array([ffmiles, playing_game, ice_name])
  # 预测数据归一化
  inArr = (inArr - minVals) / ranges
  classifierResult = classify(inArr, normMat, datingLabels, 3)
  print(resultList[int(classifierResult)])

可以看到基本的得到所属的分类。

完成代码和数据请参考:

github:kNN

总结

  1. kNN
  2. 监督学习
  3. 数据可视化
  4. 数据归一化,不影响计算

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用优化器来提升Python程序的执行效率的教程
Apr 02 Python
python+requests+unittest API接口测试实例(详解)
Jun 10 Python
Python实现矩阵转置的方法分析
Nov 24 Python
TensorFlow中权重的随机初始化的方法
Feb 11 Python
深入分析python数据挖掘 Json结构分析
Apr 21 Python
Python3.0中普通方法、类方法和静态方法的比较
May 03 Python
Python2.7:使用Pyhook模块监听鼠标键盘事件-获取坐标实例
Mar 14 Python
将python字符串转化成长表达式的函数eval实例
May 11 Python
Python字典fromkeys()方法使用代码实例
Jul 20 Python
PyQt中使用QtSql连接MySql数据库的方法
Jul 28 Python
详解pytorch中squeeze()和unsqueeze()函数介绍
Sep 03 Python
浅谈Python __init__.py的作用
Oct 28 Python
用python与文件进行交互的方法
Mar 01 #Python
python爬虫爬取快手视频多线程下载功能
Feb 28 #Python
python爬取m3u8连接的视频
Feb 28 #Python
python实现m3u8格式转换为mp4视频格式
Feb 28 #Python
浅谈Python中的私有变量
Feb 28 #Python
python中logging包的使用总结
Feb 28 #Python
深入理解Python爬虫代理池服务
Feb 28 #Python
You might like
造势之举?韩国总统候选人发布《星际争霸》地图
2017/04/22 星际争霸
SONY SRF-22W(33W)的电路分析和维修案例
2021/03/02 无线电
用户的详细注册和判断
2006/10/09 PHP
PHP脚本中include文件出错解决方法
2008/11/20 PHP
php学习之 数组声明
2011/06/09 PHP
simplehtmldom Doc api帮助文档
2012/03/26 PHP
$_GET['goods_id']+0 的使用详解
2013/06/06 PHP
用PHP代码在网页上生成图片
2015/07/01 PHP
Zend Framework教程之Zend_Db_Table用法详解
2016/03/21 PHP
CI框架支持$_GET的两种实现方法
2016/05/18 PHP
PHP封装的多文件上传类实例与用法详解
2017/02/07 PHP
PHP ADODB生成HTML表格函数rs2html功能【附错误处理函数用法】
2018/05/29 PHP
自写的一个jQuery圆角插件
2010/10/26 Javascript
VueJS全面解析
2016/11/10 Javascript
node基于puppeteer模拟登录抓取页面的实现
2018/05/09 Javascript
关于angular浏览器兼容性问题的解决方案
2020/07/26 Javascript
OpenLayers3实现测量功能
2020/09/25 Javascript
Python回调函数用法实例详解
2015/07/02 Python
Python使用正则表达式抓取网页图片的方法示例
2017/04/21 Python
详细分析python3的reduce函数
2017/12/05 Python
python 获取utc时间转化为本地时间的方法
2018/12/31 Python
python读取dicom图像示例(SimpleITK和dicom包实现)
2020/01/16 Python
有关Tensorflow梯度下降常用的优化方法分享
2020/02/04 Python
详解python 降级到3.6终极解决方案
2020/02/06 Python
python:批量统计xml中各类目标的数量案例
2020/03/10 Python
Anaconda+Pycharm环境下的PyTorch配置方法
2020/03/13 Python
Python pip install如何修改默认下载路径
2020/04/29 Python
python怎么自定义捕获错误
2020/06/29 Python
佳能法国商店:Canon法国
2019/02/14 全球购物
写好求职信第一句话的技巧
2013/10/26 职场文书
大学本科毕业生的自我鉴定范文
2013/11/19 职场文书
财务出纳员岗位职责
2013/11/26 职场文书
物业保安岗位职责
2014/07/02 职场文书
2015年保险公司个人工作总结
2015/05/22 职场文书
2016年教师党员创先争优承诺书
2016/03/24 职场文书
python疲劳驾驶困倦低头检测功能的实现
2022/04/04 Python