编程 Python

python中scikit-learn机器代码实例

Posted in Python onAugust 05, 2018

我们给大家带来了关于学习python中scikit-learn机器代码的相关具体实例，以下就是全部代码内容：

# -*- coding: utf-8 -*-
 
import numpy
from sklearn import metrics
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn import linear_model
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn import cross_validation
from sklearn import preprocessing
#import iris_data
 
def load_data():
  iris = load_iris()
  x, y = iris.data, iris.target
  x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=42)
  return x_train,y_train,x_test,y_test
 
def train_clf3(train_data, train_tags):
  clf = LinearSVC(C=1100.0)#default with 'rbf' 
  clf.fit(train_data,train_tags)
  return clf
 
def train_clf(train_data, train_tags):
  clf = MultinomialNB(alpha=0.01)
  print numpy.asarray(train_tags)
  clf.fit(train_data, numpy.asarray(train_tags))
  return clf
 
def evaluate(actual, pred):
  m_precision = metrics.precision_score(actual, pred)
  m_recall = metrics.recall_score(actual, pred)
  print 'precision:{0:.3f}'.format(m_precision)
  print 'recall:{0:0.3f}'.format(m_recall)
  print 'f1-score:{0:.8f}'.format(metrics.f1_score(actual,pred));
 
x_train,y_train,x_test,y_test = load_data()
 
clf = train_clf(x_train, y_train)
 
pred = clf.predict(x_test)
evaluate(numpy.asarray(y_test), pred)
print metrics.classification_report(y_test, pred)
 
 
使用自定义数据
# coding: utf-8
 
import numpy
from sklearn import metrics
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
import codecs
from sklearn.ensemble import RandomForestClassifier
from sklearn import cross_validation
from sklearn import linear_model
 
train_corpus = [
   '我们 我们 好孩子 认证 。 就是',
   '我们 好孩子 认证 。 中国',
   '我们 好孩子 认证 。 孤独',
   '我们 好孩子 认证 。',
 ]
 
test_corpus = [
   '我 菲律宾 韩国',
   '我们 好孩子 认证 。 中国',
 ]
 
def input_data(train_file, test_file):
  train_words = []
  train_tags = []
  test_words = []
  test_tags = []
  f1 = codecs.open(train_file,'r','utf-8','ignore')
  for line in f1:
    tks = line.split(':', 1)
    word_list = tks[1]
    word_array = word_list[1:(len(word_list)-3)].split(", ")
    train_words.append(" ".join(word_array))
    train_tags.append(tks[0])
  f2 = codecs.open(test_file,'r','utf-8','ignore')
  for line in f2:
    tks = line.split(':', 1)
    word_list = tks[1]
    word_array = word_list[1:(len(word_list)-3)].split(", ")
    test_words.append(" ".join(word_array))
    test_tags.append(tks[0])
  return train_words, train_tags, test_words, test_tags
 
 
def vectorize(train_words, test_words):
  #v = HashingVectorizer(n_features=25000, non_negative=True)
  v = HashingVectorizer(non_negative=True)
  #v = CountVectorizer(min_df=1)
  train_data = v.fit_transform(train_words)
  test_data = v.fit_transform(test_words)
  return train_data, test_data
 
def vectorize1(train_words, test_words):
  tv = TfidfVectorizer(sublinear_tf = False,use_idf=True);
  train_data = tv.fit_transform(train_words);
  tv2 = TfidfVectorizer(vocabulary = tv.vocabulary_);
  test_data = tv2.fit_transform(test_words);
  return train_data, test_data
  
def vectorize2(train_words, test_words):
  count_v1= CountVectorizer(stop_words = 'english', max_df = 0.5); 
  counts_train = count_v1.fit_transform(train_words); 
   
  count_v2 = CountVectorizer(vocabulary=count_v1.vocabulary_);
  counts_test = count_v2.fit_transform(test_words);
   
  tfidftransformer = TfidfTransformer();
   
  train_data = tfidftransformer.fit(counts_train).transform(counts_train); 
  test_data = tfidftransformer.fit(counts_test).transform(counts_test);
  return train_data, test_data
 
def evaluate(actual, pred):
  m_precision = metrics.precision_score(actual, pred)
  m_recall = metrics.recall_score(actual, pred)
  print 'precision:{0:.3f}'.format(m_precision)
  print 'recall:{0:0.3f}'.format(m_recall)
  print 'f1-score:{0:.8f}'.format(metrics.f1_score(actual,pred));
 
 
def train_clf(train_data, train_tags):
  clf = MultinomialNB(alpha=0.01)
  clf.fit(train_data, numpy.asarray(train_tags))
  return clf
 
 
def train_clf1(train_data, train_tags):
  #KNN Classifier
  clf = KNeighborsClassifier()#default with k=5 
  clf.fit(train_data, numpy.asarray(train_tags)) 
  return clf
 
def train_clf2(train_data, train_tags):
  clf = linear_model.LogisticRegression(C=1e5) 
  clf.fit(train_data,train_tags)
  return clf
 
def train_clf3(train_data, train_tags):
  clf = LinearSVC(C=1100.0)#default with 'rbf' 
  clf.fit(train_data,train_tags)
  return clf
 
def train_clf4(train_data, train_tags):
  """
  随机森林，不可使用稀疏矩阵
  """
  clf = RandomForestClassifier(n_estimators=10)
  clf.fit(train_data.todense(),train_tags)
  return clf
 
#使用codecs逐行读取
def codecs_read_label_line(filename):
  label_list=[]
  f = codecs.open(filename,'r','utf-8','ignore')
  line = f.readline()
  while line:
    #label_list.append(line[0:len(line)-2])
    label_list.append(line[0:len(line)-1])
    line = f.readline()
  f.close()
  return label_list
 
def save_test_features(test_url, test_label):
  test_feature_list = codecs_read_label_line('test.dat')
  fw = open('test_labeded.dat',"w+")
  
  for (url,label) in zip(test_feature_list,test_label):
    fw.write(url+'\t'+label)
    fw.write('\n')
  fw.close()
 
def main():
  train_file = u'..\\file\\py_train.txt'
  test_file = u'..\\file\\py_test.txt'
  train_words, train_tags, test_words, test_tags = input_data(train_file, test_file)
  #print len(train_words), len(train_tags), len(test_words), len(test_words), 
  
  train_data, test_data = vectorize1(train_words, test_words)
  print type(train_data)
  print train_data.shape
  print test_data.shape
  print test_data[0].shape
  print numpy.asarray(test_data[0])
  
  clf = train_clf3(train_data, train_tags)
  
  scores = cross_validation.cross_val_score(
  clf, train_data, train_tags, cv=5, scoring="f1_weighted")
  print scores
 
  #predicted = cross_validation.cross_val_predict(clf, train_data,train_tags, cv=5)  
  '''
  
  '''
  pred = clf.predict(test_data)
  error_list=[]
  for (true_tag,predict_tag) in zip(test_tags,pred):
    if true_tag != predict_tag:
      print true_tag,predict_tag
      error_list.append(true_tag+' '+predict_tag)
  print len(error_list)
  evaluate(numpy.asarray(test_tags), pred)
  '''
  #输出打标签结果
  test_feature_list = codecs_read_label_line('test.dat')
  save_test_features(test_feature_list, pred)
  '''
  
 
if __name__ == '__main__':
  main()

- Author -

yan456jie

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中设置变量作为默认值时容易遇到的错误

Apr 03 Python

Python脚本暴力破解栅栏密码

Oct 19 Python

Python控制多进程与多线程并发数总结

Oct 26 Python

你所不知道的Python奇技淫巧13招【实用】

Dec 14 Python

Python基于Socket实现的简单聊天程序示例

Aug 05 Python

python实现括号匹配的思路详解

Aug 23 Python

python中时间、日期、时间戳的转换的实现方法

Jul 06 Python

python wav模块获取采样率采样点声道量化位数(实例代码)

Jan 22 Python

django处理select下拉表单实例(从model到前端到post到form)

Mar 13 Python

keras中模型训练class_weight,sample_weight区别说明

May 23 Python

Python装饰器如何实现修复过程解析

Sep 05 Python

Jupyter notebook 输出部分显示不全的解决方案

Apr 24 Python

解决使用pycharm提交代码时冲突之后文件丢失找回的方法

Aug 05 #Python

Python字符串、整数、和浮点型数相互转换实例

Aug 04 #Python

python与caffe改变通道顺序的方法

Aug 04 #Python

Python爬虫PyQuery库基本用法入门教程

Aug 04 #Python

python list转矩阵的实例讲解

Aug 04 #Python

Python 生成 -1~1 之间的随机数矩阵方法

Aug 04 #Python

Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例

Aug 04 #Python

You might like

PHP文件缓存smarty模板应用实例分析

2016/02/26 PHP

简单的自定义php模板引擎

2016/08/26 PHP

php微信公众号开发（3）php实现简单微信文本通讯

2016/12/15 PHP

jquery里的正则表达式说明

2011/08/03 Javascript

JS面向对象编程浅析

2011/08/28 Javascript

将中国标准时间转换成标准格式的代码

2014/03/20 Javascript

AngularJS基础 ng-selected 指令简单示例

2016/08/03 Javascript

工作中比较实用的JavaScript验证和数据处理的干货(经典)

2016/08/03 Javascript

Vuejs第九篇之组件作用域及props数据传递实例详解

2016/09/05 Javascript

JavaScript实现的微信二维码图片生成器的示例

2016/10/26 Javascript

Bootstrap CSS组件之导航条(navbar)

2016/12/17 Javascript

js判断iframe中元素是否存在的实现代码

2016/12/24 Javascript

js嵌套的数组扁平化:将多维数组变成一维数组以及push()与concat()区别的讲解

2019/01/19 Javascript

VUE脚手架的下载和配置步骤详解

2019/04/01 Javascript

jquery UI实现autocomplete在获取焦点时得到显示列表功能示例

2019/06/04 jQuery

微信小程序多列表渲染数据开关互不影响的实现

2020/06/05 Javascript

JavaScript中的执行环境和作用域链

2020/09/04 Javascript

浅谈nuxtjs校验登录中间件和混入(mixin)

2020/11/06 Javascript

小程序中手机号识别的示例

2020/12/14 Javascript

[49:05]Newbee vs TNC 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

Python open读写文件实现脚本

2008/09/06 Python

python计算牛顿迭代多项式实例分析

2015/05/07 Python

python实现搜索本地文件信息写入文件的方法

2016/02/22 Python

Tensorflow 训练自己的数据集将数据直接导入到内存

2018/06/19 Python

使用Flask集成bootstrap的方法

2018/07/24 Python

使用tensorflow实现线性svm

2018/09/07 Python

详解Python3注释知识点

2019/02/19 Python

Python利用sqlacodegen自动生成ORM实体类示例

2019/06/04 Python

Python实现读取并写入Excel文件过程解析

2020/05/27 Python

世界上最好的旅行夹克：BauBax

2018/12/23 全球购物

美国在线购买内衣网站：HerRoom

2020/02/22 全球购物

荷兰浴室和卫浴网上商店：Badkamerxxl.nl

2020/10/06 全球购物

企业厂长岗位职责

2013/12/17 职场文书

大学生社会实践活动总结

2014/07/03 职场文书

报表员工作失误检讨书范文

2014/09/19 职场文书

单位委托函范文

2015/01/29 职场文书