如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现的二维码生成小软件
Jul 11 Python
python中反射用法实例
Mar 27 Python
Python发送form-data请求及拼接form-data内容的方法
Mar 05 Python
python 网络编程常用代码段
Aug 28 Python
Python利用ElementTree模块处理XML的方法详解
Aug 31 Python
Python使用selenium实现网页用户名 密码 验证码自动登录功能
May 16 Python
python爬虫之urllib3的使用示例
Jul 09 Python
Python 忽略warning的输出方法
Oct 18 Python
关于不懂Chromedriver如何配置环境变量问题解决方法
Jun 12 Python
python 中的列表生成式、生成器表达式、模块导入
Jun 19 Python
python encrypt 实现AES加密的实例详解
Feb 20 Python
Python 数据的累加与统计的示例代码
Aug 03 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
php转换颜色为其反色的方法
2015/04/27 PHP
在openSUSE42.1下编译安装PHP7 的方法
2015/12/24 PHP
TP5多入口设置实例讲解
2020/12/15 PHP
JavaScript中函数声明优先于变量声明的实例分析
2012/03/01 Javascript
用Jquery.load载入页面实现局部刷新
2014/01/22 Javascript
js使用循环清空某个div中的input标签值
2014/09/29 Javascript
nodejs中操作mysql数据库示例
2014/12/20 NodeJs
浅析javascript操作 cookie对象
2014/12/26 Javascript
js实现简单随机抽奖的方法
2015/01/27 Javascript
jQuery对象与DOM对象转换方法详解
2016/05/10 Javascript
jquery自定义表单验证插件
2016/10/12 Javascript
js基于myFocus实现轮播图效果
2017/02/14 Javascript
使用Bootstrap打造特色进度条效果
2017/05/02 Javascript
Bootstrap Table使用整理(一)
2017/06/09 Javascript
对angularjs框架下controller间的传值方法详解
2018/10/08 Javascript
vue-router实现编程式导航的代码实例
2019/01/19 Javascript
python实现根据主机名字获得所有ip地址的方法
2015/06/28 Python
Python中死锁的形成示例及死锁情况的防止
2016/06/14 Python
Python的collections模块中namedtuple结构使用示例
2016/07/07 Python
python Flask实现restful api service
2017/12/04 Python
Python语言实现百度语音识别API的使用实例
2017/12/13 Python
Python设计模式之桥接模式原理与用法实例分析
2019/01/10 Python
树莓派安装OpenCV3完整过程的实现
2019/10/10 Python
html5 移动端视频video的android兼容(去除播放控件、全屏)
2020/03/26 HTML / CSS
详解HTML5.2版本带来的修改
2020/05/06 HTML / CSS
香港零食网购:上仓胃子
2020/06/08 全球购物
行政部工作岗位职责范本
2014/03/05 职场文书
银行贷款承诺书
2014/03/29 职场文书
法律专业求职信
2014/05/24 职场文书
公务员学习习总书记“三严三实”思想汇报
2014/09/19 职场文书
2015年小学数学教研组工作总结
2015/05/21 职场文书
入党函调证明材料
2015/06/19 职场文书
人民币使用说明书
2019/04/17 职场文书
CSS 新特性 contain控制页面的重绘与重排问题
2021/04/30 HTML / CSS
mysql备份策略的实现(全量备份+增量备份)
2021/07/07 MySQL
漫画「日和酱的要求是绝对的」第3卷封面公开
2022/03/21 日漫