如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python查找函数f(x)=0根的解决方法
May 07 Python
Python 3.x 新特性及10大变化
Jun 12 Python
在Python的Django框架中获取单个对象数据的简单方法
Jul 17 Python
Python中 Lambda表达式全面解析
Nov 28 Python
从DataFrame中提取出Series或DataFrame对象的方法
Nov 10 Python
对python读取CT医学图像的实例详解
Jan 24 Python
python给微信好友定时推送消息的示例
Feb 20 Python
Django使用中间键实现csrf认证详解
Jul 22 Python
Python实现一个带权无回置随机抽选函数的方法
Jul 24 Python
python 读取数据库并绘图的实例
Dec 03 Python
图解Python中深浅copy(通俗易懂)
Sep 03 Python
Python中的matplotlib绘制百分比堆叠柱状图,并为每一个类别设置不同的填充图案
Apr 20 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
简化php模板页面中分页代码的解析
2009/02/06 PHP
easyui的tabs update正确用法分享
2014/03/21 PHP
php实现将数组转换为XML的方法
2015/03/09 PHP
PHPExcel简单读取excel文件示例
2016/05/26 PHP
PHP中的表达式简述
2016/05/29 PHP
php实现贪吃蛇小游戏
2016/07/26 PHP
javascript 函数调用的对象和方法
2010/07/01 Javascript
按钮JS复制文本框和表格的代码
2011/04/01 Javascript
Javascript浅谈之引用类型
2013/12/18 Javascript
JQuery EasyUI 加载两次url的原因分析及解决方案
2014/08/18 Javascript
深入理解js promise chain
2016/05/05 Javascript
JS触发服务器控件的单击事件(详解)
2016/08/06 Javascript
基于JavaScript实现验证码功能
2017/04/01 Javascript
Vue实现动态响应数据变化
2017/04/28 Javascript
Vue2.0实现将页面中表格数据导出excel的实例
2017/08/09 Javascript
js限制input只能输入有效的数字(第一个不能是小数点)
2018/09/28 Javascript
vue中的inject学习教程
2019/04/24 Javascript
Vue 自定义指令功能完整实例
2019/09/17 Javascript
[04:51]TI10典藏宝瓶Ⅱ外观视频展示
2020/08/15 DOTA
python模块之StringIO使用示例
2015/04/08 Python
介绍Python中的文档测试模块
2015/04/28 Python
Python导出数据到Excel可读取的CSV文件的方法
2015/05/12 Python
python操作mongodb根据_id查询数据的实现方法
2015/05/20 Python
python实现字典(dict)和字符串(string)的相互转换方法
2017/03/01 Python
在Python 的线程中运行协程的方法
2020/02/24 Python
检测用户浏览器是否支持CSS3的方法
2009/08/29 HTML / CSS
法国设计制造的扫帚和刷子:Andrée Jardin
2018/12/06 全球购物
美国庭院家具购物网站:AlphaMarts
2019/04/10 全球购物
会计专业自荐信范文
2013/12/02 职场文书
服装设计专业自荐书范文
2013/12/30 职场文书
乐观大学生的自我评价
2014/01/10 职场文书
优秀驾驶员先进事迹材料
2014/05/04 职场文书
幼儿园工作总结2015
2015/04/01 职场文书
志愿服务心得体会
2016/01/15 职场文书
幼儿园教师教学反思
2016/03/02 职场文书
Nginx实现负载均衡的项目实践
2022/03/18 Servers