时间:2021-05-22
在本地使用pycharm连接databricks,大致步骤如下:
首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。
(下面的图渣渣,因为直接拖进来的)
第0步:检查
检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https:///java/technologies/javase/javase-jdk8-downloads.html
第1步:收集databricks的信息
查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version
查看cluster ulr,解析出下面信息
生成token,点击这个小人-user setting
最后,这是我们收集到的所有信息
第2步:安装anaconda
如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
第3步:使用anaconda创建虚拟环境
下面的参数信息,使用第一步收集的信息
打开anaconda的命令行
创建一个3.7版本的虚拟隔离环境
conda create -n dbconnect python=3.7使用环境
conda activate dbconnect卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)
pip uninstall pyspark下面开始安装包,但是为了让安装速度快一些,使用清华镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/conda config --set show_channel_urls yes查看是否切换到镜像
conda config --show channels可以看到已经切换
安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)
pip install -U databricks-connect==6.4.*连接远端databricks,并输入第一步收集的相关信息
databricks-connect configure测试是否已经连接上:
databricks-connect test已经在启动节点了
查看databricks,可以看到
第4步:pycharm导入虚拟环境
打开pycahrm,点击setting
选择解释器,点击小齿轮的add'
选择刚才我们创建好的dbconnect
点击ok,可以看到已经选好了环境
不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包
conda install scikit-learn==0.22.1conda install pandas==0.24.2conda install pyarrow==0.15.1在pycharm测试运行一下:
import pandas as pdimport numpy as np# Generate a pandas DataFramepdf = pd.DataFrame(np.random.rand(100, 3))from pyspark.sql import *spark = SparkSession.builder.getOrCreate()df = spark.createDataFrame(pdf)print(df.head(5))去databrick的cluster log看一下,已经启动了节点,正在运行
到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
pycharm是编辑python很好使用的工具。下面看看如何安装pycharm工具/原料:pycharm安装包方法/步骤:在网上下载pycharm安装包,比如下
除了使用xshell等连接服务器以外,pycharm也可以连接服务器,在服务器上运行代码,上传下载文件等操作。步骤如下:1、pycharm工具栏:Tools--
1、主题 如何使用Pycahrm内置终端以及远程SSH工具。 2、准备工作 Pycharm版本为3.0或更高 连接SSH服务器 3、使用SSH客户
本篇教程展示如何安装Pymongo库,编辑器使用的当然是pycharm。准备我们这里直接使用pycharm来安装Pymongo库,和pycharm的mongod
当需要远程办公时,使用pycharm远程连接服务器时必要的。PyCharm提供两种远程调试(RemoteDebugging)的方式:配置远程的解释器(remot