和风网标志

在Azure Databricks上使用Spark,Python或SQL

日期:

在Azure Databricks上使用Spark,Python或SQL

在这里,我们研究了使用Azure Databricks与Python,PySpark和SQL互换工作的一些方法,Azure Databricks是基于Apache Spark的大数据分析服务,旨在为Microsoft提供的数据科学和数据工程设计。


By 阿杰·奥里(Ajay Ohri),数据科学经理

Azure数据块 是基于Apache Spark的大数据分析服务,旨在为Microsoft提供的数据科学和数据工程服务。 它允许协同工作以及以多种语言(例如Python,Spark,R和SQL)工作。 在Databricks上工作具有云计算的优势-可伸缩,成本更低,按需数据处理和数据存储。

在这里,我们研究了一些可与Python,PySpark和SQL互换使用的方法。 通过首先上传数据,然后选择在笔记本中创建数据,我们学习了如何从CSV文件导入数据。 我们将学习如何将SQL表转换为Spark数据框,以及如何将Spark数据框转换为Python Pandas数据框。 我们还将学习如何将Spark数据框转换为永久或临时SQL表。

为什么我们需要学习如何在SQL,Spark和Python Panda Dataframe之间交换代码? SQL非常适合轻松编写和可读性强的数据处理代码,Spark非常适合大数据和机器学习的速度,而Python Pandas可用于数据处理,机器学习以及在seaborn或matplotlib库中进行绘图。

图片

为了方便起见,我们选择了一个SQL笔记本,然后选择了具有适当的RAM,Core,Spark版本等的适当群集。即使它是一个SQL笔记本,我们也可以通过在该单元格中的代码前面键入%python来编写python代码。

图片

现在让我们开始数据输入,数据检查和数据交换的基础

 
读取上传的数据

%python#读取上载的数据#文件位置和类型file_location =“ /FileStore/tables/inputdata.csv” file_type =“ csv”#CSV选项infer_schema =“ false” first_row_is_header =“ true”分隔符=“,”#已应用选项适用于CSV文件。 对于其他文件类型,这些将被忽略。 df = spark.read.format(file_type).option(“ inferSchema”,infer_schema).option(“ header”,first_row_is_header).option(“ sep”,定界符).load(file_location)display(df)

 
从SPARK Dataframe创建临时视图或表

%python#从SPARK数据框创建临时视图或表temp_table_name =“ temp_table” df.createOrReplaceTempView(temp_table_name)

 
从SPARK数据框创建永久SQL表

-从SPARK数据帧创建永久SQL表永久性表名称=“ cdp.perm_table” df.write.format(“ parquet”)。saveAsTable(permanent_table_name)

 
检查SQL表

-检查SQL表
选择 *  cdp.perm_table

 
将SQL表转换为SPARK数据框

%python#将SQL表转换为SPARK数据框sparkdf = spark.sql(“从cdp.perm_table中选择*”)

 
检查SPARK数据框

%python#检查Spark Dataframe sparkdf.take(10)

 
将Spark数据框转换为Python Pandas数据框

%python#将Spark数据框转换为Python Pandas数据框%python pandasdf = sparkdf.toPandas()

 
检查Python数据框

%python#检查Python数据框pandasdf.head()

 
参考资料

  1. Azure Databricks简介– https://www.slideshare.net/jamserra/introduction-to-azure-databricks-83448539
  2. 数据框和数据集– https://docs.databricks.com/spark/latest/dataframes-datasets/index.html
  3. 优化PySpark和pandas DataFrames之间的转换– https://docs.databricks.com/spark/latest/spark-sql/spark-pandas.html
  4. pyspark软件包– https://spark.apache.org/docs/latest/api/python/pyspark.html

 
简介: 阿杰·奥里(Ajay Ohri) 是数据科学经理(Publicis Sapient),并且是四本有关数据科学的书籍的作者,包括针对云计算的R和针对R用户的Python。

 
有关:

资料来源:https://www.kdnuggets.com/2020/08/spark-python-sql-azure-databricks.html

现货图片

最新情报

现货图片