pyspark 通过 json 字符串创建DataFrame-白红宇

pyspark 通过 json 字符串创建DataFrame

阅读量：6358 次

发布时间：2019-06-23

本文共 984 字，大约阅读时间需要 3 分钟。

1、开发环境

python版本：3.6

spark版本：2.3.1

pyspark：2.3.1

2、脚本

from pyspark import SparkConf,SparkContext from pyspark.sql import SQLContext,HiveContext from pyspark.sql.types import * ####1、从json文件读取数据，并直接生成DataFrame####### path = "20180724141719.json" df = sqlContext.read.json(path) df.printSchema()

#################################### data_dict = {     "region": "cn",     "env": "dev",     "product": "snap"    }schema = StructType([    StructField("region", StringType(), True),    StructField("env", StringType(), True),    StructField("product", StringType(), True)])dslist = []                ## 空列表dslist.append(data_dict)   ## 使用 append() 添加元素  ###2、通过json字符串生成DataFrame#############myrdd = sc.parallelize(dslist)df = sqlContext.read.json(myrdd)df.printSchema()####3、通过自定义schema和json字符串列表，生成DataFrame####### df = sqlContext.createDataFrame(dslist,schema) df.printSchema() ########################################################

转载于:https://www.cnblogs.com/husbandmen/p/9366512.html

你可能感兴趣的文章