博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
pyspark 通过 json 字符串 创建DataFrame
阅读量:6358 次
发布时间:2019-06-23

本文共 984 字,大约阅读时间需要 3 分钟。

1、开发环境

python版本:3.6

spark版本:2.3.1

pyspark:2.3.1

2、脚本

from pyspark import SparkConf,SparkContext from pyspark.sql import SQLContext,HiveContext from pyspark.sql.types import * ####1、从json文件读取数据,并直接生成DataFrame####### path = "20180724141719.json" df = sqlContext.read.json(path) df.printSchema()
#################################### data_dict = {     "region": "cn",     "env": "dev",     "product": "snap"    }schema = StructType([    StructField("region", StringType(), True),    StructField("env", StringType(), True),    StructField("product", StringType(), True)])dslist = []                ## 空列表dslist.append(data_dict)   ## 使用 append() 添加元素  ###2、通过json字符串生成DataFrame#############myrdd = sc.parallelize(dslist)df = sqlContext.read.json(myrdd)df.printSchema()####3、通过自定义schema和json字符串列表,生成DataFrame####### df = sqlContext.createDataFrame(dslist,schema) df.printSchema() ########################################################

转载于:https://www.cnblogs.com/husbandmen/p/9366512.html

你可能感兴趣的文章
windows下开发库路径解决方案
查看>>
linux迁移mysql数据目录
查看>>
脚本源码安装LNMP
查看>>
Percona Server安装
查看>>
函数为左边表达式
查看>>
2015.06.04 工作任务与心得
查看>>
icinga2使用587端口发邮件
查看>>
hpasmcli查看HP服务器内存状态
查看>>
【14】Python100例基础练习(1)
查看>>
boost bind使用指南
查看>>
使用ntpdate更新系统时间
查看>>
Android M 特性 Doze and App Standby模式详解
查看>>
IE FF(火狐) line-height兼容详解
查看>>
谷歌Pixel 3吸引三星用户, 但未动摇iPhone地位
查看>>
VUE中使用vuex,cookie,全局变量(少代码示例)
查看>>
grep -w 的解析_学习笔记
查看>>
TX Text Control文字处理教程(3)打印操作
查看>>
CENTOS 7 如何修改IP地址为静态!
查看>>
MyCat分片算法学习(纯转)
查看>>
mysqld_multi实现多主一从复制
查看>>