What is PySpark?
Example:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('example').getOrCreate()
保存以便复习
保存以便复习
收藏此条目、标记为困难题,或将其加入复习集合。
WithoutBook 将分主题面试题、在线练习测试、教程和对比指南整合到一个响应式学习空间中。
了解热门 PySpark 面试题与答案,帮助应届生和有经验的候选人为求职面试做好准备。
了解热门 PySpark 面试题与答案,帮助应届生和有经验的候选人为求职面试做好准备。
搜索问题以查看答案。
Example:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('example').getOrCreate()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
grouped_data = df.groupBy('Category').agg({'Price': 'mean'})
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('example').getOrCreate()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
data = df.collect()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
result = df1.union(df2)
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
grouped_data = df.groupBy('Category').agg({'Price': 'mean'})
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.createOrReplaceTempView('temp_view')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
result = df.orderBy('column')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
data = [1, 2, 3, 4, 5]
rdd = spark.sparkContext.parallelize(data)
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df = spark.createDataFrame([(1, 'John'), (2, 'Jane')], ['ID', 'Name'])
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.cache()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.na.drop()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import explode
exploded_df = df.select('ID', explode('items').alias('item'))
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.persist()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import explode
exploded_df = df.select('ID', explode('items').alias('item'))
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.na.drop()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.cache()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
result = df.agg({'Sales': 'sum', 'Quantity': 'avg'})
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df_coalesced = df.coalesce(5)
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
result = df1.join(df2, df1['key'] == df2['key'], 'inner')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import broadcast
result = df1.join(broadcast(df2), 'key')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number
window_spec = Window.orderBy('column')
result = df.withColumn('row_num', row_number().over(window_spec))
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
spark.sparkContext.setCheckpointDir('hdfs://path/to/checkpoint')
df_checkpointed = df.checkpoint()
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.write.option('skew_hint', 'true').parquet('output_path')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.window import Window
from pyspark.sql.functions import sum
window_spec = Window.partitionBy('category').orderBy('value')
result = df.withColumn('sum_value', sum('value').over(window_spec))
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import broadcast
result = df1.join(broadcast(df2), 'key')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import broadcast
result = df1.join(broadcast(df2), 'key')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
accumulator = spark.sparkContext.accumulator(0)
# Inside a transformation or action
accumulator.add(1)
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
from pyspark.sql.functions import broadcast
result = df1.join(broadcast(df2), 'key')
收藏此条目、标记为困难题,或将其加入复习集合。
Example:
df.write.option('skew_hint', 'true').parquet('output_path')
收藏此条目、标记为困难题,或将其加入复习集合。