Release Notes - ASF JIRA

Release Notes - Spark - Version 3.4.1 - HTML format

Configure Release Notes

Sub-task

[SPARK-41527] - Implement DataFrame.observe
[SPARK-41818] - Support DataFrameWriter.saveAsTable
[SPARK-41843] - Implement SparkSession.udf
[SPARK-42020] - createDataFrame with UDT
[SPARK-42194] - Allow `columns` parameter when creating DataFrame with Series.
[SPARK-42247] - Standardize `returnType` property of UserDefinedFunction
[SPARK-42340] - Implement Grouped Map API
[SPARK-42496] - Introducing Spark Connect on the main page and adding Spark Connect Overview page
[SPARK-42529] - Support Cube and Rollup
[SPARK-42541] - Support Pivot with provided pivot column values
[SPARK-42542] - Support Pivot without providing pivot column values
[SPARK-42570] - Fix DataFrameReader to use the default source
[SPARK-42615] - Refactor the AnalyzePlan RPC and add `session.version`
[SPARK-42679] - createDataFrame doesn't work with non-nullable schema.
[SPARK-42706] - Document the Spark SQL error classes in user-facing documentation.
[SPARK-42731] - Update Spark Configuration
[SPARK-42733] - df.write.format().save() should support calling with no path or table name
[SPARK-42743] - Support analyze TimestampNTZ columns
[SPARK-42755] - Factor literal value conversion out to connect-common
[SPARK-42756] - Helper function to convert proto literal to value in Python Client
[SPARK-42765] - Enable importing `pandas_udf` from `pyspark.sql.connect.functions`
[SPARK-42777] - Support converting TimestampNTZ catalog stats to plan stats
[SPARK-42796] - Support TimestampNTZ in Cached Batch
[SPARK-42816] - Increase max message size to 128MB
[SPARK-42818] - Implement DataFrameReader/Writer.jdbc
[SPARK-42824] - Provide a clear error message for unsupported JVM attributes.
[SPARK-42826] - Add migration notes for update to supported pandas version.
[SPARK-42848] - Implement DataFrame.registerTempTable
[SPARK-42911] - Introduce more basic exceptions.
[SPARK-42970] - Reuse pyspark.sql.tests.test_arrow test cases
[SPARK-43071] - Support SELECT DEFAULT with ORDER BY, LIMIT, OFFSET for INSERT source relation
[SPARK-43072] - Include TIMESTAMP_NTZ in ANSI Compliance doc
[SPARK-43098] - Should not handle the COUNT bug when the GROUP BY clause of a correlated scalar subquery is non-empty
[SPARK-43156] - Correctness COUNT bug in correlated scalar subselect with `COUNT(*) is null`
[SPARK-43336] - Casting between Timestamp and TimestampNTZ requires timezone
[SPARK-44018] - Improve the hashCode for Some DS V2 Expression
[SPARK-44168] - Add Apache Spark 3.4.1 Dockerfiles

Bug

[SPARK-37829] - An outer-join using joinWith on DataFrames returns Rows with null fields instead of null values
[SPARK-42290] - Spark Driver hangs on OOM during Broadcast when AQE is enabled
[SPARK-42553] - NonReserved keyword "interval" can't be column name
[SPARK-42622] - StackOverflowError reading json that does not conform to schema
[SPARK-42623] - parameter markers not blocked in DDL
[SPARK-42635] - Several counter-intuitive behaviours in the TimestampAdd expression
[SPARK-42644] - Add `hive` dependency to `connect` module
[SPARK-42649] - Remove the standard Apache License header from the top of third-party source files
[SPARK-42671] - Fix bug for createDataFrame from complex type schema
[SPARK-42745] - Improved AliasAwareOutputExpression works with DSv2
[SPARK-42747] - Fix incorrect internal status of LoR and AFT
[SPARK-42770] - SQLImplicitsTestSuite test failed with Java 17
[SPARK-42785] - [K8S][Core] When spark submit without --deploy-mode, will face NPE in Kubernetes Case
[SPARK-42793] - `connect` module requires `build_profile_flags`
[SPARK-42799] - Update SBT build `xercesImpl` version to match with pom.xml
[SPARK-42801] - Fix Flaky ClientE2ETestSuite
[SPARK-42812] - client_type is missing from AddArtifactsRequest proto message
[SPARK-42817] - Spark driver logs are filled with Initializing service data for shuffle service using name
[SPARK-42820] - Update ORC to 1.8.3
[SPARK-42852] - Revert NamedLambdaVariable related changes from EquivalentExpressions
[SPARK-42899] - DataFrame.to(schema) fails when it contains non-nullable nested field in nullable field
[SPARK-42906] - Replace a starting digit with `x` in resource name prefix
[SPARK-42922] - Use SecureRandom, instead of Random in security sensitive contexts
[SPARK-42937] - Join with subquery in condition can fail with wholestage codegen and adaptive execution disabled
[SPARK-42957] - `release-build.sh` should not remove SBOM artifacts
[SPARK-42974] - Restore `Utils#createTempDir` use `ShutdownHookManager.registerShutdownDeleteDir` to cleanup tempDir
[SPARK-43004] - vendor==vendor typo in ResourceRequest.equals()
[SPARK-43005] - `v is v >= 0` typo in pyspark/pandas/config.py
[SPARK-43006] - self.deserialized == self.deserialized typo in StorageLevel __eq__()
[SPARK-43050] - Fix construct aggregate expressions by replacing grouping functions
[SPARK-43067] - Error class resource file in Kafka connector is misplaced
[SPARK-43069] - Use `sbt-eclipse` instead of `sbteclipse-plugin`
[SPARK-43113] - Codegen error when full outer join's bound condition has multiple references to the same stream-side column
[SPARK-43125] - Connect Server Can't Handle Exception With Null Message Normally
[SPARK-43126] - mark two Hive UDF expressions as stateful
[SPARK-43141] - Ignore generated Java files in checkstyle
[SPARK-43157] - TreeNode tags can become corrupted and hang driver when the dataset is cached
[SPARK-43249] - df.sql() should send metrics back()
[SPARK-43281] - Fix concurrent writer does not update file metrics
[SPARK-43293] - __qualified_access_only should be ignored in normal columns
[SPARK-43329] - driver and executors shared same Kubernetes PVC in Spark 3.4+
[SPARK-43337] - Asc/desc arrow icons for sorting column does not get displayed in the table column
[SPARK-43340] - Handle missing stack-trace field in eventlogs
[SPARK-43342] - Revert SPARK-39006 Show a directional error message for executor PVC dynamic allocation failure
[SPARK-43373] - Revert [SPARK-39203][SQL] Rewrite table location to absolute URI based on database URI
[SPARK-43378] - SerializerHelper.deserializeFromChunkedBuffer leaks deserialization streams
[SPARK-43398] - Executor timeout should be max of idleTimeout rddTimeout shuffleTimeout
[SPARK-43404] - Filter current version while reusing sst files for RocksDB state store provider while uploading to DFS to prevent id mismatch
[SPARK-43425] - Add TimestampNTZType to ColumnarBatchRow
[SPARK-43441] - makeDotNode should not fail when DeterministicLevel is absent
[SPARK-43471] - Handle missing hadoopProperties and metricsProperties
[SPARK-43510] - Spark application hangs when YarnAllocator adds running executors after processing completed containers
[SPARK-43522] - Creating struct column occurs error 'org.apache.spark.sql.AnalysisException [DATATYPE_MISMATCH.CREATE_NAMED_STRUCT_WITHOUT_FOLDABLE_STRING]'
[SPARK-43527] - Fix catalog.listCatalogs in PySpark
[SPARK-43541] - Incorrect column resolution on FULL OUTER JOIN with USING
[SPARK-43547] - Update "Supported Pandas API" page to point out the proper pandas docs
[SPARK-43589] - Fix `cannotBroadcastTableOverMaxTableBytesError` to use `bytesToString`
[SPARK-43718] - References to a specific side's key in a USING join can have wrong nullability
[SPARK-43719] - Handle missing row.excludedInStages field
[SPARK-43758] - Upgrade snappy-java to 1.1.10.0
[SPARK-43759] - Expose TimestampNTZType in pyspark.sql.types
[SPARK-43760] - Incorrect attribute nullability after RewriteCorrelatedScalarSubquery leads to incorrect query results
[SPARK-43802] - unbase64 and unhex codegen are invalid with failOnError
[SPARK-43949] - Upgrade Cloudpickle to 2.2.1
[SPARK-43956] - Fix the bug doesn't display column's sql for Percentile[Cont|Disc]
[SPARK-43973] - Structured Streaming UI should display failed queries correctly
[SPARK-43976] - Handle the case where modifiedConfigs doesn't exist in event logs
[SPARK-44040] - Incorrect result after count distinct
[SPARK-44053] - Update ORC to 1.8.4
[SPARK-44136] - StateManager may get materialized in executor instead of driver in FlatMapGroupsWithStateExec
[SPARK-44142] - Utility to convert python types to spark types compares Python "type" object rather than user's "tpe" for categorical data types
[SPARK-44383] - Fix the trim logic did't handle ASCII control characters correctly

New Feature

[SPARK-42555] - Add JDBC to DataFrameReader
[SPARK-42557] - Add Broadcast to functions
[SPARK-42558] - Implement DataFrameStatFunctions
[SPARK-42559] - Implement DataFrameNaFunctions
[SPARK-42560] - Implement ColumnName
[SPARK-42561] - Add TempView APIs to Dataset
[SPARK-42564] - Implement Dataset.version and Dataset.time
[SPARK-42576] - Add 2nd groupBy method to Dataset
[SPARK-42580] - Add initial typed Dataset APIs
[SPARK-42581] - Add SparkSession implicits
[SPARK-42586] - Implement RuntimeConf
[SPARK-42605] - Implement TypedColumn
[SPARK-42631] - Support custom extensions in Spark Connect Scala client
[SPARK-42639] - Add createDataFrame/createDataset to SparkSession
[SPARK-42691] - Implement Dataset.semanticHash
[SPARK-42702] - Support parameterized CTE
[SPARK-47717] - Support Hive tables as a streaming source and sink

Improvement

[SPARK-42421] - Use the utils to get the switch for dynamic allocation used in local checkpoint
[SPARK-42519] - Add more WriteTo tests after Scala Client session config is supported
[SPARK-42533] - SSL support for Scala Client
[SPARK-42538] - `functions#lit` support more types
[SPARK-42573] - Enable binary compatibility tests for SparkSession/Dataset/Column/functions
[SPARK-42575] - Replace `AnyFunSuite` with `ConnectFunSuite` for scala client tests
[SPARK-42647] - Remove aliases from deprecated numpy data types
[SPARK-42721] - Add an Interceptor to log RPCs in connect-server
[SPARK-42754] - Spark 3.4 history server's SQL tab incorrectly groups SQL executions when replaying event logs from Spark 3.3 and earlier
[SPARK-42757] - Implement textFile for DataFrameReader
[SPARK-42767] - Add check condition to start connect server fallback with `in-memory` and auto ignored some tests strongly depend on hive
[SPARK-42778] - QueryStageExec should respect supportsRowBased
[SPARK-42823] - spark-sql shell supports multipart namespaces for initialization
[SPARK-42888] - Upgrade GCS connector to 2.2.11.
[SPARK-42894] - Implement cache, persist, unpersist, and storageLevel
[SPARK-42927] - Make `o.a.spark.util.Iterators#size` as `private[spark]`
[SPARK-42930] - Change the access scope of `ProtobufSerDe` related implementations to `private[spark]`
[SPARK-42934] - Testing OrcEncryptionSuite using maven is always skipped
[SPARK-43284] - _metadata.file_path regression
[SPARK-43374] - Protobuf Licensed under BSD-3 not BSD-2 clause
[SPARK-43395] - Exclude macOS tar extended metadata in make-distribution.sh
[SPARK-43414] - Fix flakiness in Kafka RDD suites due to port binding configuration issue
[SPARK-43894] - df.cache() not working

Test

[SPARK-43083] - Mark `*StateStoreSuite` as `ExtendedSQLTest`
[SPARK-43450] - Add more `_metadata` filter test cases
[SPARK-43587] - Run HealthTrackerIntegrationSuite in a dedicate JVM

Task

[SPARK-42467] - Spark Connect Scala Client: GroupBy and Aggregation
[SPARK-42531] - Scala Client Add Collection Functions
[SPARK-42544] - Spark Connect Scala Client: support parameterized SQL
[SPARK-42640] - Remove stale entries from the excluding rules for CompabilitySuite
[SPARK-42667] - Spark Connect: newSession API
[SPARK-42688] - Rename Connect proto Request client_id to session_id

Dependency upgrade

[SPARK-44070] - Bump snappy-java 1.1.10.1

Documentation

[SPARK-42773] - Minor grammatical change to "Supports Spark Connect" message
[SPARK-42797] - Spark Connect - Grammatical improvements to Spark Overview and Spark Connect Overview doc pages
[SPARK-43139] - Bug in INSERT INTO documentation
[SPARK-43517] - Add a migration guide for namedtuple monkey patch
[SPARK-43751] - Document for unbase64 behavior change
[SPARK-44038] - Update YuniKorn docs with v1.3

Edit/Copy Release Notes

The text area below allows the project release notes to be edited and copied to another document.

Release Notes - Spark - Version 3.4.1
    
<h2>        Sub-task
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-41527'>SPARK-41527</a>] -         Implement DataFrame.observe
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-41818'>SPARK-41818</a>] -         Support DataFrameWriter.saveAsTable
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-41843'>SPARK-41843</a>] -         Implement SparkSession.udf
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42020'>SPARK-42020</a>] -         createDataFrame with UDT
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42194'>SPARK-42194</a>] -         Allow `columns` parameter when creating DataFrame with Series.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42247'>SPARK-42247</a>] -         Standardize `returnType` property of UserDefinedFunction
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42340'>SPARK-42340</a>] -         Implement Grouped Map API
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42496'>SPARK-42496</a>] -         Introducing Spark Connect on the main page and adding Spark Connect Overview page
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42529'>SPARK-42529</a>] -         Support Cube and Rollup
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42541'>SPARK-42541</a>] -         Support Pivot with provided pivot column values
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42542'>SPARK-42542</a>] -         Support Pivot without providing pivot column values
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42570'>SPARK-42570</a>] -         Fix DataFrameReader to use the default source
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42615'>SPARK-42615</a>] -         Refactor the AnalyzePlan RPC and add `session.version`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42679'>SPARK-42679</a>] -         createDataFrame doesn&#39;t work with non-nullable schema.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42706'>SPARK-42706</a>] -         Document the Spark SQL error classes in user-facing documentation.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42731'>SPARK-42731</a>] -         Update Spark Configuration
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42733'>SPARK-42733</a>] -         df.write.format().save() should support calling with no path or table name
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42743'>SPARK-42743</a>] -         Support analyze TimestampNTZ columns
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42755'>SPARK-42755</a>] -         Factor literal value conversion out to connect-common
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42756'>SPARK-42756</a>] -         Helper function to convert proto literal to value in Python Client
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42765'>SPARK-42765</a>] -         Enable importing `pandas_udf` from `pyspark.sql.connect.functions`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42777'>SPARK-42777</a>] -         Support converting TimestampNTZ catalog stats to plan stats
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42796'>SPARK-42796</a>] -         Support TimestampNTZ in Cached Batch
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42816'>SPARK-42816</a>] -         Increase max message size to 128MB
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42818'>SPARK-42818</a>] -         Implement DataFrameReader/Writer.jdbc
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42824'>SPARK-42824</a>] -         Provide a clear error message for unsupported JVM attributes.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42826'>SPARK-42826</a>] -         Add migration notes for update to supported pandas version.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42848'>SPARK-42848</a>] -         Implement DataFrame.registerTempTable
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42911'>SPARK-42911</a>] -         Introduce more basic exceptions.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42970'>SPARK-42970</a>] -         Reuse pyspark.sql.tests.test_arrow test cases
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43071'>SPARK-43071</a>] -         Support SELECT DEFAULT with ORDER BY, LIMIT, OFFSET for INSERT source relation
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43072'>SPARK-43072</a>] -         Include TIMESTAMP_NTZ in ANSI Compliance doc
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43098'>SPARK-43098</a>] -         Should not handle the COUNT bug when the GROUP BY clause of a correlated scalar subquery is non-empty
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43156'>SPARK-43156</a>] -         Correctness COUNT bug in correlated scalar subselect with `COUNT(*) is null`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43336'>SPARK-43336</a>] -         Casting between Timestamp and TimestampNTZ requires timezone
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44018'>SPARK-44018</a>] -         Improve the hashCode for Some DS V2 Expression
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44168'>SPARK-44168</a>] -         Add Apache Spark 3.4.1 Dockerfiles
</li>
</ul>
            
<h2>        Bug
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-37829'>SPARK-37829</a>] -         An outer-join using joinWith on DataFrames returns Rows with null fields instead of null values
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42290'>SPARK-42290</a>] -         Spark Driver hangs on OOM during Broadcast when AQE is enabled 
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42553'>SPARK-42553</a>] -         NonReserved keyword &quot;interval&quot; can&#39;t be column name
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42622'>SPARK-42622</a>] -         StackOverflowError reading json that does not conform to schema
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42623'>SPARK-42623</a>] -         parameter markers not blocked in DDL
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42635'>SPARK-42635</a>] -         Several counter-intuitive behaviours in the TimestampAdd expression
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42644'>SPARK-42644</a>] -         Add `hive` dependency to `connect` module
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42649'>SPARK-42649</a>] -         Remove the standard Apache License header from the top of third-party source files
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42671'>SPARK-42671</a>] -         Fix bug for createDataFrame from complex type schema
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42745'>SPARK-42745</a>] -         Improved AliasAwareOutputExpression works with DSv2
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42747'>SPARK-42747</a>] -         Fix incorrect internal status of LoR and AFT
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42770'>SPARK-42770</a>] -         SQLImplicitsTestSuite test failed with Java 17
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42785'>SPARK-42785</a>] -         [K8S][Core] When spark submit without --deploy-mode, will face NPE in Kubernetes Case
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42793'>SPARK-42793</a>] -         `connect` module requires `build_profile_flags`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42799'>SPARK-42799</a>] -         Update SBT build `xercesImpl` version to match with pom.xml
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42801'>SPARK-42801</a>] -         Fix Flaky ClientE2ETestSuite
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42812'>SPARK-42812</a>] -         client_type is missing from AddArtifactsRequest proto message
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42817'>SPARK-42817</a>] -         Spark driver logs are filled with Initializing service data for shuffle service using name
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42820'>SPARK-42820</a>] -         Update ORC to 1.8.3
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42852'>SPARK-42852</a>] -         Revert NamedLambdaVariable related changes from EquivalentExpressions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42899'>SPARK-42899</a>] -         DataFrame.to(schema) fails when it contains non-nullable nested field in nullable field
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42906'>SPARK-42906</a>] -         Replace a starting digit with `x` in resource name prefix
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42922'>SPARK-42922</a>] -         Use SecureRandom, instead of Random in security sensitive contexts
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42937'>SPARK-42937</a>] -         Join with subquery in condition can fail with wholestage codegen and adaptive execution disabled
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42957'>SPARK-42957</a>] -         `release-build.sh` should not remove SBOM artifacts
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42974'>SPARK-42974</a>] -         Restore `Utils#createTempDir` use  `ShutdownHookManager.registerShutdownDeleteDir` to cleanup tempDir
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43004'>SPARK-43004</a>] -         vendor==vendor typo in ResourceRequest.equals()
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43005'>SPARK-43005</a>] -         `v is v &gt;= 0` typo in pyspark/pandas/config.py
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43006'>SPARK-43006</a>] -         self.deserialized == self.deserialized typo in StorageLevel __eq__()
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43050'>SPARK-43050</a>] -         Fix construct aggregate expressions by replacing grouping functions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43067'>SPARK-43067</a>] -         Error class resource file in Kafka connector is misplaced
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43069'>SPARK-43069</a>] -         Use `sbt-eclipse` instead of `sbteclipse-plugin`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43113'>SPARK-43113</a>] -         Codegen error when full outer join&#39;s bound condition has multiple references to the same stream-side column
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43125'>SPARK-43125</a>] -         Connect Server Can&#39;t Handle Exception With Null Message Normally
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43126'>SPARK-43126</a>] -         mark two Hive UDF expressions as stateful
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43141'>SPARK-43141</a>] -         Ignore generated Java files in checkstyle
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43157'>SPARK-43157</a>] -         TreeNode tags can become corrupted and hang driver when the dataset is cached
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43249'>SPARK-43249</a>] -         df.sql() should send metrics back()
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43281'>SPARK-43281</a>] -         Fix concurrent writer does not update file metrics
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43293'>SPARK-43293</a>] -         __qualified_access_only should be ignored in normal columns
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43329'>SPARK-43329</a>] -         driver and executors shared same Kubernetes PVC in Spark 3.4+
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43337'>SPARK-43337</a>] -         Asc/desc arrow icons for sorting column does not get displayed in the table column
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43340'>SPARK-43340</a>] -         Handle missing stack-trace field in eventlogs
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43342'>SPARK-43342</a>] -         Revert SPARK-39006 Show a directional error message for executor PVC dynamic allocation failure
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43373'>SPARK-43373</a>] -         Revert [SPARK-39203][SQL] Rewrite table location to absolute URI based on database URI
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43378'>SPARK-43378</a>] -         SerializerHelper.deserializeFromChunkedBuffer leaks deserialization streams
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43398'>SPARK-43398</a>] -         Executor timeout should be max of idleTimeout rddTimeout shuffleTimeout
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43404'>SPARK-43404</a>] -         Filter current version while reusing sst files for RocksDB state store provider while uploading to DFS to prevent id mismatch
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43425'>SPARK-43425</a>] -         Add TimestampNTZType to ColumnarBatchRow
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43441'>SPARK-43441</a>] -         makeDotNode should not fail when DeterministicLevel is absent
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43471'>SPARK-43471</a>] -         Handle missing hadoopProperties and metricsProperties
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43510'>SPARK-43510</a>] -         Spark application hangs when YarnAllocator adds running executors after processing completed containers
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43522'>SPARK-43522</a>] -         Creating struct column occurs  error &#39;org.apache.spark.sql.AnalysisException [DATATYPE_MISMATCH.CREATE_NAMED_STRUCT_WITHOUT_FOLDABLE_STRING]&#39;
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43527'>SPARK-43527</a>] -         Fix catalog.listCatalogs in PySpark
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43541'>SPARK-43541</a>] -         Incorrect column resolution on FULL OUTER JOIN with USING
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43547'>SPARK-43547</a>] -         Update &quot;Supported Pandas API&quot; page to point out the proper pandas docs
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43589'>SPARK-43589</a>] -         Fix `cannotBroadcastTableOverMaxTableBytesError` to use `bytesToString`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43718'>SPARK-43718</a>] -         References to a specific side&#39;s key in a USING join can have wrong nullability
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43719'>SPARK-43719</a>] -         Handle missing row.excludedInStages field
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43758'>SPARK-43758</a>] -         Upgrade snappy-java to 1.1.10.0
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43759'>SPARK-43759</a>] -         Expose TimestampNTZType in pyspark.sql.types
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43760'>SPARK-43760</a>] -         Incorrect attribute nullability after RewriteCorrelatedScalarSubquery leads to incorrect query results
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43802'>SPARK-43802</a>] -         unbase64 and unhex codegen are invalid with failOnError
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43949'>SPARK-43949</a>] -         Upgrade Cloudpickle to 2.2.1
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43956'>SPARK-43956</a>] -         Fix the bug doesn&#39;t display column&#39;s sql for Percentile[Cont|Disc]
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43973'>SPARK-43973</a>] -         Structured Streaming UI should display failed queries correctly
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43976'>SPARK-43976</a>] -         Handle the case where modifiedConfigs doesn&#39;t exist in event logs
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44040'>SPARK-44040</a>] -         Incorrect result after count distinct
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44053'>SPARK-44053</a>] -         Update ORC to 1.8.4
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44136'>SPARK-44136</a>] -         StateManager may get materialized in executor instead of driver in FlatMapGroupsWithStateExec
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44142'>SPARK-44142</a>] -         Utility to convert python types to spark types compares Python &quot;type&quot; object rather than user&#39;s &quot;tpe&quot; for categorical data types
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44383'>SPARK-44383</a>] -         Fix the trim logic did&#39;t handle ASCII control characters correctly 
</li>
</ul>
            
<h2>        New Feature
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42555'>SPARK-42555</a>] -         Add JDBC to DataFrameReader
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42557'>SPARK-42557</a>] -         Add Broadcast to functions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42558'>SPARK-42558</a>] -         Implement DataFrameStatFunctions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42559'>SPARK-42559</a>] -         Implement DataFrameNaFunctions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42560'>SPARK-42560</a>] -         Implement ColumnName
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42561'>SPARK-42561</a>] -         Add TempView APIs to Dataset
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42564'>SPARK-42564</a>] -         Implement Dataset.version and Dataset.time
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42576'>SPARK-42576</a>] -         Add 2nd groupBy method to Dataset
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42580'>SPARK-42580</a>] -         Add initial typed Dataset APIs
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42581'>SPARK-42581</a>] -         Add SparkSession implicits
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42586'>SPARK-42586</a>] -         Implement RuntimeConf
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42605'>SPARK-42605</a>] -         Implement TypedColumn
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42631'>SPARK-42631</a>] -         Support custom extensions in Spark Connect Scala client
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42639'>SPARK-42639</a>] -         Add createDataFrame/createDataset to SparkSession
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42691'>SPARK-42691</a>] -         Implement Dataset.semanticHash
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42702'>SPARK-42702</a>] -         Support parameterized CTE
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-47717'>SPARK-47717</a>] -         Support Hive tables as a streaming source and sink
</li>
</ul>
    
<h2>        Improvement
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42421'>SPARK-42421</a>] -         Use the utils to get the switch for dynamic allocation used in local checkpoint
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42519'>SPARK-42519</a>] -         Add more WriteTo tests after Scala Client session config is supported
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42533'>SPARK-42533</a>] -         SSL support for Scala Client
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42538'>SPARK-42538</a>] -         `functions#lit` support more types 
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42573'>SPARK-42573</a>] -         Enable binary compatibility tests for SparkSession/Dataset/Column/functions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42575'>SPARK-42575</a>] -         Replace `AnyFunSuite` with `ConnectFunSuite` for scala client tests
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42647'>SPARK-42647</a>] -         Remove aliases from deprecated numpy data types
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42721'>SPARK-42721</a>] -         Add an Interceptor to log RPCs in connect-server
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42754'>SPARK-42754</a>] -         Spark 3.4 history server&#39;s SQL tab incorrectly groups SQL executions when replaying event logs from Spark 3.3 and earlier
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42757'>SPARK-42757</a>] -         Implement textFile for DataFrameReader
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42767'>SPARK-42767</a>] -         Add check condition to start connect server fallback with `in-memory` and auto ignored some tests strongly depend on hive
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42778'>SPARK-42778</a>] -         QueryStageExec should respect supportsRowBased
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42823'>SPARK-42823</a>] -         spark-sql shell supports multipart namespaces for initialization
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42888'>SPARK-42888</a>] -         Upgrade GCS connector to 2.2.11.
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42894'>SPARK-42894</a>] -         Implement cache, persist, unpersist, and storageLevel
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42927'>SPARK-42927</a>] -         Make `o.a.spark.util.Iterators#size` as `private[spark]`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42930'>SPARK-42930</a>] -         Change the access scope of `ProtobufSerDe` related implementations to `private[spark]`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42934'>SPARK-42934</a>] -         Testing OrcEncryptionSuite using maven is always skipped
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43284'>SPARK-43284</a>] -         _metadata.file_path regression
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43374'>SPARK-43374</a>] -         Protobuf Licensed under BSD-3 not  BSD-2 clause
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43395'>SPARK-43395</a>] -         Exclude macOS tar extended metadata in make-distribution.sh
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43414'>SPARK-43414</a>] -         Fix flakiness in Kafka RDD suites due to port binding configuration issue
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43894'>SPARK-43894</a>] -         df.cache() not working
</li>
</ul>
    
<h2>        Test
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43083'>SPARK-43083</a>] -         Mark `*StateStoreSuite` as `ExtendedSQLTest`
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43450'>SPARK-43450</a>] -         Add more `_metadata` filter test cases
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43587'>SPARK-43587</a>] -         Run HealthTrackerIntegrationSuite in a dedicate JVM
</li>
</ul>
        
<h2>        Task
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42467'>SPARK-42467</a>] -         Spark Connect Scala Client: GroupBy and Aggregation
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42531'>SPARK-42531</a>] -         Scala Client Add Collection Functions
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42544'>SPARK-42544</a>] -         Spark Connect Scala Client: support parameterized SQL
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42640'>SPARK-42640</a>] -         Remove stale entries from the excluding rules for CompabilitySuite
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42667'>SPARK-42667</a>] -         Spark Connect: newSession API
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42688'>SPARK-42688</a>] -         Rename Connect proto Request client_id to session_id
</li>
</ul>
                                                    
<h2>        Dependency upgrade
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44070'>SPARK-44070</a>] -         Bump snappy-java 1.1.10.1
</li>
</ul>
                                                                                    
<h2>        Documentation
</h2>
<ul>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42773'>SPARK-42773</a>] -         Minor grammatical change to &quot;Supports Spark Connect&quot; message
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-42797'>SPARK-42797</a>] -         Spark Connect - Grammatical improvements to Spark Overview and Spark Connect Overview doc pages
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43139'>SPARK-43139</a>] -         Bug in INSERT INTO documentation
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43517'>SPARK-43517</a>] -         Add a migration guide for namedtuple monkey patch
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-43751'>SPARK-43751</a>] -         Document for unbase64 behavior change
</li>
<li>[<a href='https://issues.apache.org/jira/browse/SPARK-44038'>SPARK-44038</a>] -         Update YuniKorn docs with v1.3
</li>
</ul>