scala

org.apache.spark.sql.AnalysisException: Table or view not found: 2023.07.27
java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;) 2023.07.27
com.mysql.jdbc.PacketTooBigException: Packet for query is too large 2023.07.19

org.apache.spark.sql.AnalysisException: Table or view not found:

BAPA 2023. 7. 27. 23:03

2023. 7. 27. 23:03

spark 2.4.8, scala 2.11

에러 문구

org.apache.spark.sql.AnalysisException: Table or view not found: `dbName`.`tbName`; line 12 pos 9;

Intellij 에서 실행시킬 때 아주 잘 작동하였으나, 테스트 서버에 배포하여 spark-submit하니 위와 같이 해당 테이블을 찾지 못하는 문제가 발생하였다.

개인적으로 확인한 리스트

MetaStore URL 설정여부

    val sparkConf: SparkConf = new SparkConf()
        .set("hive.metastore.uris", AppConfig.hiveMetastoreUrl)

- 위와 같이 `"hive.metastore.uris"`  에 metastore url을 잘 작성해주었나?
    - 당연히 intellij에서 실행이 잘 되는건 잘 넣어줬기 때문이다.

enableHiveSupport() 설정 여부

    SparkSession.builder().config(SparkConfig.sparkConf)
                          .enableHiveSupport()
                          .getOrCreate()

위와 같이 enableHiveSupport()를 잘 넣어 주었나?
- 당연히 intellij에서 실행이 잘 되는건 잘 넣어줬기 때문이다.

HDFS 권한 문제?

    hdfs dfs -ls /HiveTablePath

따로 설정하지 않았지만, 확인 결과 문제는 없었다.

Hive-site.xml을 제대로 읽지 못 했다?

    spark-submit \
    --class Execute class path \
    --master Mode \
    --jars "Extra library Path/*.jar" \
    --files Hive Site Path/hive-site.xml \

빙고 Spark submit이 hive-site.xml을 읽어오지 않아 발생한 문제였다
- metastore설정이 잘 되어 있는데 왜 잘 작동하지 못 하는지는 추후 확인 해 봐야겠다.

개인적인 팁

한가지 팁으로는 --jars "Extra library Path/*.jar" ( 잘못된잘못된 정보를 공유하는 것일 수 있으니, 틀린 정보면 알려주시면 감사하겠습니다.)
- 위 *.jar은 Spark 1.6을 사용할 때 사용불가였지만, 2.4로 넘어오니 동작하였다. (spark 1.6 : "~~/lib1.jar,lib2.jar....")
- Extra library Path에 Prefix를 넣어 원격지의 jar파일을 가져와서 읽을 수 있다. (e.g: hdfs://///*.jar)
  - 필자 경험상 이렇게 안 하고 로컬의 library를 사용하면, 지속적으로 HDFS에 업로드
  - 위와 같이 실행하는 hdfs에 올려놓으면 업로드 하지 않고, 해당 lib에 링크걸어서 사용하는 것으로 보였다.

필자는 4번으로 해결했다. 이것도 아니였으면 더 많은 것을 찾아봐서 더 많은 오류 해결 방법을 습득했을 것 이지만, 그래도 빠르게 해결되서 다행이다.

저작자표시

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

데이터 이전 후 spark application 구동 시 발생한 NullPointerException (0)	2023.08.16
java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;) (0)	2023.07.27
com.mysql.jdbc.PacketTooBigException: Packet for query is too large (0)	2023.07.19
git submodule 에러 (0)	2021.05.24
장고 ( VSCode ) - 도커 ( Oracle ) 연결 에러 (0)	2021.05.21

java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

BAPA 2023. 7. 27. 22:45

2023. 7. 27. 22:45

버전

Spark 2.4.8, Scala 2.11.12

Spark 2.4.8, Scala 2.11.12

회사에서 마이그래이션을 위해서 새로 구현한 Spark 배치/스트리밍을 서버에 배포하여 실행 테스트를 해보니 아래와 같은 에러가 발생하였다.

diagnostics: User class threw exception: java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V

위 에러는 Scala의 메소드를 실행시킬 수 없다는 에러 문구다
해당 에러가 발생하는 곳을 따라가보니 발생하는 곳을 확인해보니 case class에서 발생하는 에러였다.

case class TableInfo(serviceType: String, databaseName: String, tableName: String)

확인해보니, 서버에 구축된 Spark의 Scala 버전과 Build시 사용하는 Sacla 버전이 달라 문제가 발생한 것이였다.

spark 2.4.8버전이기때문에 당연히 scala 2.12버전으로 구축 했을 줄 알았는데 확인해보니 Scala 2.11.12 버전으로 설치해 놨었다..

spark 버전 확인하는 방법은 다음과 같다

[~]$ spark-sql --version
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.8.3.1.0.0-2
      /_/

Using Scala version 2.11.12, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_192

[~]$ spark-shell --version
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.8.3.1.0.0-2
      /_/

Using Scala version 2.11.12, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_192

다음 부터는 공식홈페이지에 아래와 같이 scala 2.12를 사용해야한다고 해서 당연히 그렇게 구축되어 있다고 생각하면 안 되겠다. 개발전에 구축된 버전을 먼저 확인하고 개발을 진행해야겠다.

Spark runs on Java 8, Python 2.7+/3.4+ and R 3.5+. For the Scala API, Spark 2.4.8 uses Scala 2.12. You will need to use a compatible Scala version (2.12.x).

Spark 2.4.8 공식홈페이지

저작자표시

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

데이터 이전 후 spark application 구동 시 발생한 NullPointerException (0)	2023.08.16
org.apache.spark.sql.AnalysisException: Table or view not found: (0)	2023.07.27
com.mysql.jdbc.PacketTooBigException: Packet for query is too large (0)	2023.07.19
git submodule 에러 (0)	2021.05.24
장고 ( VSCode ) - 도커 ( Oracle ) 연결 에러 (0)	2021.05.21

com.mysql.jdbc.PacketTooBigException: Packet for query is too large

BAPA 2023. 7. 19. 01:48

2023. 7. 19. 01:48

Version

Spark : 1.6.3
hdfs : 2.7.3
Hive : 1.2.1

기분좋게 휴가를 다녀왔더니 집계 메일이 와있어 호다닥 이슈를 확인해 봤다.

실패한 Spark 집계 및 상당히 느려진 Spark 집계... 당혹스러웠다.

Spark UI를 확인하면 아래와 같다.

분명 집계 개선을 하여 3분대로 낮춰놨는데, 당혹스럽게 위 사진과 같이 불필요한 wait 시간이 29분이나 되는 것을 확인할 수있다. total Uptime과 비교하면 실직적으로 집계를 수행한 시간은 1분 남짓인데, 기다린 시간이 29분인 것을 보니 상당히 큰 이슈였다.

그래서 Hadoop Application 에서 로그를 확인해 보니 아래와 같은 문제가 발생하였다.

ERROR Hive: org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out
    at org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:129)
    at org.apache.thrift.transport.TTransport.readAll(TTransport.java:86)
    ...
Caused by: java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    ... 134 more

내부망으로 DataNote 통신을 하는데 TimeOut인 것은 뭔가 문제가 있어보였다.

다른 문제점이 무엇이 있는지 확인할 겸 Ambari를 확인해보니, HiveMetastore에 Alert가 발생하였다 .

        Metastore on ambariserver.coresight.com failed (Traceback (most recent call last):
  File "/var/lib/ambari-agent/cache/common-services/HIVE/0.12.0.2.0/package/alerts/alert_hive_metastore.py", line 203, in execute
    timeout_kill_strategy=TerminateStrategy.KILL_PROCESS_TREE,
  File "/usr/lib/python2.6/site-packages/resource_management/core/base.py", line 166, in __init__
    self.env.run()
  File "/usr/lib/python2.6/site-packages/resource_management/core/environment.py", line 160, in run
    self.run_action(resource, action)
  File "/usr/lib/python2.6/site-packages/resource_management/core/environment.py", line 124, in run_action
    provider_action()
  File "/usr/lib/python2.6/site-packages/resource_management/core/providers/system.py", line 262, in action_run
    tries=self.resource.tries, try_sleep=self.resource.try_sleep)
  File "/usr/lib/python2.6/site-packages/resource_management/core/shell.py", line 72, in inner
    result = function(command, **kwargs)
  File "/usr/lib/python2.6/site-packages/resource_management/core/shell.py", line 102, in checked_call
    tries=tries, try_sleep=try_sleep, timeout_kill_strategy=timeout_kill_strategy)
  File "/usr/lib/python2.6/site-packages/resource_management/core/shell.py", line 150, in _call_wrapper
    result = _call(command, **kwargs_copy)
  File "/usr/lib/python2.6/site-packages/resource_management/core/shell.py", line 297, in _call
    raise ExecuteTimeoutException(err_msg)

내용을 보아하니 대충 Metatore에 문제가 발생하였다는 것을 볼 수 있다.

그럼으로 해당 문제를 확인하기 위해 (Hortnworks기준) /var/log/hive/hivemetastore.log 를 확인해 보니 아래와 같은 엄청난 것을 볼 수 있었다.

위와 같은 충격적인 Log를 확인하고, Error문구를 확인하니 아래와 같았다.

com.mysql.jdbc.PacketTooBigException: Packet for query is too large (1048964 > 1048576). You can change this value on the server by setting the max_allowed_packet' variable.
        at com.mysql.jdbc.MysqlIO.send(MysqlIO.java:3279)
        at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1971)
        ...

에러 문구를 보니 설정한 max_allowed_packet 보다 많은 양의 packet보내 문제가 발생하였다는 것이였다.

필자는 mysql 을 5.1버전을 사용하고 있는데, Default값이 1MB인지, Hortenworks의 Default값인지 정확하게 확인은 하지 않았지만, 상대적으로 낮은 사이즈로 설정되어있었다. (5.7 버전의 Default값은 4MB였다.)

이것을 해결 하는 방법은 여러가지가 있겠지만, 필자가 생각하는 방법은 2가지가 있다.

더 작은 패킷을 보낸다
- 사실상 원하는 해결책이 아님

max_allowed_pachet을 늘린다.

당장 바꾸고 싶다면 아래와 같이 하면 된다

 SET GLOBAL max_allowed_packet = 33554432;        
 FLUSH PRIVILEGES;        
 show variables where Variable_name = 'max_allowed_packet';

/etc/my.cnf 에 max_allowed_pachet 추가해줌

 [mysqld]
 datadir=/var/lib/mysql
 socket=/var/lib/mysql/mysql.sock
 user=mysql
 # Disabling symbolic-links is recommended to prevent assorted security risks
 symbolic-links=0
 max_allowed_packet=32M

굳이 32MB일 필요는 없다

mysql을 재시작 해주면된다.

여러가지 문제를 경험해야 많은 것을 배울 수 있는 것 같다.

만약 설정된 max_allowed_packet가 1MB가 아니여서 위와 같은 Error가 발생하지 않았다면,
회사에서 5년치 데이터를 한번에 읽어 처리하여 Pachet량이 1mb를 넘기지 않았다면 필자는 해당 문제를 경험하지 않아 고민을 하지 않았을 것 같다.

물론 문제가 발생하여 짜증은 났지만, 해결한 현재는 좋은 경험이였다고 생각한다.

저작자표시

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

데이터 이전 후 spark application 구동 시 발생한 NullPointerException (0)	2023.08.16
org.apache.spark.sql.AnalysisException: Table or view not found: (0)	2023.07.27
java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;) (0)	2023.07.27
git submodule 에러 (0)	2021.05.24
장고 ( VSCode ) - 도커 ( Oracle ) 연결 에러 (0)	2021.05.21

PREV 이전 1 NEXT 다음

Hyun

scala

org.apache.spark.sql.AnalysisException: Table or view not found:

spark 2.4.8, scala 2.11

에러 문구

개인적으로 확인한 리스트

개인적인 팁

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

버전

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

com.mysql.jdbc.PacketTooBigException: Packet for query is too large

'프로그래밍 및 IT > 에러 및 잡버그' 카테고리의 다른 글

+ Recent posts

티스토리툴바