다른 명령
스파크 (SPARK) 설치
설치에 필요한 파일 다운로드
- 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
- JAVA JDK 다운로드 => https://www.oracle.com/index.html
- [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
- * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild
- [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
- WINUTILS 다운로드 => https://github.com/cdarlint/winutils
스파크_하둡 파일 압축해제후 환경변수 설정
- 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제
- 환경변수 설정 / 추가 (OS별 아래 참조)
- WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사
PySpark 설치 (pip 이용)
pip install pyspark
Linux or macOS 에서 설치
- 환경변수 설정
export JAVA_HOME=<path_to_java> export SPARK_HOME=$(python -c "import site; print(site.getsitepackages()[0])")/pyspark export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=python3
<path_to_java>를 실제 설치된 java path 로 변경하세요.
/usr/libexec/java_home
Windows 에서 설치
- powershell 인 경우
$env:JAVA_HOME = "<path_to_java>" $env:SPARK_HOME = (python -c "import site; print(site.getsitepackages()[0])") + "\pyspark" $env:PYSPARK_PYTHON = "python3" $env:PYSPARK_DRIVER_PYTHON = "python3"
<path_to_java>를 실제 설치된 java path 로 변경 하세요.
PySpark 설치 후 테스트
- PowerShell 실행 후
PS C:\Users\bassd> pyspark
from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv") prod.show()