<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ko">
	<id>https://devcafe.co.kr/w/index.php?action=history&amp;feed=atom&amp;title=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84</id>
	<title>데이터셋 데이터프레임 - 편집 역사</title>
	<link rel="self" type="application/atom+xml" href="https://devcafe.co.kr/w/index.php?action=history&amp;feed=atom&amp;title=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84"/>
	<link rel="alternate" type="text/html" href="https://devcafe.co.kr/w/index.php?title=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84&amp;action=history"/>
	<updated>2026-05-18T07:38:19Z</updated>
	<subtitle>이 문서의 편집 역사</subtitle>
	<generator>MediaWiki 1.42.1</generator>
	<entry>
		<id>https://devcafe.co.kr/w/index.php?title=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84&amp;diff=406&amp;oldid=prev</id>
		<title>Devcafe: 새 문서: = 데이터프레임 = # RDD와 같이 데이터프레임은 클러스터상의 여러 노드에 분산된 이뮤터블 데이터 집합 # RDD와는 달리 데이터프레임의 데이터는 칼럼명으로 이루어짐 (pandas의 데이터프레임과 비슷한 개념) # 데이터프레임은 큰 데이터셋을 쉽게 처리하기위해 디자인 됨 # 데이터프레임으로 데이터의 구조를 공식화할 수 있으며, 상위 계층에 대한 추상화도 가능 # 이...</title>
		<link rel="alternate" type="text/html" href="https://devcafe.co.kr/w/index.php?title=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84&amp;diff=406&amp;oldid=prev"/>
		<updated>2024-10-14T17:45:15Z</updated>

		<summary type="html">&lt;p&gt;새 문서: = 데이터프레임 = # RDD와 같이 데이터프레임은 클러스터상의 여러 노드에 분산된 이뮤터블 데이터 집합 # RDD와는 달리 데이터프레임의 데이터는 칼럼명으로 이루어짐 (pandas의 데이터프레임과 비슷한 개념) # 데이터프레임은 큰 데이터셋을 쉽게 처리하기위해 디자인 됨 # 데이터프레임으로 데이터의 구조를 공식화할 수 있으며, 상위 계층에 대한 추상화도 가능 # 이...&lt;/p&gt;
&lt;p&gt;&lt;b&gt;새 문서&lt;/b&gt;&lt;/p&gt;&lt;div&gt;= 데이터프레임 =&lt;br /&gt;
# RDD와 같이 데이터프레임은 클러스터상의 여러 노드에 분산된 이뮤터블 데이터 집합&lt;br /&gt;
# RDD와는 달리 데이터프레임의 데이터는 칼럼명으로 이루어짐 (pandas의 데이터프레임과 비슷한 개념)&lt;br /&gt;
# 데이터프레임은 큰 데이터셋을 쉽게 처리하기위해 디자인 됨&lt;br /&gt;
# 데이터프레임으로 데이터의 구조를 공식화할 수 있으며, 상위 계층에 대한 추상화도 가능&lt;br /&gt;
# 이러한 점에서 데이터프레임은 관계형 데이터베이스의 테이블과 비슷하다. &lt;br /&gt;
# 각 주제별 API들을 제공&lt;br /&gt;
# 스파크 엔진은 최초에 논리적인 실행 계획을 작성하고 물리적 플랜에 의해 생성된 코드를 실행 함&lt;br /&gt;
# 이 물리적 플랜은 비용 옵티마이저(cost optimizer)에 의해 결정됨&lt;br /&gt;
# 이는 데이터프레임의 가장 큰 장점 중 하나로, 자바나 스칼라에 비교해 파이썬에서는 상당히 느린 RDD와 다르게 데이터프레임은 모든 언어에 균일한 성능을 나타냄&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
= 데이터셋 =&lt;br /&gt;
# 스파크 데이터셋의 목적은 사용자가 도메인 객체에서 트랜스포메이션을 쉽게 표현할 수 있는 API를 제공하고, 또한 견고한 스파크 SQL 실행 엔진의 성능과 장점을 제공하는 것&lt;br /&gt;
# 현재는 자바와 스칼라에서만 데이터셋이 사용 가능&lt;br /&gt;
&lt;br /&gt;
= 카탈리스트 옵티마이저 =&lt;br /&gt;
# 스파크SQL은 SQL 쿼리와 데이터프레임 API를 모두 강화시키기 때문에 아파치 스파크에서 가장 기술적으로 발전되고 디자인된 구성요소&lt;br /&gt;
# 스파크 SQL 코어에는 카탈리스트 옵티마이저가 있고, 이 옵티마이저는 함수 프로그래밍 구조에 기반하고 있으며 두가지 목적을 위해 디자인되었음&lt;br /&gt;
## 새로운 최적화 기술과 스파크 SQL 피처를 쉽게 추가하기 위해 &lt;br /&gt;
## 외부 개발자들이 옵티마이저를 확장시킬 수 있도록 하기위해&lt;/div&gt;</summary>
		<author><name>Devcafe</name></author>
	</entry>
</feed>