Spark란?

Develop!/BigData

Spark란?

체리필터 2021. 9. 17. 17:43

728x90

BigData 관련해서 아무것도 모르는 상태인데 회사에서 기본적인 Spark 사용이 필요하여 조금씩 알아가며 정리를 해 볼까 한다.

아무것도 모르는 개발자로서 하나 하나 적어 나가는 것이므로, 아주 아주 기초적인 수준이 될 것으로 보이며, 잘못된 정보가 기록될 가능성도 크다.

Spark가 나오기 전에는 하둡과 맵리듀스를 사용하여 대용량 데이터를 처리하였다. 하둡과 맵리듀스도 사용해 보지 않아 정확하게는 모르지만, 맵리듀스를 이용해 정제된 데이터를 분산 디스크(HDFS)에 쓰고, 그 내용을 하둡이 다시 가지고 처리하여 저장하는 일련의 과정을 반복하여 값을 가져오는 방식이였다.

하지만 Spark는 대량의 데이터를 메모리에 유지하는 설계로 성능을 끌어 올렸으며, 이로 인해 맵리듀스보다 10 ~ 100배 빠른 속도로 처리할 수 있다고 한다.

하지만 기본적으로 분산 아키텍처 때문에 오버헤드가 발생하게 되고, 따라서 작은 데이터셋을 다룰 때는 오히려 다른 프레임워크를 사용하는 것이 좋을 수 있다. 삽이 필요한 곳에 포크레인을 쓰는 것과 비슷하다고 할 수 있겠다.

또한 Spark는 일괄 분석을 염두에 두고 설계 되었기 때문에, 비동기적으로 데이터를 갱신하는 연산에는 적합하지 않다.

스파크를 구성하는 컴포넌트들에는 스파크 코어, 스파크 SQL, 스파크 스트리밍, 스파크 MLib, 스파크 GraphX 등이 있다.

이 글을 쓰는 현재로서 이것들이 무엇을 의미하는지 명확히 와 닿지는 않는다.

728x90

저작자표시 비영리 변경금지 (새창열림)

현재글Spark란?

250x250

프로그램 그리고 인생...

Naver, 네이버, 올블로그, 자바, NHN, Servlet, 테스트 드라이브 언리미티드, allblog, 스키드러쉬, 서블릿, 람보르기니, Daum, 코틀린, 이명박, 구글, Java, skidrush, Test Drive: Unlimited, Google, Kotlin,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

체리필터의 인생이야기

Spark란?

'Develop!/BigData'의 다른글

티스토리툴바