아파치 FLINK 및 아파치 스파크가 처리 스트리밍 데이터에 사용되는 이유?

빠른 데이터 처리를위한 수요는 증가하고 있으며, 실시간 스트리밍 데이터 처리 응답 것으로 보인다. 아파치 스파크 여전히 큰 데이터 처리를위한 조직을 많이 사용되고 있지만, 아파치 FLINK는 대안으로 빠르게 올라오고있다. In fact, 많은이 때문에 스트리밍 데이터를 실시간으로 처리 할 수​​있는 능력의 아파치 스파크를 대체 할 잠재력을 가지고 있다고 생각. Of course, FLINK가 불꽃을 대체 할 수 있는지 여부에 대한 배심원 FLINK가 광범위하게 시험을 받아야 아직 때문에 밖으로 여전히. 그러나 실시간 처리와 낮은 레이턴시 데이터는 정의 된 특성 중 두 가지. At the same time, 이 뱃치 처리 능력이 아직 관련되기 때문에 아파치 스파크 아마도 호의 이동하지 않도록 고려되어야.

스트리밍 데이터 처리를위한 케이스

배치 기반 프로세싱의 모든 장점에 대한, 실시간 스트리밍 데이터 처리를위한 강한 경우가있는 것 같습니다. 데이터 처리 스트리밍 설정하고 신속하게 데이터웨어 하우스를로드하는 것을 가능하게. 낮은 데이터 대기 시간이 스트리밍 프로세서는 신속하게 데이터에 대한 통찰력을 제공합니다. So, 당신은 무슨 일이 일어나고 있는지 알아 더 많은 시간을. 빠른 처리 이외에, 또 다른 중요한 장점도 있습니다: 당신은 이벤트에 적절한 응답을 설계하는 데 더 많은 시간이. For example, 이상 검출의 경우,, 낮은 대기 시간과 빠른 탐지와 같은 보안 웹 사이트 또는 산업용 장비 손상에 사기 공격과 같은 경우에 손상을 방지하기 위해 핵심 최고의 응답을 식별 할 수 있습니다. So, 당신은 상당한 손실을 방지 할 수 있습니다.

아파치 FLINK는 무엇인가?

아파치 FLINK 큰 데이터 처리 툴이고, 대규모 분산 시스템에서 낮은 데이터 레이턴시 및 높은 결함 허용 신속 큰 데이터를 처리하는 것으로 알려져. 그 정의 기능은 실시간 스트리밍 데이터를 처리하는 능력이다.

아파치 FLINK은 다시 학업 오픈 소스 프로젝트로 시작했다 및, 그것은 성층권으로 알려졌다. Later, 그것은 아파치 소프트웨어 재단의 인큐베이터의 일부가되었다. 다른 프로젝트와 이름 충돌을 방지하려면, 이름 FLINK로 변경. 이 민첩 의미하기 때문에 이름 FLINK이 적합. 심지어 로고 선정, 다람쥐는 민첩성의 미덕을 나타 내기 때문에 다람쥐가 적절하다, 민첩성과 속도.

그것은 아파치 소프트웨어 재단에 추가 된 이후, 이것은 큰 데이터 프로세싱 툴과 같은 내보다는 빠른 상승했다 8 개월, 이는 더 많은 사람들의주의를 포착하기 시작했다. FLINK에 사람들의 관심이 증가는 회의의 수의에서 참석자의 수에 반영 2015. 사람들의 숫자는 월에 런던의 지층 회의에서 FLINK에 회의에 참석 2015 6 월에 산호세에서 하둡 서밋, 2015. 이상 60 사람들은 8 월에 산호세에서 MapR 본부에서 주최하는 베이 지역 아파치 FLINK 충족 업 참석, 2015.

아래 이미지는 FLINK의 람다 아키텍처를 제공합니다.

Lambda architecture of Flink

FLINK의 람다 구조

스파크와 FLINK의 비교

스파크와 FLINK 사이에 몇 가지 유사점이있다지만, 예를 들면, 자신의 API 및 구성 요소, 이 데이터 처리에 관해서는 많은 유사성 상관 없어. FLINK과 불꽃 사이의 비교는 아래에 주어진.

데이터 처리

FLINK 실시간 스트리밍 데이터를 처리하는 동안 스파크 배치 모드로 데이터를 처리. 스파크는 데이터의 덩어리를 처리, FLINK 실시간 데이터의 행 이후의 행을 처리 할 수​​있는 반면 RDDs라고도. So, 최소 데이터 지연 스파크 항상이 있지만, 그것은 FLINK에 있도록하지 않습니다.

반복

스파크 일괄 데이터 반복을 지원하지만 FLINK는 기본적으로는 스트리밍 아키텍처를 사용하여 데이터를 반복 할. 아래 이미지 처리가 수행 방법을 반복 보여줍니다.

Iterative processing

반복 처리

메모리 관리

FLINK가 자동으로 다양한 데이터 세트에 적응할 수 있지만, 스파크 최적화하고 개별 데이터 세트를 수동으로 작업을 조정해야. 또한 스파크 수동 분할 및 캐싱을 수행. So, 처리에 약간의 지연이 예상.

데이터 흐름

필요한마다 FLINK는 데이터 처리의 중간 결과를 제공 할 수있다. 스파크는 절차 적 프로그래밍 시스템을 다음과 동안, FLINK 분산 데이터 흐름 방식을 따른다. So, 때마다 중간 결과 필요, 방송 변수 모두 작업자 노드를 통해 미리 계산 된 결과를 분배하는 데 사용되는.

데이터 시각화

FLINK 제출하고 모든 작업을 실행하는 웹 인터페이스를 제공합니다. 스파크와 FLINK 모두 아파치 제플린과 통합 및 데이터 섭취를 제공합니다, 데이터 분석, 발견, 공동 작업 및 시각화. 아파치 제플린 또한 제출 FLINK 프로그램을 실행할 수있는 다중 언어 백엔드를 제공합니다.

처리 시간

아래 단락은 다른 작업에 FLINK에 의해 촬영 시간과 불꽃 사이의 비교를 제공.

공정한 비교를 만들려면, FLINK 및 점화 모두 기기 사양 및 노드 구성 형태의 동일한 자원을 주어진.

Node configuration

노드 구성

화상 상기에 나타낸 바와 같이, 그 옆에있는 사람이 그 불꽃 프로세서의 표시하면서 빨간색으로 강조 이미지가 FLINK 프로세서를위한 시스템 사양을 나타냅니다.

화상 상기에 나타낸 바와 같이, 빨간색으로 표시 지역은 FLINK 프로세서와 스파크 프로세서 노드 구성을 나타내는.

Spark processor

스파크 프로세서

FLINK이 때문에 파이프 라인 실행의 빠른 처리. 데이터를 처리하도록, 스파크했다 2171 초 FLINK 걸린 상태 1490 초.

다양한 데이터 크기 TeraSort 수행되었을 때, 결과였다 다음:

  • 에 대한 10 GB 일, FLINK는 갔다 157 초의 스파크에 비해 387 초.
  • 에 대한 160 GB 일, FLINK는 갔다 3127 초의 스파크에 비해 4927 초.

프로세스가 더 좋다 - 일괄 기반 또는 스트리밍 데이터?

두 공정의 장점을 가지고 있으며 다양한 상황에 적합. 많은 사람들이 그 배치 기반의 도구를 주장하고 있지만 호의 가고있다, 곧 일어날되지 않습니다. 상대적인 장점을 이해, 다음 비교를 참조:

스트리밍 일괄 처리
데이터 입력 또는 특정 순서의 레코드 형태 도착. 데이터 또는 입력은 기록이나 시간의 수에 따라 일괄 적으로 분할되고.
빨리 서열을 확인하는 데 필요한 시간보다 가능하지만로서 출력 즉시 필요. 입력은 요구 사항에 따라 부여하지만, 배치의 특정 번호는 그대로 유지됩니다.
이 기록 된 후에 출력이 수정 될 필요가 없다. 새로운 상태와 출력의 모든 행의 정보는 기록된다.
또한 데이터의 일괄 처리 작업을 수행 할 수 있습니다 데이터의 일괄 처리를 할 수 없습니다

FLINK 및 일괄 처리가 모두 유용하는 개인 경우가 있습니다. 매일 간격으로 롤링 월 매출 컴퓨팅의 사용 사례를 가져. 이 작업에서는, 필요한 것은 일일 총 매출을 계산하고, 누적 합을 만드는 것이다. 이 같은 사용의 경우, 스트리밍 데이터의 처리가 필요하지 않을 수도. 데이터의 일괄 처리는 날짜를 기준으로 판매량의 개별 배치 알아서하고 추가 할 수 있습니다. 이 때, 일부 데이터 지연이 있더라도, 항상 잠재적 인 데이터가 나중에 일괄 처리에 추가 나중에 때까지 할 수있는.

마찬가지로 스트리밍 처리가 필요한 경우가 사용되어. 각 방문자는 웹 사이트에 보낸다 압연 월별 계산 시간의 사용 사례를 가져. 웹 사이트의 경우, 방문 횟수를 갱신 할 수있다, 시간별, 분 현명한도 매일 또는. 그러나이 경우의 문제는 세션을 정의한다. 이 세션의 시작과 끝을 정의하기 어렵다. Also, 계산 또는 비 활동 기간을 식별하기가 어렵다. So, 이 경우, 세션 또는 비활성도 기간을 정의하기위한 합리적인 경계있을 수 없다. 이와 같은 상황에서, 실시간으로 스트리밍 데이터 처리를 필요.

Summary

스파크는 많은 장점을 가지고 있지만 그것은 배치 데이터 처리에 관해서 그것은 여전히​​ 충족시켜 사용 사례를 많이 가질 때, FLINK 빠른 상업 견인을 얻고 것 같습니다. FLINK 또한 일괄 처리를 할 수 있다는 사실은 그 은혜에 큰 일이 될 것 같다. Of course, 이러한 필요성은 FLINK의 배치 처리 기능 스파크와 동일 리그에 있지 않을 수 있다는 고려되어야. So, 스파크는 아직 시간이있다.

 

============================================= ============================================== 아마존에서 최고의 Techalpine 책을 구입하십시오,en,전기 기술자 CT 밤나무 전기,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share