728x90
1. 파일럿 프로젝트 도메인의 이해
- 프로젝트 진행의 기본: 구축할 시스템에 대한 도메인과 도메인에 해당하는 유스케이스 이해 (= 무엇을 하는 시스템이고, 어떤 프로세스를 통해 사용자에게 가치를 만들어내는가?)
- 파일럿 프로젝트 도메인: 스마트카 서비스
- 구성
- IoT 센서, 차량 상태 정보 실시간 생성
- 중앙 빅데이터 시스템에서 수집, 적재, 처리, 탐색 및 응용 단계를 거쳐 운전자에게 스마트카 서비스로 제공됨
- ➡ 스마트카에서 발생하는 수많은 데이터로부터 가치와 통찰력을 찾기 위한 빅데이터 시스템을 파일럿 프로젝트로 진행
- 핵심 요구사항 1
- 차량의 다양한 장치로부터 발생하는 **로그 파일**을 **수집**해서 기능 별 상태를 점검한다.
- 데이터 특징
- 데이터 발생 위치: 100대의 시범 운행 차량
- 발생 데이터 종류: 대용량 로그 파일
- 데이터 발생 주기: 3초
- 데이터 수집 주기: 24시간
- 수집 규모: 1MB/1대 (100MB/100대)
- 데이터 타입: 텍스트, 반정형
- 데이터 분석 주기: 일/주/월/년
- 데이터 처리 유형: 배치
- 데이터 구분자: 콤마(,)
- 데이터 스키마: (발생일시, 차량번호, 타이어, 라이트, 엔진, 브레이크, 배터리, 작업 요청일 등)
- 핵심 요구사항 2
- 운전자의 운행 정보가 담긴 로그를 **실시간**으로 수집해서 **주행 패턴**을 분석한다.
- 데이터 특징
- 데이터 발생 위치: 100대의 시범 운행 차량
- 발생 데이터 종류: 실시간 로그 파일
- 데이터 발생 주기: 주행 관련 이벤트 발생 시
- 데이터 수집 주기: 1초
- 데이터 수집 규모: 4KB/1대(초당 수집 규모: 약 400KB/100대)
- 데이터 스키마: (가속 페달, 브레이크 페달, 운전대 회전각, 방향지시등, 주행 속도, 주행 지역 등)\
- 요구사항 파악
- 차량 상태 정보를 1일 단위로 빅데이터 시스템에 전송
- 운전자 운행 정보를 1초 단위로 빅데이터 시스템에 전송
- 수집된 데이터에 대한 적재, 처리, 탐색, 분석, 응용 진행
- 데이터 웨어하우스, 데이터 마트 생성 후 비즈니스 모델에 활용
- 파일럿 프로젝트 데이터셋
- 스마트카 상태 정보 데이터
- 스마트카 운전자 운행 데이터
- 스마트카 마스터 데이터셋: 운전자 프로필 정보
- 스마트카 물품구매 이력 데이터셋: 스마트카 운전자가 차량 내 스마트 스크린을 통해 쇼핑몰에서 구입한 차량 물품 구매 목록 데이서셋
- 구성
2-1. 파일럿 아키텍처 이해 - 소프트웨어
- 프로젝트 소규모 빅데이터 파일럿 환경
- 개인용 PC 1대 (가상 머신 2~3대)
- 수집 레이어
- 플럼, 카프카, 스톰/에스퍼
- 대규모 배치 데이터는 플럼에서 바로 하둡 전송
- 이벤트 데이터는 카프카, 스톰, 에스퍼를 통해 HBase와 Redis에 전송
- 적재 레이어
- 플럼, 스톰이 수집한 데이터를 각각 Hadoop, HBase, Redis로 나누어 적재
- 대용량 배치 데이터(Hadoop), 실시간성 메시지 데이터(HBase, Redis)
- 처리/탐색 레이어
- 데이터 웨어하우스, 데이터 마트 생성 자동화
- 우지, 하이브, 스파크, 휴 활용
- 분석/응용 레이어
- 다양한 분석 도구를 통해서 탐색적인 분석과 머신러닝, 딥러닝 분석까지 확장
- TensorFlow, 머하웃, 스파크ML, 임팔라, 제플린 이용
- Tip. 빅데이터 기술 접근법
- 플랫폼 전문가: 하둡 에코시스템 설치 및 구성
- 수집/적재 전문가: 대규모 데이터 연동 및 통합
- 처리/탐색 전문가: 데이터 모델 설계 및 처리
- 분석/응용 전문가: 도메인 분석 및 인사이트 도출
- 모든 분야의 전문가가 될 수는 없으며 기술 백그라운드와 본인의 경험을 바탕으로 어떤 분야에 집중해야 할지 선택하고 전문성을 길러가는 것이 중요
2-2. 파일럿 아키텍처 이해 - 하드웨어
- 빅데이터와 하드웨어 아키텍처는 3V(크기, 속도, 다양성) 관점에서 구성해야 함
- 파일럿 프로젝트 환경 PC 요구 사양
- 저사양 PC: 듀얼코어 이상, 메모리 8GB 이상, 디스크 90GB 이상(SSD) ➡ 가상 서버 2대 예정
- 고사양 PC: i5 이상, 메모리 16GB 이상, 디스크 120GB 이상(SSD) ➡ 가상 서버 3대 예정
- 추가 요구 사항
- VirtualBox 이용을 위한 CPU 가상화 지원
- 인터넷 연결
- 불필요한 프로그램을 중지해서 여유 메모리 최대한 확보
- 각각의 가상서버에 필요한 하드웨어 시스템을 약 17 ~ 20개 설치
- 클라우드 매니저(CM)를 통해 각 가상 서버의 하둡 에코 시스템 설치 및 관리
3. 빅데이터 파일럿 프로젝트 PC 환경 구성
- 빅데이터 개발 환경 구성: 개인 윈도우 PC 기준
- 자바, 이클립스, 버추얼 박스, 가상머신에 CentOS 설치, 기타 도구(PuTTY, 파일질라, 크롬, 예제 코드)
- 빅데이터 서버 환경 구성: 윈도우 PC 위에 리눅스 가상 머신 3대
- 클라우데라 매니저 설치
- 빅데이터 에코시스템 설치: 하둡, 주키퍼 등 기본 구성
4. VM 통합 환경 구성
- 주요 이슈
- 현재 강의에서 사용 중인 VirtualBox 5.0.4 버전은 윈도우에서 실행 불가
- VirtualBox 7.0 버전의 도구 > 네트워크 설정을 통해 지정 가능
- 현재 강의에서 사용 중인 VirtualBox 5.0.4 버전은 윈도우에서 실행 불가
- 인프런에 올라온 실습 VM 실행을 위한 세팅 과정
- VirtualBox 네트워크 설정
- NAT 네트워크 설정
- 호스트 전용 네트워크 설정
- DCHP 서버 설정
- 실습 환경에서 101, 102, 103 서버 사용 예정
- (사진첨부)
- 가상 서버 이미지 다운로드
- 인프런 수업 자료 통해 다운
- 가상 서버 이미지 추가 및 기동 (server01, server02)
- PC 호스트 파일 수정
- 메모장 관리자 권한으로 실행
- host 파일 열고 하단 수정
- (사진 첨부)
- 크롬 브라우저 통해 클라우데라 매니저 서버 접속
- server01.hadoop.com:7180 접속
- cloudera express 선택 후 계속
- 클러스터 이름: Cluster 1
- 현재 관리되고 있는 호스트 2개(server01, servr02) 선택 (미리 세팅해 놓으신 환경)
- (사진 첨부)
- VirtualBox 네트워크 설정
참고
728x90
'Data Engineering' 카테고리의 다른 글
[강의] 15일간의 빅데이터 파일럿 프로젝트 - 섹션 2.빅데이터 이해하기 (13) | 2024.11.14 |
---|