빅데이터 적용 및 활용 사례와 아파치 하둡 에코 시스템 응용 사례

2 분 소요

본 게시물은 학교 수업시간에 수행한 빅데이터 과목의 과제를 기반으로 작성되어집니다.

빅데이터(BIG DATA)란 ?


  • 빅데이터는 일반적인 데이터베이스나 단일 컴퓨터 상에서 표현, 저장, 처리, 분석이 어려울 정도의 규모를 가진 데이터 셋을 의미 </br>
  • 빅데이터의 소스로는 정보 소비자(consumers),과학(science),산업/정부 등이 사용될 수 있음.
구분 분야 설명 교통분야 활용방안 예시
1 미래예측 실시간 대용량 데이터 분석으로 정확도 높은 실시간 예측 단기/장기 교통량(통행속도) 예측
2 숨은 필요 발견 대규모 데이터로부터 패턴을 발견해 숨은 필요사항 발견 심야 버스 노선 신설
3 리스크 경감 정량적 정보를 대량 확보하여 위험의 감소와 정확도 증대 교통사고 위험 영향 분석
4 맞춤형 서비스 고객 개인별로 차별화하여 유용한 정보 제공 개발 통행경로 정보 제공
5 실시간 대응 실시간 모니터링과 즉각적인 대응 가능 특정일 교통량 변화에 따른 신호 현시 변화

빅데이터의 특성 3V


  • 규모(Volume) : 데이터의 크기
  • 다양성 (Variety) : 정형,반정형,비정형 등 여러 형태의 데이터
  • 속도 (Velocity) : 데이터의 처리 속

교통분야에서 빅데이터 활용사례


  1. 서울의 심야버스 ‘올빼미버스’
    • 서울시의 심야버스인 올빼미버스 노선을 최적화 하기 위해 빅데이터를 활용
    • 올빼미 버스는 자정부터 새벽 5시까지 운행하기 위하여 밤 시간대 유동인구가 많은 구간을 정해야 함
    • 지역별 유동인구를 파악할 수 있는 데이터를 찾기 위해서 신용카드 결제 데이터, 휴대전화 통화 이력 데이터, 택시 결제 등의 데이터에 의한 정량적 유동인구 분포도를 그려낼 수 있음
    • Kt의 심야시간 통화량 데이터 30억건을 심야택시 승하차 데이터 500만건과 결합한 빅데이터를 이용해 유동인구 밀집도와 이들의 목적지를 정한 뒤 이를 기반으로 노선을 설정

      세부 노선도 결정 과정
    • 노선분석:
    • 출발지와 목적지를 기준으로 밀도 맵 을 만들고 그에 해당하는 버퍼를 설정하여 그 버퍼 안에 들어오는 정육각형에 대한 실수요를 기준으로 이루어짐.
    • 여기에 거리 별 가중치를 계산한 뒤 기존 노선과 통계 노선이 어떻게 다른 가를 검증
    • 통행량 : </br>
    • 정류소 단위로 정육각형을 만들고, 버퍼를 설정한 후 목적지와 출발지별 데이터를 적용하여 산출
    • 또한 정류소별 간격들을 선으로 연결하고 선들이 중복될 경우 선을 두껍게 하여 시각화 </br>
    • 여기에 유동인구 데이터를 반영하여 그를 고려한 심야버스 수요를 산출 </br>
    • 이 과정에서 8개 노선에 대한 정류소 및 노선 변경이 제안 됐고, 일부 수용됨.</br>VSRivers


  1. VSRivers
    딥러닝 기술을 이용해 교통정체의 원인을 파악하고, 특정 도로의 가까운 미래 상황을 예측해 시각화 하는 시스템
도로 정체의 인과관계를 계산하고 딥러닝 기반으로 정체를 예측하는 알고리즘
  • 도로에서 일어나는 교통정체의 인과관계는 특정 도로가 막히기 시작하면 주변 도로에도 영향을 끼쳐 또 다른 정체로 이어지는 현상에 착안해 개발 되었음
  • 도시의 도로망, 도로 별 주변 도로 정체 상황, 러시아워(Rush hour) 정보를 과거 속도와 함께 학습하도록 설계 됨.

  • 기존에는 과거 속도만 학습하던 아리마(Auto-regressive Integrated Moving Average, ARIMA), 서포트 벡터 회기 분석(Support Vector Regression, SVR) 등의 방법을 사용해왔는데, 새로운 예측 알고리즘을 활용하자 정체 예측 성능이 높아짐

주요 도로의 정체상황을 시각화하고, 정체가 전파되는 모습을 시각적으로 보여주는 기술
이 시각화 모듈은 VSRivers(Volume-Speed Rivers) 라는 새로운 시각화 기술을 활용해 각 도로별로 통행하는 차량 수와 속도를 시각적으로 나타낸다.

또 현재 나타난 정체가 언제 어디서부터 시작됐는지 차후 정체상황이 어떻게 전파될지를 예측해 보여준다.
  • 이 시각화 모듈은 VSRivers(Volume-Speed Rivers) 라는 새로운 시각화 기술을 활용해 각 도로별로 통행하는 차량 수와 속도를 시각적으로 나타낸다.
  • 또 현재 나타난 정체가 언제 어디서부터 시작됐는지 차후 정체상황이 어떻게 전파될지를 예측해 보여준다.

업데이트: