빅데이터(Big Data), 파이썬(Python)에 대해

2018. 6. 19. 14:41Python


빅데이터

-      일반적인 데이터베이스 SW가 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터


-      많은 규모, 다양성, 빠른 속도의 특성을 가진 방대한 데이터의 집합.


-      기하급수적으로 발생하는 데이터의 홍수속에서 가치를 창출


-      본질적으로 불확실한 데이터 유형의 신뢰성과 예측 가능성 관리

 


데이터의 종류

-      정형: 고정된 필드에 저장된 데이터

      관계형 데이터베이스 및 스프레드시트 등


-      반정형: 고정된 필드에 저장되어 있진 않지만, 메타데이터나 스키마 등을

       포함하는 데이터, XML, HTML


-      비정형: 고정된 필드에 저장되어 있지 않은 데이터.

       텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등


수집 경로

-      내부 : 트랜잭션, 로그 데이터, 이메일

-      외부 : 소셜 미디어,오디오,사진/동영상



빅데이터가 가능해진 이유

(1)   경제적 타당성 증가 : 하드웨어 기술의 발달로 인해, 기존에는 저장/처리할 수 없었던 방대한 양의 데이터를 저렴하게 저장하고 처리할 수 있는 기반이 됨.


(2)   데이터 처리 기술의 발달 : 분산 병렬 처리 기술의 발달로 합리적인 시간 안에 데이터 처리 및 분석이 가능해짐.


(3)   데이터 저장 기술의 발달




파이썬 – 1991 귀도 반 로썸이 발표한 인터프리터 언어.


-      전산 개발자가 만든 범용 전산 언어


-      분석 뿐 아니라 다른 웹 어플리케이션과 접목하거나 데이터베이스와 연동하는 등 다양하게 활용 가능


-      배우고 사용하기 쉬움


-      분석 업무 뿐만 아니라 다양한 용도로 활용 가능


-      데이터 분석 라이브러리들이 R에 비해 상대적으로 미흡하였지만, 최근에는 큰 차이 없음


-      데이터 시각화가 R에 비해 미흡


 -      동적 프로그래밍 언어의 한 종류로써, 사전에 컴파일 하는 대신 실행할 때 이를 기계어로 변환하는 인터프리터 언어



파이썬 특징


(1)   활용도가 높은 표준 모듈들: 다양한 처리를 수행할 수 있는 강력한 표준 라이브러리들이 많다.


(2)   표준 라이브러리 이외에도 방대한 서드파티 라이브러리가 존재


(3)  특히 과학기술 컴퓨팅 분야에 NumPy, SciPy, matplotilib, pandas등이 유명


(4)   간결하고 가독성 높은 문법 : 배우기 쉭ㅂ고 코드를 이해하기 쉬워, 유지보수성이 뛰어남


(5)   인터프리터 언어: 컴파일 없이 소스코드를 순차적으로 실행(인터프리터 언어 : 라인 바이 라인으로 한줄한줄씩 실행. (컴파일 x))


(6)   데이터 분석, 서버 운영 등등 다양한 분야에서 많이 사용됨.


(7)   접착제 언어: 컴파일 언어로 작성된 기존 프로그램을 쉽게 파이썬 프로그램 안에 통합 가능


'Python' 카테고리의 다른 글

파이썬(Python) 기초 문법.  (0) 2018.06.19