2018. 6. 19. 14:41ㆍPython
빅데이터
- 일반적인 데이터베이스 SW가 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터
- 많은 규모, 다양성, 빠른 속도의 특성을 가진 방대한 데이터의 집합.
- 기하급수적으로 발생하는 데이터의 홍수속에서 가치를 창출
- 본질적으로 불확실한 데이터 유형의 신뢰성과 예측 가능성 관리
데이터의 종류
- 정형: 고정된 필드에 저장된 데이터
관계형 데이터베이스 및 스프레드시트 등
- 반정형: 고정된 필드에 저장되어 있진 않지만, 메타데이터나 스키마 등을
포함하는 데이터, XML, HTML등
- 비정형: 고정된 필드에 저장되어 있지 않은 데이터.
텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등
수집 경로
- 내부 : 트랜잭션, 로그 데이터, 이메일
- 외부 : 소셜 미디어,오디오,사진/동영상
빅데이터가 가능해진 이유
(1) 경제적 타당성 증가 : 하드웨어 기술의 발달로 인해, 기존에는 저장/처리할 수 없었던 방대한 양의 데이터를 저렴하게 저장하고 처리할 수 있는 기반이 됨.
(2) 데이터 처리 기술의 발달 : 분산 병렬 처리 기술의 발달로 합리적인 시간 안에 데이터 처리 및 분석이 가능해짐.
(3) 데이터 저장 기술의 발달
파이썬 – 1991 귀도 반 로썸이 발표한 인터프리터 언어.
- 전산 개발자가 만든 범용 전산 언어
- 분석 뿐 아니라 다른 웹 어플리케이션과 접목하거나 데이터베이스와 연동하는 등 다양하게 활용 가능
- 배우고 사용하기 쉬움
- 분석 업무 뿐만 아니라 다양한 용도로 활용 가능
- 데이터 분석 라이브러리들이 R에 비해 상대적으로 미흡하였지만, 최근에는 큰 차이 없음
- 데이터 시각화가 R에 비해 미흡
- 동적 프로그래밍 언어의 한 종류로써, 사전에 컴파일 하는 대신 실행할 때 이를 기계어로 변환하는 인터프리터 언어
파이썬 특징
(1) 활용도가 높은 표준 모듈들: 다양한 처리를 수행할 수 있는 강력한 표준 라이브러리들이 많다.
(2) 표준 라이브러리 이외에도 방대한 서드파티 라이브러리가 존재함
(3) 특히 과학기술 컴퓨팅 분야에 NumPy, SciPy, matplotilib, pandas등이 유명
(4) 간결하고 가독성 높은 문법 : 배우기 쉭ㅂ고 코드를 이해하기 쉬워, 유지보수성이 뛰어남
(5) 인터프리터 언어: 컴파일 없이 소스코드를 순차적으로 실행(인터프리터 언어 : 라인 바이 라인으로 한줄한줄씩 실행. (컴파일 x))
(6) 데이터 분석, 서버 운영 등등 다양한 분야에서 많이 사용됨.
(7) 접착제 언어: 컴파일 언어로 작성된 기존 프로그램을 쉽게 파이썬 프로그램 안에 통합 가능
'Python' 카테고리의 다른 글
파이썬(Python) 기초 문법. (0) | 2018.06.19 |
---|