본문 바로가기

sesac

SeSAC 전z전능 분석가 성동2기 데이터 분석가 #11 | 데이터 분석을 위한 핵심 개념 및 개인 프로젝트 서비스 초기

일지

 

벌써 교육을 들은지 11일이 되었다.

오늘은 이례적으로 온라인 강의 형태로 진행했는데, 왕복 시간을 아낄 수 있어서 그런지 체력이 남아있다. 

오랜만에 집 책상에 앉아서 글을 쓰려니 기분이 새롭다 + 애정하는 기계식 키보드를 쓸 수 있어서 기분이 좋다 ^0^

그 간 기술 블로그의 형태를 제대로 알지 못해 배운 내용을 요약하는 위주로 썼는데 이제는 좀 일기 형태를 병행해서 써보려고 한다.

그래야, 나중에 읽었을 때 프로젝트 과정을 떠올리기 더 좋을 것 같고 잘하는 것과 못하는 것, 하고싶은 것, 하기 싫은 것을 구분하는데 도움이 될 것 같다는 생각이 든다.

 


오늘 일정

1부: 데이터란 무엇인가?

2부: 개인 프로젝트를 위한 아이디어 고안


 

  •  

데이터란?

  1. 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
  2. 관찰이나 실험, 조사로 얻은 사실이나 자료.
  3. 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
  • 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회
  • 실험적 절차를 거치거나 표준화된 검사

ex.김아창씨가 마카롱 판매점에 방문했다는 온/오프라인 방문기록 → 단순사실 (data)

저녁에 3번이나 방문했네 → 의미가 생겨남 → 감정,흥미,반응참여 → 정보(info)

데이터는 기본적으로 통계학 이론을 근간으로 사용되는 경우가 절대다수

  • 기술통계
  • 추론통계

데이터 마이닝

데이터가 가진 패턴/특징을 찾아내는 것

  • 회귀분석과 같은 수학 알고리즘 → 머신러닝/딥러닝 → AI

IT회사의 데이터 분석 프로세스

  1. 데이터 생성
  2. 데이터 수집
  3. 데이터 가공 후 저장 (ETL)
  4. 데이터 분석 및 시각화

데이터생성 (프론트엔드 - 앞에 보이는 것을 개발하는 개발자, 그 이후 저장 관련은 백엔드)

유저가 가입을 할 때 데이터를 적음

*트랜잭션: 트랜잭션은 DB의 상태를 변경시키기 위해 수행하는 작업 단위입니다.

데이터 가공 후 저장(ETL) - (데이터 엔지니어)

데이터 추출, 변형, 적재 등 정제하는 작업

ERP, CRM, 시스템을 한 곳에 모아 가공하고 적재하는 등의 단계

데이터시각화 (데이터 분석가)

보이는 것보다 보이지 않는 부분이 더 중요함

서비스를 주로 프로덕트라고 함

product - 보이는 것을 만들어 냄 (고객중심)

데이터 - 수 없이 펼쳐진 데이터의 바다에서 인사이트를 찾아내는 것 데이터 자체에서 의미를 찾고 개선점을 찾고 설득해야 함 (ex. 데이터에서 이렇게 말하니까 개선해야 함!)

데이터: 단순한 관찰이나 값, 현실세계에서 수집된 사실이나 값

정보: 데이터 중에서도 조직화되고 체계화된 데이터로서 의사결정권자에게 의미를 제공하는 것, 데이터를 다룬다고 말할 때, 데이터를 정보로 만드는 과정을 의미*데

데이터베이스 데이터에서 과일 정보만 영어로 변환해 중복없이 처리하는 것

파일시스템 = ‘탐색기’

상호의존관계 ex. 한글 → hwp 엑셀 → .xls

파일에 접근하기 위해서는 적절한 응용프로그램이 필요함

동일한 데이터라고 하더라도 응용 프로 그램에 따른 형식 별 파일이 생성됨

DBMS는 초기 데이터 구축 뿐만 아니라 유지 및 사용자 교육에 대한 비용이 많이 듦

규모가 큰 회사에서는 많이 사용함

데이터 베이스 계층 구조

필드부터 인간이 이해할 수 있음

데이터 베이스 추상화: 데이터분석을 하려면 데이터 베이스의 구조를 다 알아야 하는 것은 아니라는 뜻 (자동차 설계를 몰라도 우전 가능)

명석이는 자신이 이사갈 집인 301호에만 관심이 있을 것

아파트 전체 설계도를 몰라도 됨

*스키마: 설계도 같은 개념이라고 생각하면 됨. 데이터의 큰 틀

  • 우리집 침대 위치를 바꿔도 아파트 설계도를 바꾸지 않아도 됨