728x90
반응형
1장
- Cinematch는 넷플릭스의 영화 추천 시스템이다
- 빅데이터 활용의 3요소는 데이터, 기술, 인력이다
- 데이터베이스의 특징 : 통합된 데이터, 저장된 데이터, 공용 데이터, 운영 데이터
- 빅데이터 가치 패러다임의 변화 : 디지털화 > 연결 > 에이전시
2장
- EAI는 CDC 매커니즘을 구현할 수 없다
- Spark는 하둡과 관련이 없다
- Staus on Rows는 타임 스탬프, 버전 넘버 기법에 대한 보완 용도로 활용된다
- 프레스토는 페이스북의 데이터 웨어 하우징 엔진이다
- ESB는 미들웨어(bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다
- 무공유 클러스터는 노드 확장에 제한이 없다
- 무공유 클러스터는 규모가 커지면 디스크 영역에서 병목현상이 발생한다
- GFS를 설계할 때 낮은 응답 지연시간보다 높은 처리율이 더 중요하다
- 청크는 마스터에 의해 생성/삭제될 수 있다
- 러스터의 메타 데이터 서버는 메타데이터를 관리한다
- Pig나 Hive는 Sawzall과 기본 개념이 유사하다
- 마이그레이션 기능을 쓰면 운영 중인 가상머신을 정지 없이 다른 물리적 서버로 옮길 수 있다
- 데몬 관점에서 하둡은 4개의 구성요소를 가지고 있다
- 구글 빅테이블은 NoSQL 기술이다
- 아파치 Pig는 코딩해야 할 줄 수를 줄여준다
- Xen과 Vmware ESX는 하이퍼바이저 기반 가상화 제품이다
- 관리 노드는 클러스터 시작과 재구성 시에만 관여한다
- MySQL 노드는 클러스터 데이터에 접근을 지원한다
- MySQL 클러스터는 비공유형으로 메모리 기반 클러스터링을 지원한다
- 동일한 내용은 하나의 물리 메모리에만 저장하는 것을 Transparent page sharing이라 한다
- 맵리듀스 중 장애가 생기면 특정 태스크만 다른 서버에서 재실행할 수 있다
- Log scanner는 데이터베이스 스키마를 변경할 필요가 없다
- Versions on Rows는 논리값으로 변경 여부를 표현하며 변경 여부는 사람이 판단하지 않는다
- 데이터 웨어하우스의 데이터는 비전공자도 이해하기 쉽다
- 데이터 스테이징 시에는 배치 형태의 실시간 ETL과 정기 ETL을 혼용할 수 있다
- 테이블 스키마는 데이터 원천의 구조에 의지한다
- 하둡은 데이터를 블록이나 청크 단위로 저장한다
- Oracle RAC는 공유방식 클러스터이다
- 대용량 비정형 데이터 수집과 보안은 무관하다
- Sqoop은 하둡과 관계형 DB 연동 기술이다
- 베어메탈 하이퍼바이저는 하드웨어와 호스트 사이에, 호스트 하이퍼바이저는 게스트와 호스트 사이에 위치한다
- CDC는 실시간 처리에 적합하다
- Mapreduce에서 key는 탭 앞, value는 탭 뒤에 나온다
- 최단연결법은 사슬모양의 군집이 생길 수 있다
- DW 구축단계: ODS > DW > ETL
- 맵리듀스는 복잡성을 추상화하여 개발자가 기능 구현에만 집중하도록 한다
- 아파치 Stinger는 SQL on 하둡 기술의 일종이다
- Flume-NG는 애플리케이션 > 수집 > 저장 > 보관 단계로 구성된다
3장
- 분석 대상을 모를 때는 통찰을 사용하거나 발견 접근법으로 분석 대상을 새로 도출한다
- 빅데이터 분석 방법론의 분석 기획 순서: 범위 설정 - 프로젝트 정의 - 계획 수립 - 위험 식별
- 분석과제 정의서에는 소스 데이터, 입수와 분석의 난이도, 분석 방법이 포함된다
- 분석 업무 파악 영역에는 사실 분석, 예측 분석, 시뮬레이션 분석, 최적화 분석이 있다
- 데이터 표준화는 표준 용어 설정, 메타 데이터 구축 등으로 구성된다
- 분석 과제 중 발견된 시사점과 결과물은 Pool(풀)로 관리하고 공유한다
- Self Service Analytics는 분산처리를 지원하지 않는다
- 모델링 단계에서는 기법 선택, 테스트 계획 설계, 모델 작성, 모델 평가를 수행한다
- CRISP-DM은 각 단계별로 상호 피드백 하며 진행된다
- 상향식 접근 : Why, 발견, 통찰 하향식 접근 : What
- 분석 과제의 관리 영역 : Size, Complexity, Speed, Analytic&Complexity, Accuray&Precision
- 분석 성숙도 모델 : 도입, 활용, 확산, 최적화
- 과제 중심 접근 방식 : Speed&Test, Quick&Win, Problem Solving
- 수행 시 고려할 점 : 속도, 양, 데이터 복잡도, 분석 복잡도, accuracy/precision
4장
- 벡터끼리 더할 때는 객체의 길이가 배수 관계에 있어야 한다
- R에 stdev라는 함수는 없다
- apply(데이터, (행이면 1, 열이면 2), 함수)
- tapply(연산 대상, 그룹 지표, 함수)
- 다중대치법은 대치, 분석, 결합 순으로 진행된다
- P-value는 우리가 내린 판정이 잘못되었을 확률이다
- 평균 고유값(average eigenvalue) 방법은 주성분의 고유값이 고유값들의 평균 이상이 되도록 설정한다
- 시계열 분석 절차: 그래프, 추세와 계절성 제거, 잔차 예측, 잔차에 모델 적합, 미래 예측
- 라쏘가 L1, 릿지가 L2다
- 데이터 가공 단계에서 목적변수를 정의한다
- SOM은 비지도학습이다
- 부트스트랩에서 d가 충분히 클 때 검증용으로 사용되는 관측치는 대략 36.8%다
- 의사결정나무는 하향식 의사결정 흐름이다
- 의사결정나무 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다
- neuralnet 함수의 일반화 가중치는 로지스틱의 I번째 회귀 변수와 유사하다
- 로지스틱에서는 로짓 변환으로 종속변수를 0, 1로 바꾼다
- dist함수에서는 유클리디안, 표준화, 마할라노비스, 체비셰프, 맨하탄, 캔버라, 민코스키 거리를 지원한다
- k-means 군집에서 seed는 모든 개체가 할당될 때까지 조정된다
- k-means 군집은 이상치에 민감해 이를 극복하기 위해 PAM 함수를 사용한다
- k-means 군집에서 군집의 수는 집단 내 제곱합 그래프를 보고 정할 수 있다
- k-means 군집에서 개체는 다른 군집으로 이동할 수 있다
- 평균연결법은 최단연결법보다 계산량이 많다
- 사회연결망 분석은 집합론, 그래프 이론, 행렬을 이용해 진행할 수 있다
- 텍스트를 전처리해 각 문서와 단어 간의 사용 여부를 이용해 만든 matrix를 Term-Document Matrix라 한다
- 비모수검정 : 부호검정, 순위합검정, U검정, 런검정, 스피어만
- 분해 시계열의 구성요소 : 경향(추세), 계절, 순환, 불규칙 요인
- Sparsity는 0의 비율을 뜻한다
- QQ plot은 정규성을 평가하는 절대적 기준이 될 수 있다
- SOM은 단 하나의 전방 패스(Feed-forward flow)만 사용한다
- 네트워크 구조를 파악하기 위해서는 연결정도, 근접, 매개, 위세 중심성을 확인한다
- BIC는 AIC와 무관한 별도의 방법이다
- 연결정도 중심법은 직접 연결된 노드의 합으로 계량화한다
5장
- 지식은 정보가 조직화된 것이다
- 탐색은 개괄적 패턴을 찾고 분석은 모델링한다
- 여러 데이터를 가진 경우 각각의 데이터를 탐색한 후 연결고리를 이용해 전체 탐색 범위를 정한다
- 정보 디자인 프로세스 10단계 중 문제 정의 단계에서 컬러, 타이포 등 디테일을 조정한다
- 벤 프라이 7단계 방법론 : 획득, 분해, 선별, 마이닝, 표현, 정제, 상호작용
- 정보 디자인의 개념 : 의미 만들기, 형태 만들기, 맥락 만들기
- 정보 디자인 프로세스 10단계 중 와이어프레임 그리기 단계에서 정보의 계층구조를 이해하도록 한다
- 빅데이터 시각화 프로세스 : 정보 구조화, 정보 시각화, 정보 시각표현
- 비교 시각화에는 히트맵, 체르노프, 스타, 평행좌표계, 다차원척도법이 있다
- 정보는 생산자와 사용자 관점에 따라 다르게 전달되며 나름의 형식을 갖는다
- QlikView, Visual Insight는 시각화 플랫폼이다
- drawImage는 D3.js에서 준비한 이미지를 canvas에 표시할 때 사용한다
- D3.js 시각화 절차 : 획득 - 파싱 - 필터링 - 표현 - 상호작용 추가
- D3.js에서 파이 차트를 그릴 때 layout을 사용한다
- .~cut을 사용하면 caret은 위에 표현된다
- 아이소타이프는 문자, 숫자 대신 도형이나 기호를 사용한다
- 정보 조직화 기준 LATCH : Location, Alphabet, Time, Category, Hierachy
- 정보 디자인은 보는 사람이 의미를 명확히 이해하도록 돕는다
- 모자이크 플롯은 복수의 categorical variable 분포 파악에 유리하다
- 정보의 조직화 과정 : 데이터 수집 - 분류 - 배열 - 관계맺기
- 게피는 네트워크 데이터 시각화 도구이다
- 그래픽 7요소: 기울기, 모양, 크기, 색, 명도, 위치, 질감
728x90
반응형
'데이터 분석 > 자격증' 카테고리의 다른 글
28회 ADP 실기 후기 / 기출문제 복원 / 가답안 (0) | 2023.03.12 |
---|---|
빅데이터 분석기사 실기 작업형 2유형 흐름 (0) | 2022.07.25 |
제4회 빅데이터 분석기사 실기 합격 후기, 예상 답안(비전공자) (3) | 2022.06.25 |
ADP 필기 합격 후기(비전공자) (0) | 2022.06.13 |
제4회 빅데이터 분석기사 필기 합격 후기(비전공자) (0) | 2022.04.21 |