ADP 필기 공부 오답 정리

데이터 분석/자격증

ADP 필기 공부 오답 정리

쎄마비 2022. 5. 5. 15:00

728x90

1장

Cinematch는 넷플릭스의 영화 추천 시스템이다
빅데이터 활용의 3요소는 데이터, 기술, 인력이다
데이터베이스의 특징 : 통합된 데이터, 저장된 데이터, 공용 데이터, 운영 데이터
빅데이터 가치 패러다임의 변화 : 디지털화 > 연결 > 에이전시

2장

EAI는 CDC 매커니즘을 구현할 수 없다
Spark는 하둡과 관련이 없다
Staus on Rows는 타임 스탬프, 버전 넘버 기법에 대한 보완 용도로 활용된다
프레스토는 페이스북의 데이터 웨어 하우징 엔진이다
ESB는 미들웨어(bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다
무공유 클러스터는 노드 확장에 제한이 없다
무공유 클러스터는 규모가 커지면 디스크 영역에서 병목현상이 발생한다
GFS를 설계할 때 낮은 응답 지연시간보다 높은 처리율이 더 중요하다
청크는 마스터에 의해 생성/삭제될 수 있다
러스터의 메타 데이터 서버는 메타데이터를 관리한다
Pig나 Hive는 Sawzall과 기본 개념이 유사하다
마이그레이션 기능을 쓰면 운영 중인 가상머신을 정지 없이 다른 물리적 서버로 옮길 수 있다
데몬 관점에서 하둡은 4개의 구성요소를 가지고 있다
구글 빅테이블은 NoSQL 기술이다
아파치 Pig는 코딩해야 할 줄 수를 줄여준다
Xen과 Vmware ESX는 하이퍼바이저 기반 가상화 제품이다
관리 노드는 클러스터 시작과 재구성 시에만 관여한다
MySQL 노드는 클러스터 데이터에 접근을 지원한다
MySQL 클러스터는 비공유형으로 메모리 기반 클러스터링을 지원한다
동일한 내용은 하나의 물리 메모리에만 저장하는 것을 Transparent page sharing이라 한다
맵리듀스 중 장애가 생기면 특정 태스크만 다른 서버에서 재실행할 수 있다
Log scanner는 데이터베이스 스키마를 변경할 필요가 없다
Versions on Rows는 논리값으로 변경 여부를 표현하며 변경 여부는 사람이 판단하지 않는다
데이터 웨어하우스의 데이터는 비전공자도 이해하기 쉽다
데이터 스테이징 시에는 배치 형태의 실시간 ETL과 정기 ETL을 혼용할 수 있다
테이블 스키마는 데이터 원천의 구조에 의지한다
하둡은 데이터를 블록이나 청크 단위로 저장한다
Oracle RAC는 공유방식 클러스터이다
대용량 비정형 데이터 수집과 보안은 무관하다
Sqoop은 하둡과 관계형 DB 연동 기술이다
베어메탈 하이퍼바이저는 하드웨어와 호스트 사이에, 호스트 하이퍼바이저는 게스트와 호스트 사이에 위치한다
CDC는 실시간 처리에 적합하다
Mapreduce에서 key는 탭 앞, value는 탭 뒤에 나온다
최단연결법은 사슬모양의 군집이 생길 수 있다
DW 구축단계: ODS > DW > ETL
맵리듀스는 복잡성을 추상화하여 개발자가 기능 구현에만 집중하도록 한다
아파치 Stinger는 SQL on 하둡 기술의 일종이다
Flume-NG는 애플리케이션 > 수집 > 저장 > 보관 단계로 구성된다

3장

분석 대상을 모를 때는 통찰을 사용하거나 발견 접근법으로 분석 대상을 새로 도출한다
빅데이터 분석 방법론의 분석 기획 순서: 범위 설정 - 프로젝트 정의 - 계획 수립 - 위험 식별
분석과제 정의서에는 소스 데이터, 입수와 분석의 난이도, 분석 방법이 포함된다
분석 업무 파악 영역에는 사실 분석, 예측 분석, 시뮬레이션 분석, 최적화 분석이 있다
데이터 표준화는 표준 용어 설정, 메타 데이터 구축 등으로 구성된다
분석 과제 중 발견된 시사점과 결과물은 Pool(풀)로 관리하고 공유한다
Self Service Analytics는 분산처리를 지원하지 않는다
모델링 단계에서는 기법 선택, 테스트 계획 설계, 모델 작성, 모델 평가를 수행한다
CRISP-DM은 각 단계별로 상호 피드백 하며 진행된다
상향식 접근 : Why, 발견, 통찰 하향식 접근 : What
분석 과제의 관리 영역 : Size, Complexity, Speed, Analytic&Complexity, Accuray&Precision
분석 성숙도 모델 : 도입, 활용, 확산, 최적화
과제 중심 접근 방식 : Speed&Test, Quick&Win, Problem Solving
수행 시 고려할 점 : 속도, 양, 데이터 복잡도, 분석 복잡도, accuracy/precision

4장

벡터끼리 더할 때는 객체의 길이가 배수 관계에 있어야 한다
R에 stdev라는 함수는 없다
apply(데이터, (행이면 1, 열이면 2), 함수)
tapply(연산 대상, 그룹 지표, 함수)
다중대치법은 대치, 분석, 결합 순으로 진행된다
P-value는 우리가 내린 판정이 잘못되었을 확률이다
평균 고유값(average eigenvalue) 방법은 주성분의 고유값이 고유값들의 평균 이상이 되도록 설정한다
시계열 분석 절차: 그래프, 추세와 계절성 제거, 잔차 예측, 잔차에 모델 적합, 미래 예측
라쏘가 L1, 릿지가 L2다
데이터 가공 단계에서 목적변수를 정의한다
SOM은 비지도학습이다
부트스트랩에서 d가 충분히 클 때 검증용으로 사용되는 관측치는 대략 36.8%다
의사결정나무는 하향식 의사결정 흐름이다
의사결정나무 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다
neuralnet 함수의 일반화 가중치는 로지스틱의 I번째 회귀 변수와 유사하다
로지스틱에서는 로짓 변환으로 종속변수를 0, 1로 바꾼다
dist함수에서는 유클리디안, 표준화, 마할라노비스, 체비셰프, 맨하탄, 캔버라, 민코스키 거리를 지원한다
k-means 군집에서 seed는 모든 개체가 할당될 때까지 조정된다
k-means 군집은 이상치에 민감해 이를 극복하기 위해 PAM 함수를 사용한다
k-means 군집에서 군집의 수는 집단 내 제곱합 그래프를 보고 정할 수 있다
k-means 군집에서 개체는 다른 군집으로 이동할 수 있다
평균연결법은 최단연결법보다 계산량이 많다
사회연결망 분석은 집합론, 그래프 이론, 행렬을 이용해 진행할 수 있다
텍스트를 전처리해 각 문서와 단어 간의 사용 여부를 이용해 만든 matrix를 Term-Document Matrix라 한다
비모수검정 : 부호검정, 순위합검정, U검정, 런검정, 스피어만
분해 시계열의 구성요소 : 경향(추세), 계절, 순환, 불규칙 요인
Sparsity는 0의 비율을 뜻한다
QQ plot은 정규성을 평가하는 절대적 기준이 될 수 있다
SOM은 단 하나의 전방 패스(Feed-forward flow)만 사용한다
네트워크 구조를 파악하기 위해서는 연결정도, 근접, 매개, 위세 중심성을 확인한다
BIC는 AIC와 무관한 별도의 방법이다
연결정도 중심법은 직접 연결된 노드의 합으로 계량화한다

5장

지식은 정보가 조직화된 것이다
탐색은 개괄적 패턴을 찾고 분석은 모델링한다
여러 데이터를 가진 경우 각각의 데이터를 탐색한 후 연결고리를 이용해 전체 탐색 범위를 정한다
정보 디자인 프로세스 10단계 중 문제 정의 단계에서 컬러, 타이포 등 디테일을 조정한다
벤 프라이 7단계 방법론 : 획득, 분해, 선별, 마이닝, 표현, 정제, 상호작용
정보 디자인의 개념 : 의미 만들기, 형태 만들기, 맥락 만들기
정보 디자인 프로세스 10단계 중 와이어프레임 그리기 단계에서 정보의 계층구조를 이해하도록 한다
빅데이터 시각화 프로세스 : 정보 구조화, 정보 시각화, 정보 시각표현
비교 시각화에는 히트맵, 체르노프, 스타, 평행좌표계, 다차원척도법이 있다
정보는 생산자와 사용자 관점에 따라 다르게 전달되며 나름의 형식을 갖는다
QlikView, Visual Insight는 시각화 플랫폼이다
drawImage는 D3.js에서 준비한 이미지를 canvas에 표시할 때 사용한다
D3.js 시각화 절차 : 획득 - 파싱 - 필터링 - 표현 - 상호작용 추가
D3.js에서 파이 차트를 그릴 때 layout을 사용한다
.~cut을 사용하면 caret은 위에 표현된다
아이소타이프는 문자, 숫자 대신 도형이나 기호를 사용한다
정보 조직화 기준 LATCH : Location, Alphabet, Time, Category, Hierachy
정보 디자인은 보는 사람이 의미를 명확히 이해하도록 돕는다
모자이크 플롯은 복수의 categorical variable 분포 파악에 유리하다
정보의 조직화 과정 : 데이터 수집 - 분류 - 배열 - 관계맺기
게피는 네트워크 데이터 시각화 도구이다
그래픽 7요소: 기울기, 모양, 크기, 색, 명도, 위치, 질감

728x90

저작자표시 비영리 변경금지 (새창열림)

'데이터 분석 > 자격증' 카테고리의 다른 글

28회 ADP 실기 후기 / 기출문제 복원 / 가답안 (0)	2023.03.12
빅데이터 분석기사 실기 작업형 2유형 흐름 (0)	2022.07.25
제4회 빅데이터 분석기사 실기 합격 후기, 예상 답안(비전공자) (3)	2022.06.25
ADP 필기 합격 후기(비전공자) (0)	2022.06.13
제4회 빅데이터 분석기사 필기 합격 후기(비전공자) (0)	2022.04.21

현재글ADP 필기 공부 오답 정리

한 밀레니얼의 일기

ADP 필기 공부 오답 정리

1장

2장

3장

4장

5장

'데이터 분석 > 자격증' 카테고리의 다른 글

'데이터 분석/자격증'의 다른글

티스토리툴바

ADP 필기 공부 오답 정리

1장

2장

3장

4장

5장

'데이터 분석 > 자격증' 카테고리의 다른 글

'데이터 분석/자격증'의 다른글

관련글

티스토리툴바