2023 년 05 월 06 일 업데이트 된 데이터 과학자 데이터 브릭스 데이터 브릭스 인증 전문가 - 데이터 과학자 덤프 제공 [Q20-Q44] 140 개의 QA & #039.39

Q20. 질문-34. 커뮤니티에서 '투표'(긍정적인 평가)를 받은 스토리는 Digg의 첫 페이지에 표시됩니다. 커뮤니티가 더 커지고 다양해짐에 따라 추천 스토리는 커뮤니티 구성원의 평균 관심사를 더 잘 반영할 수 있습니다. 다음 중 이러한 추천 엔진을 만드는 데 사용되는 기술은 무엇인가요?

나이브 베이즈 분류기

협업 필터링

로지스틱 회귀

콘텐츠 기반 필터링

Q21. 한 연구자가 GRE(대학원 입학 시험 점수), GPA(학점 평균), 학부 기관의 명성 등의 변수가 대학원 입학에 어떤 영향을 미치는지 궁금합니다. 응답 변수인 인정/불인정 여부는 이항 변수입니다.
위의 예는

선형 회귀

로지스틱 회귀

추천 시스템

최대 가능성 추정

계층적 선형 모델

Q22. 가장 가까운 이웃에 해당하는 문장을 고르세요.

데이터에 대한 가정 없음

계산 비용이 많이 듭니다.

적은 메모리 필요

숫자 값으로 작업

Q23.

아래 그림은 1000 x 2인 데이터 행렬 M의 데이터 플롯을 보여줍니다. 다음 중 첫 번째 주성분을 나타내는 선은?

노란색

파란색

어느 쪽도

Q24. 머신 러닝 애플리케이션 개발 순서를 선택하세요.
A) 입력 데이터 분석
B) 입력 데이터 준비
C) 데이터 수집
D) 알고리즘 훈련
E) 알고리즘 테스트
F) 사용

A, B, C, D, E, F

C, B, A, D, E, F

C, A, B, D, E, F

C, B, A, D, E, F

설명
1 데이터를 수집합니다. 웹사이트를 스크랩하고 데이터를 추출하여 샘플을 수집하거나 RSS 피드 또는 API에서 정보를 얻을 수 있습니다. 장치가 풍속 측정값을 수집하여 사용자에게 전송하거나 혈당 수치 또는 측정할 수 있는 모든 것을 수집하도록 할 수 있습니다. 옵션의 수는 무궁무진합니다. 시간과 노력을 절약하려면 공개적으로 사용 가능한 데이터를 사용할 수 있습니다.
2 입력 데이터를 준비합니다. 데이터를 확보했다면 사용 가능한 형식인지 확인해야 합니다. 이 책에서 사용할 형식은 Python 목록입니다. 파이썬에 대해서는 잠시 후에 더 자세히 설명할 것이며, 목록은 부록 A에서 검토합니다.
이 표준 형식을 사용하면 알고리즘과 데이터 소스를 혼합하고 일치시킬 수 있다는 이점이 있습니다. 여기서 알고리즘별 형식을 지정해야 할 수도 있습니다. 일부 알고리즘은 특수 형식의 피처가 필요하고, 일부 알고리즘은 대상 변수와 피처를 문자열로 처리할 수 있으며, 일부 알고리즘은 정수로 처리해야 합니다. 나중에 설명하겠지만 알고리즘별 서식 지정은 일반적으로 데이터 수집에 비하면 사소한 일입니다.
3 입력 데이터를 분석합니다. 이전 작업의 데이터를 살펴보는 단계입니다. 텍스트 편집기에서 파싱한 데이터를 살펴보고 1단계와 2단계가 실제로 작동하는지, 빈 값이 많지 않은지 확인하는 것만큼 간단할 수 있습니다. 또한 데이터를 살펴보고 패턴을 인식할 수 있는지 또는 나머지 데이터 집합과 크게 다른 몇 개의 데이터 요소와 같이 명백한 것이 있는지 확인할 수도 있습니다. 데이터를 1차원, 2차원 또는 3차원으로 플로팅하는 것도 도움이 될 수 있습니다. 하지만 대부분의 경우 세 개 이상의 피처가 있을 것이고, 한 번에 모든 피처에 걸쳐 데이터를 플로팅할 수는 없습니다. 하지만 나중에 설명할 몇 가지 고급 방법을 사용하여 여러 차원을 두세 개로 압축하여 데이터를 시각화할 수 있습니다.
4 프로덕션 시스템으로 작업하고 있고 데이터의 모양을 알고 있거나 데이터의 출처를 신뢰하는 경우 이 단계를 건너뛸 수 있습니다. 이 단계는 사람의 개입이 필요하며, 자동화된 시스템에서는 사람의 개입을 원하지 않습니다. 이 단계의 가치는 쓰레기가 들어오는 것이 없다는 것을 이해하게 해준다는 것입니다.
5 알고리즘을 훈련합니다. 이 단계에서 머신 러닝이 이루어집니다. 이 단계와 다음 단계는 알고리즘에 따라 "핵심" 알고리즘이 있는 곳으로, 처음 두 단계의 깨끗한 데이터를 알고리즘에 공급하고 지식이나 정보를 추출합니다. 이 지식은 종종 다음 두 단계에서 기계가 쉽게 사용할 수 있는 형식으로 저장되며, 비지도 학습의 경우 목표 값이 없기 때문에 학습 단계가 없습니다. 모든 것은 다음 단계에서 사용됩니다.
6 알고리즘을 테스트합니다. 이 단계에서는 이전 단계에서 학습한 정보를 사용할 수 있습니다. 알고리즘을 평가할 때는 알고리즘이 얼마나 잘 작동하는지 확인하기 위해 알고리즘을 테스트합니다. 지도 학습의 경우 알고리즘을 평가하는 데 사용할 수 있는 몇 가지 알려진 값이 있습니다. 비지도 학습에서는 성공 여부를 평가하기 위해 다른 메트릭을 사용해야 할 수도 있습니다. 두 경우 모두 만족스럽지 않으면 4단계로 돌아가서 몇 가지 사항을 변경한 다음 다시 테스트를 시도할 수 있습니다. 데이터 수집이나 준비에 문제가 있는 경우가 많으므로 1단계로 돌아가야 할 수도 있습니다.
7 사용하세요. 여기서 실제 프로그램을 만들어 몇 가지 작업을 수행하고 이전 단계가 모두 예상대로 작동하는지 다시 한 번 확인합니다. 새로운 데이터가 발생하여 1~5단계를 다시 수행해야 할 수도 있습니다.

Q25. 이미지에 표시된 것과 유사한 5000개의 변수가 있는 매우 고차원적인 데이터 세트(열은 많고 행은 많지 않음)로 분류기를 구축하고 있다고 가정해 보겠습니다. 밀도가 높은 입력과 희박한 입력을 모두 처리할 수 있습니다. 어떤 기법이 가장 적합하며 그 이유는 무엇인가요?

과적합을 방지하기 위해 L1 정규화를 사용한 로지스틱 회귀 분석

나이브 베이즈는 베이지안 메서드가 정규화기 역할을 하기 때문에

지역 이웃을 사용하여 예제를 분류하기 때문입니다.

랜덤 포레스트는 앙상블 방식이기 때문에

설명
로지스틱 회귀는 분류 문제에 대한 머신러닝에서 널리 사용됩니다. 특히 훈련 예시 수가 적거나 학습해야 할 파라미터 수가 많은 경우 과적합을 피하기 위해 정규화가 필요하다는 것은 잘 알려져 있습니다. 특히 L1 정규화된 로지스틱 회귀는 특징 선택에 자주 사용되며, 관련 없는 특징이 많은 경우 일반화 성능이 좋은 것으로 나타났습니다. (Ng 2004; Goodman 2004) 비정규화되지 않은 로지스틱 회귀는 연속적으로 미분되는 목적 함수를 가진 제약되지 않은 볼록 최적화 문제입니다. 따라서 뉴턴의 방법이나 공액 그라데이션과 같은 표준 볼록 최적화 방법으로 상당히 효율적으로 해결할 수 있습니다. 그러나 L1 정규화를 추가하면 최적화 문제를 푸는 데 계산 비용이 더 많이 듭니다. L1 정규화가 매개변수에 대한 L1 규범 제약 조건에 의해 시행되는 경우 로지스틱 회귀는 분류기이며 L1 정규화는 예측이 아닌 입력의 차원을 무시하는 모델을 생성하는 경향이 있습니다. 이는 입력에 많은 차원이 포함되어 있을 때 특히 유용하며, k-최근접 이웃 분류도 분류 기법이지만 거리 개념에 의존합니다. 고차원 공간에서는 대부분의 모든 데이터 포인트가 다른 데이터 포인트와 "멀리" 떨어져 있기 때문에(차원의 저주) 이러한 기법은 실패합니다. 나이브 베이즈는 본질적으로 정규화되지 않습니다. 랜덤 포레스트는 앙상블 방법을 대표하지만, 앙상블 방법이 반드시 고차원 데이터에 더 적합한 것은 아닙니다.
실제로 정규화를 하는 가장 큰 이유는 1) 희박한 예측 변수에 대해 높은 계수를 생성하지 않음으로써 과적합을 피하기 위해서입니다. 2) 특히 데이터에 상관관계가 있을 때 추정치를 안정화하기 위해서입니다.
1)은 정규화 프레임워크에 내재되어 있습니다. 목적 함수에는 서로 끌어당기는 두 가지 힘이 있기 때문에 의미 있는 손실 감소가 없다면 정규화 항으로 인한 페널티가 증가해도 전체 목적 함수가 개선되지 않습니다. 이는 모델에서 많은 노이즈가 자동으로 필터링되기 때문에 훌륭한 속성입니다. 2)의 예를 들어, 값이 같은 두 개의 예측자가 있는 경우 데이터 행렬이 단수이므로 회귀 알고리즘만 실행하면 직선 행렬 반전을 시도할 경우 베타 계수는 Inf가 됩니다. 하지만 여기에 아주 작은 정규화 람다를 추가하면 계수 값이 동등한 두 변수에 균등하게 나뉘는 안정적인 베타 계수를 얻을 수 있습니다. 다음 그래프는 L1과 L2의 차이에 대해, L2가 매우 우아한 분석 솔루션을 가지고 있고 계산적으로 매우 간단하기 때문에 사람들이 왜 L1을 사용하는지 보여줍니다. 정규화된 회귀는 라그랑지안과 동등하기 때문에 제약 회귀 문제로 표현할 수도 있습니다. 이것의 의미는 L1 정규화가 희소 추정치를 제공한다는 것입니다. 즉, 고차원 공간에서는 대부분 0과 0이 아닌 계수가 적은 수의 추정치를 얻을 수 있습니다. 이는 모델링 문제에 변수 선택을 통합하기 때문에 매우 중요합니다. 또한 모델로 대규모 샘플을 점수화해야 하는 경우 계수가 0인 특징(예측자)을 계산할 필요가 없기 때문에 계산을 많이 절약할 수 있습니다. 개인적으로 L1 정규화는 머신러닝과 컨벡스 최적화에서 가장 아름다운 것 중 하나라고 생각합니다. 실제로 생물 정보학 및 대규모 머신 러닝 분야에서 Facebook, Yahoo, Google, Microsoft와 같은 회사에서 널리 사용되고 있습니다.

Q26. 다음 중 추천 시스템의 정확도와 품질을 측정하는 데 유용한 지표는 무엇인가요?

클러스터 밀도

지원 벡터 수

평균 절대 오류

절대 오류 합계

Q27. Google 애드워즈는 매일 자정부터 한 시간 동안 검색 엔진에서 광고를 클릭하는 남성과 여성의 수를 조사합니다.
Google은 클릭하는 남성의 수를 푸아송(X) 분포의 확률 변수로 모델링할 수 있고, 마찬가지로 클릭하는 여성의 수를 푸아송(Y)로 모델링할 수 있음을 발견했습니다.
한 시간 동안 자정 동안 총 광고 클릭 수에서 가장 좋은 모델이 될 가능성이 높은 것은 무엇입니까?
?

이항(X+Y,X+Y)

푸아송(X/Y)

일반(X+Y(M+Y)1/2)

푸아송(X+Y)

Q28. 세 가지 이벤트가 있다고 가정할 때 어떤 공식이 항상 P(E1|E2,E3)와 같아야 할까요?

P(E1,E2,E3)P(E1)/P(E2:E3)

P(E1,E2;E3)/P(E2,E3)

P(E1,E2|E3)P(E2|E3)P(E3)

P(E1,E2|E3)P(E3)

P(E1,E2,E3)P(E2)P(E3)

Q29. 다음 중 기능이 될 수 있는 것은 무엇인가요?

문서의 단어

질병의 증상

미확인 물체의 특성

1과 2만

1,2,3 모두 가능

Q30. 영화 평점 웹사이트인 넷플릭스와 작업하는 동안 데이터 집합의 사용자-항목 쌍에 대해 데이터 집합에 주어진 평점보다 일관되게 정확히 1이 높은 평점 예측을 생성하는 추천 시스템을 개발했습니다. 데이터 세트에 n개의 항목이 있습니다. 데이터 세트에 대한 추천 시스템의 계산된 RMSE는 어떻게 되나요?

1

2

0

n/2

Q31. 다음 중 어떤 시나리오에서 선형 회귀 모델을 사용할 수 있나요?

위치 및 주택 면적을 기반으로 주택 가격 예측하기

날씨를 기반으로 상품 및 서비스 수요 예측하기

방사선 치료 횟수 입력에 따른 종양 크기 감소 예측

주 내 학생 수를 기반으로 교과서 판매량 예측하기

Q32. 회귀를 사용하여 의료 응용 프로그램 중 하나에 대한 고급 분석을 수행 중이며 체중과 키라는 두 변수가 있는데 이 두 변수는 무시할 수 없는 매우 중요한 입력 변수이며 상호 연관성이 높습니다. 이를 위한 최상의 솔루션은 무엇인가요?

높이의 큐브 루트를 취합니다.

무게의 제곱근을 취합니다.

높이의 제곱을 취합니다.

BMI(체질량 지수) 사용을 고려할 수 있습니다.

Q33. 별 1개에서 5개 사이의 등급을 매기는 평가 시스템 모델을 만들었다고 가정해 보겠습니다. RMSE 값이 1.0이라고 계산한 경우 다음 중 올바른 것은 무엇인가요?

이는 예측이 사람들의 실제 생각과 평균적으로 별 하나씩 차이가 난다는 의미입니다.

이는 예측이 사람들의 실제 생각과 평균적으로 별 두 개 정도 차이가 난다는 뜻입니다.

이는 예측이 사람들의 실제 생각과 평균적으로 별 3개 정도 차이가 난다는 의미입니다.

이는 예측이 사람들의 실제 생각과 평균 별 4개 정도 차이가 난다는 의미입니다.

Q34. 다음 중 분류에 naTve 베이즈 정리를 사용할 수 있는 시나리오는 무엇입니까?

측정된 특징을 바탕으로 특정 사람이 남성인지 여성인지 분류합니다. 특징에는 키, 몸무게, 발 사이즈가 포함됩니다.

이메일이 스팸인지 아닌지 분류하려면 다음과 같이 하세요.

지름, 색상, 모양과 같은 특징을 기준으로 과일이 오렌지인지 아닌지 식별하기

Q35. 첫 번째 주사위가 6일 때 두 주사위의 합계가 8보다 클 확률은 얼마입니까?

1/3

2/3

1/6

2/6

Q36. 분석 수명 주기의 어느 단계에서 프로젝트 시간의 대부분을 소비할 것으로 예상하시나요?

발견

데이터 준비

결과 전달

운영

Q37. 분류자 모델을 구축하기 위해 데이터를 분석하고 있습니다. 모델에 영향을 줄 수 있는 비선형 데이터와 불연속성을 발견했습니다. 어떤 분석 방법을 추천하시겠습니까?

로지스틱 회귀

의사 결정 트리

선형 회귀

아리마

Q38. 다음 중 데이터 과학 범주에 속하는 질문 문장은 무엇입니까?

지난 6개월 동안 어떤 일이 있었나요?

지난 한 달 동안 판매된 제품 수는 몇 개인가요?

영업에 문제가 있는 곳은 어디인가요?

이 제품을 판매하기 위한 최적의 시나리오는 무엇인가요?

이러한 시나리오가 계속된다면 어떻게 될까요?

Q39. 일반적으로 표준 관계형 데이터베이스에서 제공되지 않는 MADlib의 모델링 또는 설명적 통계 함수에는 어떤 것이 있나요?

예상 가치

분산

선형 회귀

사분위수

Q40. 텍스트 분류 문제에서 피어슨 상관관계에 비해 상호 정보의 장점은 무엇인가요?

상호 정보에는 통계적 유의성에 대한 의미 있는 테스트가 있습니다.

상호 정보는 종속 변수와 독립 변수 간의 비선형 관계를 나타낼 수 있습니다.

상호 정보는 병렬화하기가 더 쉽습니다.

상호 정보는 변수가 정규 분포되어 있다고 가정하지 않습니다.

Q41. 병원에서 심장 환자를 분류하기 위해 K-평균 클러스터링을 사용하고 있습니다. 측정값으로 환자 성별, 키, 몸무게, 나이 및 소득을 선택하고 3개의 클러스터를 사용했습니다. 클러스터의 쌍별 플롯을 만들면 클러스터 간에 상당한 겹침이 있음을 알 수 있습니다. 어떻게 해야 하나요?

분석에 추가할 추가 측정값 식별

측정값 중 하나를 제거합니다.

클러스터 수 줄이기

클러스터 수 늘리기

Q42. 어떤 분석 방법이 비감독으로 간주되나요?

에는 본질적으로 이차적인 추세 구성 요소가 있을 수 있습니다. 시계열 데이터의 추세가 본질적으로 이차적임을 나타내는 데이터 패턴은 무엇인가요?