Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) (Databricks-Certified-Data-Engineer-Professional日本語) Free Practice Test

Question 1

シニアデータエンジニアが大規模なデータワークフローを計画しています。現在の課題は、大規模データセットの効果的な管理に不可欠な、スケーラブルなデータモデル構築の基盤となる考慮事項を特定することです。データエンジニアリングチームは、最新のデータプラットフォームを構築するためのスケーラブルなデータモデルを構成するコア機能を特定し、Delta Lakeを検討対象とする理由を示しました。シニアデータエンジニアは、有効でない推奨事項を特定する責任を負います。Delta Lakeを評価する際に、どの主要機能を無視してもよいでしょうか？

A. Delta Lake はメタデータの処理を最適化し、数十億のファイルを効率的に管理し、ペタバイト規模のデータセットへの拡張性を促進します。

B. Delta Lake はバッチモードとストリーミングモードの両方でデータをシームレスに処理できるため、データの取り込みと処理に柔軟性があります。

C. Delta Lake はさまざまなデータ形式 (Parquet、JSON、CSV など) に対応し、Spark および Databricks ツールと適切に統合されます。

D. Delta Lake はデータパイプラインの監視とトラブルシューティングに対するサポートが限定的であるため、運用効率を高めるには、関連するパートナーツールを特定して設定する必要があります。

Correct Answer: D

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 2

Spark Structured Streaming で使用される一般的なプログラミングモデルの特徴を説明する記述はどれですか。

A. 構造化ストリーミングは、特殊なハードウェアと I/O ストリームを使用して、データ転送のレイテンシを 1 秒未満に抑えます。

B. 構造化ストリーミングはメッセージングバスとして実装されており、Apache Kafka から派生しています。

C. 構造化ストリーミングは、データストリームに到着する新しいデータを、無制限のテーブルに追加される新しい行としてモデル化します。

D. 構造化ストリーミングは、GPU の並列処理を活用して、高度な並列データスループットを実現します。

E. 構造化ストリーミングは、キャッシュされたステージの増分状態値を保持するノードの分散ネットワークに依存します。

Correct Answer: C

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 3

データエンジニアが日次レポートジョブを作成しています。レポートノートブックは2つあり、1つは平日用、もう1つは週末用です。「if/else条件」タスクは次のように設定されています。
{{job.start_time.is_weekday}} == true と設定すると、ジョブは平日または週末のノートブックタスクにルーティングされます。同じジョブが複数のタイムゾーンで使用されます。シニアデータエンジニアは、ジョブをレビューした後、プルリクエストをマージするか拒否するかについて、どのようなアクションを取るべきでしょうか？

A. ジョブ構成が適切であるため、マージします。

B. {{job.start_time.is_weekday}} は有効な値参照ではないため、拒否します。

C. 代わりに {{job.trigger_time.is_weekday}} を使用する必要があるため、拒否します。

D. {{job.start_time.is_weekday}} は UTC タイムゾーンであるため、拒否します。

Correct Answer: D

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 4

データガバナンスチームは、個人識別情報(PH)を含むすべてのテーブルに明確な注釈を付けるという要件を制定しました。これには、列コメント、テーブルコメントの追加、カスタムテーブルプロパティ「contains_pii」をtrueに設定することが含まれます。
新しいテーブルを作成するには、次の SQL DDL ステートメントが実行されます。

これら 3 つの要件が満たされていることを手動で確認できるコマンドはどれですか?

A. 拡張dev.piiテストの説明

B. SHOW TBLPROPERTIES dev.pii テスト

C. DETAIL dev.pii テスト

D. SHOW TABLES dev

E. 履歴の説明 dev.pii テスト

Correct Answer: A

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 5

データエンジニアリングチームは、顧客テーブルの複数の列にわたるデータ品質を監視するSQLアラートを作成する必要があります。メールアドレスが未入力の顧客の割合が15%を超え、かつ電話番号の形式が無効な顧客の割合が10%を超えた場合にアラートをトリガーしたいと考えています。この複数列のアラート条件を実装するのに適したSQLクエリパターンはどれですか？

A. SELECT COUNT (*) FROM customers WHERE email IS NULL OR phone_format_invalid = true

B. SELECT email_null_pct, phone_invalid_pct FROM (SELECT (COUNT(CASE WHEN email IS NULL THEN 1 END) *
100.0/COUNT (*)) as email_null_pct, (COUNT(CASE WHEN phone NOT RLIKE ''[0-9-+()\\s]+$' THEN 1 END)*
100.0/COUNT (*)) as phone_invalid_pct FROM customers)

C. SELECT CASE WHEN email_null_pct >15 AND phone_invalid_pct> 10 THEN 1 ELSE 0 END FROM (SELECT (COUNT (CASE WHEN email IS NULL THEN 1 END) * 100.0 / COUNT (*)) as phone_invalid_pct FROM customers) metrics

D. SELECT email, phone FROM customers WHERE email IS NULL AND phone NOT RLIKE ''[0-9-
+()\\s]+$'

Correct Answer: B

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 6

ジョブ実行履歴の保持に関して正しい記述はどれですか?

A. ジョブ実行ログをエクスポートまたは削除するまで保持されます

B. 30日間保持され、その間にジョブ実行ログをDBFSまたはS3に配信できます。

C. 60日間保持され、その間にノートブックの実行結果をHTMLにエクスポートできます。

D. 90日間、またはカスタム実行構成を通じて実行IDが再利用されるまで保持されます。

E. 60日間保存され、その後ログはアーカイブされます

Correct Answer: C

Question 7

データガバナンスチームは、GDPR遵守のため、ユーザーのレコード削除を審査しています。削除リクエストをuser_lookupテーブルからユーザー集計テーブルに反映させるため、以下のロジックが実装されています。

user_id が一意の識別キーであり、削除を要求したすべてのユーザーが user_lookup テーブルから削除されていると仮定すると、上記のロジックを正常に実行すると、user_aggregates テーブルから削除されるレコードにアクセスできなくなることが保証されるかどうか、またその理由はどれですか。

A. いいえ。変更データフィードは挿入と更新のみを追跡し、削除されたレコードは追跡しません。

B. はい。Delta Lake ACID 保証により、DELETE コマンドが完全に成功し、これらのレコードが永続的に消去されたことが保証されます。

C. いいえ。Delta Lake の DELETE コマンドは、MERGE INTO コマンドと組み合わせた場合にのみ ACID 保証を提供します。

D. いいえ。削除されたレコードを含むファイルは、BACUM コマンドを使用して無効化されたデータファイルを削除するまで、タイムトラベルで引き続きアクセスできる可能性があります。

E. はい。変更データフィードは外部キーを使用して、Lakehouse 全体での削除の一貫性を確保します。

Correct Answer: D

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 8

ビューの更新は、顧客テーブルに挿入または更新される新しく取り込まれたすべてのデータの増分バッチを表します。
これらのレコードを処理するには、次のロジックが使用されます。
顧客との融合
使用(
SELECT updates.customer_id を merge_ey として、updates .* として選択します。
アップデートから
ユニオンオール
merge_key として NULL を選択し、更新します。*
アップデートから顧客に参加
オン updates.customer_id = 顧客.customer_id
WHERE customers.current = true AND updates.address <> customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address <> staged_updates.address THEN UPDATE SET current = false, end_date = staged_updates.effective_date WHEN NOT MATCHED THEN INSERT (customer_id, address, current, effective_date, end_date) VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) どのステートメントがこの実装について説明していますか?

A. 顧客テーブルはタイプ 2 テーブルとして実装されており、古い値は上書きされ、新しい顧客が追加されます。

B. 顧客テーブルはタイプ 0 テーブルとして実装されており、すべての書き込みは既存の値を変更せずに追加のみで行われます。

C. 顧客テーブルはタイプ 2 テーブルとして実装されています。古い値は維持されますが、最新ではないとマークされ、新しい値が挿入されます。

D. 顧客テーブルはタイプ 1 テーブルとして実装されており、古い値は新しい値によって上書きされ、履歴は保持されません。

Correct Answer: C

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 9

データエンジニアが、user_idでグループ化された膨大なユーザーアクティビティログに対してgroupBy集計を実行しています。少数のユーザーが数百万件のレコードを保有しているため、タスクの偏りが生じ、実行時間が長くなっています。この集計における偏りを修正するには、どのような手法が考えられますか？

A. 集約前に偏ったキーにランダムなプレフィックスを追加してソルトを使用し、プレフィックスを削除した後に再度集約します。

B. 集計前に偏ったユーザーを除外します。

C. Spark ドライバーのメモリを増やして再試行してください。

D. シャッフルを回避するには、groupBy の代わりに reduceByKey を使用します。

Correct Answer: A

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 10

ある組織は、Webアプリケーションとモバイルアプリケーションから顧客データを処理しています。データには、氏名、メールアドレス、電話番号、位置情報履歴などが含まれます。データは、バッチファイル(SFTPから毎日)とストリーミングJSONイベント(Kafkaからリアルタイム)の両方で受信されます。
データプライバシーポリシーに準拠するには、次の要件を満たす必要があります。
- 電子メール、電話などの個人識別情報(PII)
番号および IP アドレスは保存前にマスクまたは匿名化する必要があります。
- バッチパイプラインとストリーミングパイプラインの両方で一貫したPIIを適用する必要がある
取り扱い。
- マスキングロジックは監査可能かつ再現可能である必要があります。
- マスクされたデータは、ダウンストリーム分析に使用できる必要があります。
データエンジニアは、バッチモードとストリーミングモードの両方をサポートし、PII にデータマスキングを適用し、監査の追跡可能性を維持する準拠データパイプラインを Databricks 上でどのように設計すればよいでしょうか。

A. ノートブックを使用してバッチデータを読み込み、SQL ウェアハウスを使用してストリーミングデータを取り込みます。Silver テーブルで Unity Catalog 列マスクを使用して、保存後にフィールドを編集します。

B. バッチおよびストリーミング取り込みに Lakeflow 宣言型パイプラインを使用し、PII マスキング関数を定義して、Delta Lake に書き込む前の Bronze 取り込み中に適用します。

C. 系統追跡のために PII をマスクせずに Bronze に保存し、レポートに使用される Gold テーブルにマスキングロジックを適用できるようにします。

D. Lakeflow 宣言型パイプラインを使用してバッチデータとストリーミングデータの両方を取り込み、読み取り時に Unity カタログ列マスクを介してマスキングを適用して、取り込み中にデータが変更されないようにします。

Correct Answer: B

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 11

マルチタスクジョブでタスクとして実行するように構成されたノートブックを確認するには、どの REST API 呼び出しを使用できますか?

A. /jobs/get

B. /jobs/runs/get

C. /jobs/runs/get-output

D. /jobs/runs/list

E. /jobs/list

Correct Answer: A

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 12

データエンジニアが、customer_id、transaction_timestamp(ミリ秒単位の精度)、amount_spent を含む PySpark DataFrame df 内のトランザクションデータを分析しています。目的は、顧客ごとに、transaction_timestamp の順序に従って、amount_spent の累積合計を計算することです。累積合計には、最も古いタイムスタンプから現在の行までのすべてのトランザクションが含まれ、各顧客パーティション内の時間的な順序が尊重される必要があります。適切なウィンドウ指定を最も正確に構築し、集計を適用して顧客ごとの正確な累積支出を算出する PySpark コードスニペットはどれですか。

A.

B.

C.

D.

Correct Answer: D

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 13

アナリティクスチームは、データエンジニアリングチームが作成した顧客トランザクションのDeltaテーブル(約200億レコード)に対して、Databricks SQLで短期的な実験を実行したいと考えています。データエンジニアリングチームは、ダウンタイムを最小限に抑え、進行中のETLプロセスに影響を与えないようにするために、どのような戦略を採用すべきでしょうか？

A. 分析チーム用にテーブルをディープクローンします。

B. CTAS ステートメントを使用して分析チーム用の新しいテーブルを作成します。

C. 分析チームに本番環境テーブルへの直接アクセス権を付与します。

D. 分析チーム用にテーブルを浅く複製します。

Correct Answer: D

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Question 14

ジュニアデータエンジニアが、Delta Lakeの変更データフィード機能を利用して、delta.enableChangeDataFeed = trueプロパティで作成されたブロンズテーブルの全行で有効であったすべての値を表すType 1テーブルを作成しようとしています。彼らは、以下のコードを日常的なジョブとして実行する予定です。

上記のクエリを複数回実行した場合の実行と結果を説明するステートメントはどれですか?

A. ジョブが実行されるたびに、挿入または更新されたレコードの履歴全体を使用してターゲットテーブルが上書きされ、目的の結果が得られます。

B. ジョブが実行されるたびに、挿入または更新されたレコードの利用可能な履歴全体がターゲットテーブルに追加され、多くの重複エントリが生成されます。

C. ジョブが実行されるたびに、元のバージョンと現在のバージョンの違いが計算されます。これにより、一部のレコードに重複したエントリが発生する可能性があります。

D. ジョブが実行されるたびに、前回の実行以降に挿入または更新されたレコードのみがターゲットテーブルに追加され、目的の結果が得られます。

E. ジョブが実行されるたびに、新しく更新されたレコードがターゲットテーブルにマージされ、同じ主キーを持つ以前の値が上書きされます。

Correct Answer: B

Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).

Welcome to TestSimulate

Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) (Databricks-Certified-Data-Engineer-Professional日本語) Free Practice Test