Welcome to TestSimulate

Pass Your Next Certification Exam Fast!

Everything you need to prepare, learn & pass your certification exam easily.

365 days free updates. First attempt guaranteed success.

Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) (Databricks-Certified-Data-Engineer-Professional日本語) Free Practice Test

Question 1
シニアデータエンジニアが大規模なデータワークフローを計画しています。現在の課題は、大規模データセットの効果的な管理に不可欠な、スケーラブルなデータモデル構築の基盤となる考慮事項を特定することです。データエンジニアリングチームは、最新のデータプラットフォームを構築するためのスケーラブルなデータモデルを構成するコア機能を特定し、Delta Lakeを検討対象とする理由を示しました。シニアデータエンジニアは、有効でない推奨事項を特定する責任を負います。Delta Lakeを評価する際に、どの主要機能を無視してもよいでしょうか?

Correct Answer: D
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 2
Spark Structured Streaming で使用される一般的なプログラミング モデルの特徴を説明する記述はどれですか。

Correct Answer: C
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 3
データエンジニアが日次レポートジョブを作成しています。レポートノートブックは2つあり、1つは平日用、もう1つは週末用です。「if/else条件」タスクは次のように設定されています。
{{job.start_time.is_weekday}} == true と設定すると、ジョブは平日または週末のノートブックタスクにルーティングされます。同じジョブが複数のタイムゾーンで使用されます。シニアデータエンジニアは、ジョブをレビューした後、プルリクエストをマージするか拒否するかについて、どのようなアクションを取るべきでしょうか?

Correct Answer: D
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 4
データガバナンスチームは、個人識別情報(PH)を含むすべてのテーブルに明確な注釈を付けるという要件を制定しました。これには、列コメント、テーブルコメントの追加、カスタムテーブルプロパティ「contains_pii」をtrueに設定することが含まれます。
新しいテーブルを作成するには、次の SQL DDL ステートメントが実行されます。

これら 3 つの要件が満たされていることを手動で確認できるコマンドはどれですか?

Correct Answer: A
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 5
データエンジニアリングチームは、顧客テーブルの複数の列にわたるデータ品質を監視するSQLアラートを作成する必要があります。メールアドレスが未入力の顧客の割合が15%を超え、かつ電話番号の形式が無効な顧客の割合が10%を超えた場合にアラートをトリガーしたいと考えています。この複数列のアラート条件を実装するのに適したSQLクエリパターンはどれですか?

Correct Answer: B
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 6
ジョブ実行履歴の保持に関して正しい記述はどれですか?

Correct Answer: C
Question 7
データガバナンスチームは、GDPR遵守のため、ユーザーのレコード削除を審査しています。削除リクエストをuser_lookupテーブルからユーザー集計テーブルに反映させるため、以下のロジックが実装されています。

user_id が一意の識別キーであり、削除を要求したすべてのユーザーが user_lookup テーブルから削除されていると仮定すると、上記のロジックを正常に実行すると、user_aggregates テーブルから削除されるレコードにアクセスできなくなることが保証されるかどうか、またその理由はどれですか。

Correct Answer: D
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 8
ビューの更新は、顧客テーブルに挿入または更新される新しく取り込まれたすべてのデータの増分バッチを表します。
これらのレコードを処理するには、次のロジックが使用されます。
顧客との融合
使用(
SELECT updates.customer_id を merge_ey として、updates .* として選択します。
アップデートから
ユニオンオール
merge_key として NULL を選択し、更新します。*
アップデートから顧客に参加
オン updates.customer_id = 顧客.customer_id
WHERE customers.current = true AND updates.address <> customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address <> staged_updates.address THEN UPDATE SET current = false, end_date = staged_updates.effective_date WHEN NOT MATCHED THEN INSERT (customer_id, address, current, effective_date, end_date) VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) どのステートメントがこの実装について説明していますか?

Correct Answer: C
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 9
データエンジニアが、user_idでグループ化された膨大なユーザーアクティビティログに対してgroupBy集計を実行しています。少数のユーザーが数百万件のレコードを保有しているため、タスクの偏りが生じ、実行時間が長くなっています。この集計における偏りを修正するには、どのような手法が考えられますか?

Correct Answer: A
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 10
ある組織は、Webアプリケーションとモバイルアプリケーションから顧客データを処理しています。データには、氏名、メールアドレス、電話番号、位置情報履歴などが含まれます。データは、バッチファイル(SFTPから毎日)とストリーミングJSONイベント(Kafkaからリアルタイム)の両方で受信されます。
データ プライバシー ポリシーに準拠するには、次の要件を満たす必要があります。
- 電子メール、電話などの個人識別情報(PII)
番号および IP アドレスは保存前にマスクまたは匿名化する必要があります。
- バッチパイプラインとストリーミングパイプラインの両方で一貫したPIIを適用する必要がある
取り扱い。
- マスキング ロジックは監査可能かつ再現可能である必要があります。
- マスクされたデータは、ダウンストリーム分析に使用できる必要があります。
データ エンジニアは、バッチ モードとストリーミング モードの両方をサポートし、PII にデータ マスキングを適用し、監査の追跡可能性を維持する準拠データ パイプラインを Databricks 上でどのように設計すればよいでしょうか。

Correct Answer: B
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 11
マルチタスク ジョブでタスクとして実行するように構成されたノートブックを確認するには、どの REST API 呼び出しを使用できますか?

Correct Answer: A
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 12
データエンジニアが、customer_id、transaction_timestamp(ミリ秒単位の精度)、amount_spent を含む PySpark DataFrame df 内のトランザクションデータを分析しています。目的は、顧客ごとに、transaction_timestamp の順序に従って、amount_spent の累積合計を計算することです。累積合計には、最も古いタイムスタンプから現在の行までのすべてのトランザクションが含まれ、各顧客パーティション内の時間的な順序が尊重される必要があります。適切なウィンドウ指定を最も正確に構築し、集計を適用して顧客ごとの正確な累積支出を算出する PySpark コードスニペットはどれですか。

Correct Answer: D
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 13
アナリティクスチームは、データエンジニアリングチームが作成した顧客トランザクションのDeltaテーブル(約200億レコード)に対して、Databricks SQLで短期的な実験を実行したいと考えています。データエンジニアリングチームは、ダウンタイムを最小限に抑え、進行中のETLプロセスに影響を与えないようにするために、どのような戦略を採用すべきでしょうか?

Correct Answer: D
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).
Question 14
ジュニアデータエンジニアが、Delta Lakeの変更データフィード機能を利用して、delta.enableChangeDataFeed = trueプロパティで作成されたブロンズテーブルの全行で有効であったすべての値を表すType 1テーブルを作成しようとしています。彼らは、以下のコードを日常的なジョブとして実行する予定です。

上記のクエリを複数回実行した場合の実行と結果を説明するステートメントはどれですか?

Correct Answer: B
Explanation: Only visible for TestSimulate members. You can sign-up / login (it's free).