在企業數倉建設初期,為了保障數字化轉型的落地效果,需要提供充足的數據資源,除了基礎的數據抽取、轉換和加載等過程,數據的同步也是重要環節之一。數據同步常用于數倉ODS、ADS層的建設,通過不同數據源的同步,保障數據的及時性和準確性,從而滿足不同業務部門和用戶的需求。
在過去,企業在處理數據同步時,常常需要SQL編碼輔助完成,隨著業務發展,企業的數據量飛速增長,傳統的編碼方式也逐漸顯露弊端:
? 無法精準匹配:通過編寫SQL進行同步策略,難以與場景實現精準匹配;
? 操作門檻高:涉及到前置SQL、后置SQL等代碼過程,需要配備專業的技術開發人員;
? 開發周期長:如有多個任務,需一個個單獨配置,耗時較長,效率低。
針對以上痛點,Tempo 數據工廠新推出【場景化數據同步】功能,根據業務需求及數據特征,提取關鍵場景,通過點選方式,快速匹配不同的集成場景。
該功能將常用數據集成業務場景進行抽取,包含周期增量、一次全量周期增量、周期全量三種同步策略,可快速完成數據集成任務配置。
01、周期增量
周期增量通常指的是在數據集成過程中,從源系統中提取數據到目標系統中的增量數據量。數據集成是將來自不同數據源的數據整合到一個統一的目標系統中的過程,以實現數據的統一管理和共享。
以T企業為例,由于企業內部數據存量較大,每次全量讀取數據都需要很長時間才能完成遷移工作,于是T企業采用增量的方式,按照一定的調度頻率讀取周期內的新增數據,遷移到數據倉庫中。
讀取到來源端的增量數據后,可以采用不同的策略,寫入到目標庫中。根據不同的業務需求,Tempo數據工廠可提供以下兩種策略:
?先刪后增:清理當期數據,插入增量數據
?更新:唯一鍵相同更新,新增插入
02、一次全量周期增量
一次全量周期增量是指在數據集成過程中,進行一次全量數據抽取后的下一個周期內的增量數據量。全量數據抽取是指將源系統中的所有數據都抽取到目標系統中,以確保目標系統中的數據與源系統中的數據完全一致。
T企業內部有一定的歷史存量數據,每天也會產生新的數據,建設數倉時采用一次全量周期增量的模式,先把歷史存量數據全部抽取到目標端,之后每次都只取增量數據。
讀取到來源端的數據后,可以采用不同的策略,寫入到目標庫中。根據不同的業務需求,Tempo 數據工廠平臺提供以下兩種策略:
?先刪后增:清理當期數據,插入增量數據
?更新:唯一鍵相同更新,新增插入
03、周期全量
周期全量是指在一定的時間周期內,將所有的數據源進行全量的數據抽取和集成。這意味著每個周期都會將所有的數據源中的數據全部抽取出來,并進行整合和合并,以保證數據的完整性和一致性。
T企業的歷史數據存量小,數據中沒有日期時間字段幫助獲取增量數據,因此采用全量方式進行數據抽取。
讀取到來源端的增量數據后,可以采用不同的策略,寫入到目標庫中。根據不同的業務需求,Tempo 數據工廠提供以下三種策略:
?先刪后增:清理當期數據,插入增量數據
?緩存表:緩存輸出數據,交換加載目標數據
?備份表:目標表數據,對歷史數據進行備份
*緩存表:當目標端數據一直被應用時(如被BI看板引用時),目標表不能為空,則需要將包含新增或修改的全量數進行緩存,再將緩存表和目標表重命名替換。
*備份表:當歷史數據需要備份時,先按照版本寫入目標數據,再次進行寫入時將清理數據過期版本數據。
另外,在實際數倉建設過程中,會面臨多系統多表的集成工作,為了提高集成效率,TempoDF新增支持【批量數據同步】任務配置,可快速將來源端的多張表批量遷移至目標數據源。
功能亮點
? 更匹配業務場景
對同步場景進行細化,便于運維人員、實施人員、客戶方更好理解,更好進行業務匹配。
? 降低操作門檻
將編寫SQL方式修改為點選方式,無需技術人員上手,業務人員也能快速完成數據集成任務配置。
? 大幅提升效率
將編碼方式改為點選方式,預計提高效率60%,大幅縮減了配置時間。
? 支持批量操作
可批量進行任務配置,提高集成效率。
數字化轉型過程中,數據是核心。作為支撐數據分析的強大底座,Tempo DF的每一次的功能上新,都以給用戶提供更加敏捷、高效、智能的解決方案為目標,為企業的數字化轉型提供更多助力。