印刷問(wèn)答為您提供印前,印中,印后以及設計的相關(guān)問(wèn)題咨詢(xún)與解答,印刷案例規格及印刷報價(jià),讓您實(shí)時(shí)了解在印刷中的各類(lèi)相關(guān)問(wèn)題及印后相關(guān)問(wèn)題,并提供印刷時(shí)的注意事項,為您提供各類(lèi)印前印后的相關(guān)問(wèn)題解決方案
印刷問(wèn)答 2022-09-23 09:57 167
編輯導語(yǔ):標簽加工與落庫是標簽體系完成后重要的步驟,本篇文章作者分享了標簽加工與落庫過(guò)程中需要關(guān)注的注意點(diǎn),講述了不同標簽的加工內容以及標簽的更新與落庫等內容,一起來(lái)學(xué)習一下吧,希望對你有幫助。
在標簽生命周期流程中,標簽體系設計完成后,便進(jìn)入標簽加工與上線(xiàn)運行階段,一般來(lái)說(shuō)數據開(kāi)發(fā)團隊會(huì )主導此過(guò)程,但我們需要關(guān)心以下幾個(gè)問(wèn)題:
標簽如何快速創(chuàng )建和實(shí)現標簽邏輯的在線(xiàn)化管理;
業(yè)務(wù)人員怎么參與到標簽建設流程中;
百級別的標簽如何落表。
一、加工方式:傳統 VS 在線(xiàn)
當企業(yè)無(wú)標簽系統時(shí),一般由數據開(kāi)發(fā)在離線(xiàn)數倉中完成標簽加工和運行,運營(yíng)或市場(chǎng)同學(xué)需要某個(gè)標簽需要通過(guò)產(chǎn)品經(jīng)理向數據開(kāi)發(fā)提需求,這個(gè)過(guò)程存在很多問(wèn)題:
標簽資產(chǎn)不可見(jiàn):標簽是存在于表里的字段,業(yè)務(wù)人員不清楚現在有多少標簽;標簽的加工邏輯與業(yè)務(wù)邏輯是否一致只能查看SQL代碼;新上線(xiàn)的標簽只有部分人知道,標簽價(jià)值散發(fā)慢等。
標簽資產(chǎn)不可管:加工好的標簽,有多少在真正被使用,有多少沒(méi)人用,完全黑盒,不用的標簽每天繼續運行浪費計算與存儲資源。
標簽加工效率低:當業(yè)務(wù)人員需要某個(gè)簡(jiǎn)單標簽時(shí),也需要提交需求給數據開(kāi)發(fā),加工到上線(xiàn)基本需要2-*天流程。
基于以上這些問(wèn)題,標簽在線(xiàn)化創(chuàng )建與管理顯得尤為重要,在線(xiàn)化主要包含以下內容:
標簽在線(xiàn)化加工;
標簽在線(xiàn)化管理;
標簽在線(xiàn)化更新。
其讓標簽加工過(guò)程、有哪些標簽變得透明,業(yè)務(wù)人員也可以參與進(jìn)標簽建設的流程中。
二、各類(lèi)型標簽加工
標簽類(lèi)型的區分在此處便不再贅述了。在袋鼠云智能標簽產(chǎn)品中,我們按照標簽加工邏輯,將標簽分為下文類(lèi)型,各類(lèi)型標簽的加工層次如下圖:
接下來(lái),我們看下具體各類(lèi)型標簽的加工吧。
1. 原子標簽
該類(lèi)標簽由數據開(kāi)發(fā)在數倉加工中完成,一般基于數倉DWD、DWS層的明細表與匯總表加工而來(lái),處理邏輯較為復雜,同時(shí)維表中的一些字段也可以作為原子標簽。這類(lèi)標簽一般包含哪些內容呢?
比如建立用戶(hù)的標簽體系,會(huì )包含:
用戶(hù)維表中的用戶(hù)基礎屬性:性別、年齡、置業(yè)、會(huì )員等級、手機號、身份證號等信息,一般用戶(hù)系統會(huì )有該類(lèi)信息。
基于交易表加工的交易指標:最近*0天購買(mǎi)次數、最近*0天交易金額、最近*天購買(mǎi)次數、最近*天交易金額。這部分標簽也建議放在數倉中實(shí)現,有以下幾點(diǎn)原因。
因為其本身也是一個(gè)指標,除后續作為標簽進(jìn)行畫(huà)像分析外,也常用于在數據門(mén)戶(hù)、BI報表中分析,可作為對外服務(wù)的指標放在A(yíng)DS層中,并且市場(chǎng)上也會(huì )有專(zhuān)門(mén)指標管理的產(chǎn)品,來(lái)實(shí)現該指標的加工。
這類(lèi)標簽若屬于同一個(gè)統計維度(如都計算最近*天),數據開(kāi)發(fā)可以在一個(gè)SQL片段中計算多個(gè)標簽,節約計算成本。
若業(yè)務(wù)人員直接基于DWS層的輕度匯總表(每天匯總的交易次數、交易金額)、或DWD層的明細表(每條交易記錄一行數據)來(lái)加工最近*0天購買(mǎi)次數這個(gè)標簽,需要針對對應的字段進(jìn)行求和,稍微涉及到一點(diǎn)SQL理解,有一點(diǎn)難度。
故該類(lèi)使用場(chǎng)景多、對于業(yè)務(wù)人員有計算難度,可在數倉中合并加工降低成本的標簽,可在數倉中作為原子標簽加工。
基于行為表加工的行為指標:可經(jīng)過(guò)數倉加工成如下表格式,加工行為類(lèi)的標簽,便于后續業(yè)務(wù)人員去衍生。
原子標簽在數倉加工好后,可導入到標簽系統中,進(jìn)行在線(xiàn)化管理。
2. 規則標簽
該類(lèi)標簽配置可由數據開(kāi)發(fā)或數據分析師來(lái)完成,可基于單張表或關(guān)聯(lián)表中的字段進(jìn)行在線(xiàn)化加工,可設置統計周期、數據過(guò)濾條件,其內置常用的聚合函數(求和、均值、計數、去重技術(shù)、最大值、最小值等)、操作符(大于、小于、區間、有值、無(wú)值、包含等),通過(guò)規則化的在線(xiàn)配置完成標簽加工。配置界面如以下:
根據上面的描述,該類(lèi)標簽可以將指標的類(lèi)型的標簽在數倉或指標平臺加工好,導入至標簽平臺作為原子標簽,再基于這些原子標簽取操作符更好。但在實(shí)際場(chǎng)景中,基于不同考慮,有的客戶(hù)也會(huì )在標簽平臺直接加工此類(lèi)型標簽,如以下場(chǎng)景:
數倉無(wú)對應的基礎標簽,但業(yè)務(wù)人員很著(zhù)急需要該標簽某標簽,走正常的排期、數倉加工、測試,上線(xiàn)到使用基本2天以上了,基于這種情況可以通過(guò)該類(lèi)標簽在標簽系統直接配置,*分鐘即可配置、更新完成,業(yè)務(wù)人員便可以使用了;
客戶(hù)方想把標簽的加工邏輯在線(xiàn)化呈現、方便查找與追溯,通過(guò)可視化的方式在線(xiàn)配置。
*. SQL標簽
SQL標簽主要數據開(kāi)發(fā)、數據分析師使用,主要解決通過(guò)規則標簽無(wú)法表達的邏輯,如用到排序函數、字符轉化函數、子查詢(xún)等內容??梢酝ㄟ^(guò)標準SQL語(yǔ)法靈活完成標簽加工。
4. 模型標簽
模型標簽可由業(yè)務(wù)人員創(chuàng )建。系統集成常見(jiàn)的用戶(hù)分層RFM模型,用戶(hù)營(yíng)銷(xiāo)AIPL模型、用戶(hù)生命周期模型,用戶(hù)輸入對應的指標值區間,便可定義對應的標簽值。
以RFM模型舉例,基于該模型生成“客戶(hù)價(jià)值”標簽??苫谧罱淮钨徺I(mǎi)時(shí)間、最近一年消費金額、最近一年消費頻率等幾個(gè)原子標簽,進(jìn)行不同區間的取值,給用戶(hù)打上“重要價(jià)值客戶(hù)”、“重要發(fā)展客戶(hù)”、“重要發(fā)展客戶(hù)”、“重要挽留客戶(hù)”等。
*. 組合標簽
模型標簽可由業(yè)務(wù)人員創(chuàng )建?;谝焉傻脑?、規則、SQL、模型標簽等,進(jìn)行規則衍生,生成組合標簽。如組合標簽“高收入低購買(mǎi)”用戶(hù),可通過(guò)“收入水平”衍生標簽,與“最近*年消費金額區間”衍生標簽組合加工,如下圖:
6. 自定義標簽
自定義標簽可由業(yè)務(wù)人員創(chuàng )建。手動(dòng)為某些用戶(hù)打上標簽,該類(lèi)標簽手動(dòng)導入,常見(jiàn)場(chǎng)景如下:
客服人員和用戶(hù)ID為1001的用戶(hù)溝通后,給該用戶(hù)打上”性格:溫和、有耐心”標簽。
如監管機構提供的一些信貸黑名單用戶(hù),該類(lèi)標簽可直接導入進(jìn)標簽系統,為用戶(hù)打上新的標簽。
*. 算法標簽
算法標簽由算法開(kāi)發(fā)同學(xué)創(chuàng )建,該類(lèi)標簽可在算法平臺完成,將算好的結果存儲至Hive表中,標簽系統可獲取算法標簽的元數據,拿到算法標簽的中文名、英文名,注冊至標簽系統中,在標簽系統中完成算法標簽的標簽信息查看、標簽查詢(xún)等。
如利用機器學(xué)習模型加工預測類(lèi)的算法標簽,如根據用戶(hù)的特征,預測哪些用戶(hù)是否即將流失,流失的概率等,從而在用戶(hù)流失之前做一些措施來(lái)挽留。
8. 實(shí)時(shí)標簽
實(shí)時(shí)標簽由數據開(kāi)發(fā)同學(xué)創(chuàng )建,該類(lèi)標簽可在流計算平臺完成,實(shí)時(shí)行為數據打入到kafka中,用FlinkSQL消費,再輸出到Kafka、或數據表中,下游直接訂閱或查詢(xún)。
三、標簽更新與落庫
標簽配置完成后,便需要進(jìn)行標簽更新與落庫,即將標簽打到對象(如用戶(hù))的身上,這樣業(yè)務(wù)同學(xué)就可以根據標簽圈選目標群組啦。在此處我們需要說(shuō)明以下幾個(gè)問(wèn)題:
1. 技術(shù)選型
首先說(shuō)明一下標簽加工的技術(shù)選型,在袋鼠云智能標簽產(chǎn)品中我們用的 Trino(Presto)高性能分析引擎讀寫(xiě) Hive 表的方式,標簽表存儲在Hive中。主要有以下幾點(diǎn)原因:
隨著(zhù)國家對數字化轉型的支持,從金融、政府到小企業(yè)都在建設數倉,進(jìn)行數字化應用,在這個(gè)過(guò)程中,大多采用的是分布式的Hadoop系統作為計算存儲引擎(不論是開(kāi)源Hadoop,還是發(fā)行版的CDH、TDH、FusionInsight等),Hive表便是最常用的存儲形式。標簽是基于數倉模型搭建出來(lái)的,與數倉用同一種存儲可以節省存儲資源以及不用兩種存儲之間進(jìn)行數據交換。
而用Trino(Presto)的原因是其首先是一個(gè)分析型引擎,讀寫(xiě)速度均可;其次是其SQL語(yǔ)法完備、函數豐富、靈活,可以處理絕大多是業(yè)務(wù)場(chǎng)景的需求;并且支持跨庫同時(shí)讀取,如Trino可以同時(shí)取Hive與MySQL的數據進(jìn)行數據處理。
但沒(méi)有一種完美的技術(shù)選型,只能貼合企業(yè)自己的業(yè)務(wù),選取最合適的技術(shù)。在這里我們就不分析各種標簽的技術(shù)選型了。
2. 落表方式
上面我們介紹了有各種類(lèi)型的標簽,標簽如何落表呢,大家看下面這個(gè)圖:
在業(yè)務(wù)場(chǎng)景中,存在有的標簽需要每天更新,如最近*0天消費金額區間。而有的標簽周更新、月更新即可,更新頻率不高,如活動(dòng)類(lèi)型偏好。
這樣,便需要支持每個(gè)標簽有不同的更新頻率,但hive2.x版本不支持單列更新,為了解決該問(wèn)題,我們將每個(gè)標簽先在臨時(shí)表存一下(就包含2列,1列用戶(hù)ID,1列標簽)該臨時(shí)表即建即用即刪,每個(gè)標簽只有一個(gè)臨時(shí)表(非分區表),每個(gè)標簽占用的占用不大,又能解決標簽更新周期不一致的問(wèn)題。
但如果后續的標簽圈群、群組畫(huà)像分析,我們基于這些單獨表的去做吉印通查詢(xún),那效率會(huì )很低。
因為每個(gè)用營(yíng)銷(xiāo)活動(dòng),我們需要*個(gè)標簽圈選出來(lái)一批人群,并查詢(xún)出這群人的性別、年齡、月消費、會(huì )員等級、是否活躍用戶(hù)等信息,加起來(lái)用到了10個(gè)標簽左右,會(huì )涉及到10個(gè)表的join操作,客戶(hù)集群資源不豐裕的情況,查詢(xún)速度慢。
所有我們便將多個(gè)臨時(shí)表通過(guò)聚合任務(wù),將所有的臨時(shí)表join到一張標簽大寬表中,進(jìn)行固化,這張表是一個(gè)分區表,可以每天存儲一份全量用戶(hù)標簽信息,當然可以自行設置該表的更新周期與保存多少個(gè)分區。
這樣,業(yè)務(wù)人員進(jìn)行圈群和分析就可以一張表查詢(xún)數據,查詢(xún)效率大大提升。通過(guò)標簽跑批時(shí)間的消耗換取業(yè)務(wù)的查詢(xún)速度。
但會(huì )遇到有些企業(yè)標簽數量在*00-1000個(gè)之間,用戶(hù)量在千萬(wàn)、億級別,這樣的話(huà),用一張表去存所有的標簽會(huì )遇到標簽大寬表跑批時(shí)間過(guò)長(cháng)或跑不出來(lái)的情況,所以便需要分表,可以根據標簽數量分表。
綜上,以上加工存儲方式,有缺點(diǎn)的地方便是大寬表加工時(shí),需要join多個(gè)臨時(shí)表,消耗內存,跑批時(shí)間長(cháng)。
為解決該問(wèn)題,袋鼠云智能標簽產(chǎn)品在引入數據湖Iceberg進(jìn)行標簽表的存儲,其可以實(shí)現單列更新,每個(gè)標簽可以單獨更新,這樣,便不需要那些臨時(shí)表了,解決加工效率的問(wèn)題。
該篇講了標簽的加工與落庫,歡迎大家留言討論,也可以分享下自己見(jiàn)到一些好的標簽加工方式,我們共同進(jìn)步。
對了,業(yè)務(wù)人員怎么參與到標簽建設流程中,該問(wèn)題在【標簽畫(huà)像系列】標簽畫(huà)像建設方法論中有介紹過(guò),可以去那里查看。
本文由 @木研 原創(chuàng )發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
AdobePhotoshopCC是一款專(zhuān)業(yè)強大的圖像處理軟件,為用戶(hù)提供了相機防抖動(dòng)、CameraRAW功能改進(jìn)、圖像提升采樣、屬性面板改進(jìn)、Behance集成等超多實(shí)用功能,完全能滿(mǎn)足用戶(hù)需求。Photoshop可分為圖畫(huà)編輯、圖畫(huà)組...
2023-03-19 98
1、UV打印是一種通過(guò)紫外光干燥固化油墨的一種印刷工藝,需要將含有光敏劑的油墨與UV固化燈相配合和傳統噴繪的區別在于,UV打印設備上其擁有UV油墨跟UV燈,利用UV油墨里面的成分在紫外線(xiàn)光的特定波長(cháng)照耀下發(fā)生交聯(lián)聚合反應。2、1線(xiàn)下門(mén)店通過(guò)...
2023-02-21 108
外包拆印刷的次要用處淡粉打印次要用處非常普遍,以部屬于不干膠標簽的簡(jiǎn)要介紹1、行業(yè)家用電器市場(chǎng):數碼科技推廣了小我用戶(hù)對售賣(mài)的要求在如許一個(gè)市場(chǎng)上,構造復雜、價(jià)格低、性?xún)r(jià)比高小市場(chǎng)銷(xiāo)售早已遠遠超越了客戶(hù)貿易辦事市場(chǎng),釀成了顧客營(yíng)銷(xiāo)推廣市...
2022-12-23 89
湖南省各地近期正在開(kāi)展“兩證”換(核)發(fā)工做,對持有《湖南省行政執法證》且契合前提的執法人員完成換發(fā)全國同一款式行政執法證,由各單元組織對政治理論、執法營(yíng)業(yè)才能等相關(guān)方面停止查核并對通過(guò)查核人員發(fā)放新版執法證。此中,測驗和換證需要提交證件照...
2022-12-23 259
可移不干膠貼紙就是能夠多次重復使用的,而一般不干膠標簽就是不要多次重復使用的,普通不干膠標簽標簽解開(kāi)后都會(huì )留出膠漬,或是去除的時(shí)候會(huì )被撕開(kāi)??蛇w移不干膠標簽別名節能型標簽、N次貼標簽、可移性標簽、可移紙貼,他在撕下時(shí)不會(huì )造成印痕,選用可移膠...
2022-10-04 177
易碎紙防偽標簽是最常見(jiàn)的非干膠粘貼劑之一,經(jīng)常觸碰防偽標簽會(huì )出現易碎紙防偽標簽,防偽標簽在日常生活當中廣泛運用使我們日常生活形成了很多便捷,使我們產(chǎn)品改善,確保讓人們在日常日常生活購買(mǎi)東西可以防止假冒產(chǎn)品,因此你了解防偽標簽嗎?一起來(lái)看看易...
2022-09-23 261
掃一掃微信報價(jià)