任何一個隨機大數(shù)據(jù),都有兩種可能,一種是可以用極少數(shù)的算式就能得出,比如1024的1024次方;另一種是可以用極少數(shù)的算式就能近似得出,也就是用一個算式,能夠得出重合率達到百分之八十的數(shù)值,只需要一些不重合區(qū)域的表達式就可以還原。
按照進制,分為十進制大數(shù)據(jù),十六進制大數(shù)據(jù),二進制大數(shù)據(jù)。
數(shù)據(jù)的進制可以轉(zhuǎn)換,而當(dāng)數(shù)據(jù)足夠大時,進制的轉(zhuǎn)換會導(dǎo)致運算資源占用,也就需要有對應(yīng)的進制的數(shù)據(jù)壓縮方法。
二進制無理數(shù)專用處理器:生成二進制的圓周率,生成二進制的黃金分割率,生成任意正整數(shù)的以自身為開方數(shù)的數(shù)值,階除——也就是1除以2除以3除以4除以5一直到特定中止位置的取小數(shù)部分。
隨機重合排列關(guān)系專用處理器:在二進制中,隨機找出一個無理數(shù)(數(shù)據(jù)卡尺)和一個有理數(shù)數(shù)據(jù)(需要被轉(zhuǎn)化為最短表達式的原始數(shù)據(jù))的數(shù)據(jù)重合部分,把這些重合表達為最短表達式,當(dāng)然,一個原始數(shù)據(jù)不可能只采用一個數(shù)據(jù)卡尺。
發(fā)展下去,大數(shù)據(jù)就需要有專用的數(shù)據(jù)卡尺服務(wù)器,也就是小的數(shù)據(jù)卡尺服務(wù)器,可以常備1000多個數(shù)據(jù)卡尺,而大的數(shù)據(jù)卡尺服務(wù)器,可以常備千萬億級別的數(shù)據(jù)卡尺。
數(shù)據(jù)卡尺越多,越容易生成最短表達式。
數(shù)據(jù)卡尺的用法:
一元數(shù)據(jù)卡尺:把原始數(shù)據(jù)和數(shù)據(jù)卡尺進行比對,找出其中重合部分,把重合部分記錄為數(shù)據(jù)卡尺引用段落表達式。
二元數(shù)據(jù)卡尺:把原始數(shù)據(jù)和兩個數(shù)據(jù)卡尺進行比對,找出其中重合部分,把重合部分記錄為數(shù)據(jù)卡尺引用段落表達式,當(dāng)不重合出現(xiàn)時,就對數(shù)據(jù)卡尺進行偏移運算,準(zhǔn)備從兩個數(shù)據(jù)卡尺的偏移不進位加法或不進位減法中生成能和原始數(shù)據(jù)重合的段落,從而只需要記錄偏移運算(兩個數(shù)據(jù)卡尺的偏移數(shù)據(jù),開始引用段落起點和結(jié)束引用段落終點)和所采用的是不進位加法還是不進位減法。
三元數(shù)據(jù)卡尺:把原始數(shù)據(jù)同長度等分為足夠短的有限位段落,從而讓重合率提高,可以把自身作為數(shù)據(jù)卡尺,也就是先生成1GB的還原數(shù)據(jù),然后以這1GB的數(shù)據(jù)作為數(shù)據(jù)卡尺,以此類推。
快速壓縮方式:常用于緊急數(shù)據(jù)轉(zhuǎn)移。
把大數(shù)據(jù)同長度等分,然后求出其平均數(shù),設(shè)立一個個的分組,比如第一個分組,小于4096而大于512的數(shù),出現(xiàn)過多少次……,然后對一個個數(shù)據(jù)分組進行校驗碼記錄,這種方式優(yōu)點是不需要動用數(shù)據(jù)卡尺,也就不需要連接數(shù)據(jù)卡尺服務(wù)器,保密性相對較好,本身可以采用單機方式運作,可用于極限情況下的數(shù)據(jù)轉(zhuǎn)移,缺點是后期還原難度相對引用數(shù)據(jù)卡尺要高,后期數(shù)據(jù)還原需要占用足夠多的窮舉運算資源。
一般情況下,都是采用快速壓縮方式,作為備份的數(shù)據(jù)糾錯或數(shù)據(jù)驗算區(qū)域,作為一種保險方式,避免壓縮文件被部分篡改或傳輸錯誤導(dǎo)致的數(shù)據(jù)不可用。