『壹』 為什麼有的URL長,有的短
一、前言
前幾天整理面試題的時候,有一道試題是《如何將一個很長的URL轉換為一個短的URL,並實現他們之間的相互轉換?》,現在想起來這是一個絕對不簡單的問題,需要考慮很多方面,今天和大家一起學習研究一下!
短網址:顧名思義,就是將長網址縮短到一個很短的網址,用戶訪問這個短網址可以重定向到原本的長網址(也就是還原的過程)。這樣可以達到易於記憶、轉換的目的,常用於有字數限制的微博、二維碼等等場景。
關於短URL的使用場景,舉個簡單的例子來說明一下,看一下業務中使用短URL的重要性!
二、短地址使用場景
1、新浪微博
我們在新浪微博上發布網址的時候,微博會自動判別網址,並將其轉換,例如:https://t.cn/RuPKzRW。為什麼要這樣做的?
這是因為微博限制字數為140字一條,那麼如果我們需要發一些鏈接上去,但是這個鏈接非常的長,以至於將近要佔用跡簡我們內容的一半篇幅,這肯定是不能被允許的或者說用戶體驗很差的,所以短網址應運而生了,短網址這種服務可以說是在微博出現之後才流行開來的!往下看:
(1)首先,我先發一條微博帶有一個URL地址:
(2)然後,看他轉換之後顯示的效果是什麼樣子的哪?
(3)查看對應頁面元素的HTML源碼如下:
(4)可以看出:https://blog.csdn.net/xlgen157387/article/details/79863301 被轉換為:http://t.cn/RuPKzRW,此時你訪問http://t.cn/RuPKzRW是可以定位到https://blog.csdn.net/xlgen157387/article/details/79863301,也就是實現了轉換。
2、短網址二維碼
網址在轉換成短網址時,也可以生成相應的短網址二維碼,短網址二維碼的應用,二維碼核心解決的是跨平台、跨現實的數據傳輸問題;而且二維碼跟應用場景結合之後,所能解決的問題會越來越多。
(1)短網址二維碼相比短鏈接更方便,能少輸入,盡量少輸入,哪怕只是少點一下鍵盤,都是有意義的。
(2)二維碼只是掃描一個簡單的鏈接,打開的卻是一個世界。想像一下,用手機購買售貨機里商品,二維碼掃描是略快於從用手機找到該售貨機並找到該商品的,而且這種操作相對於搜索/查找而言不是更優雅嗎?
(3)所有商超裡面的商品,都是使用條碼來確定商品的唯一性的,去買單的時候都是掃描條碼。試想,如果裡面加入了更多產品的生產日期、廠家、流轉途徑、原材料等等信息,是不是厲害了呢?特別是針對食品信息的可追溯上,二維碼應用場景更廣泛。
三、短地址的好處
除了上述場景中,我們將長地址轉換為短地址的使用場景的優點(壓縮URL長度)之外,短地址還具有很多實際場景中的優點,例如:
(1)節省網址長度,便於社交化傳播,一個是讓URL更短小,傳播更方便,尤其是URL中有中文和特殊字元,短網址解決很長的URL難以記憶不利於傳播的問題;
(2)短網址在我們項目里啟岩可以很好的對開放以及對URL進行管理。有一部分網址可以會涵蓋性、暴力、廣告等信息,這樣我們可以通過用戶的舉報,完全管理這個連接將不出現在我們的應用中,對同樣的URL通過加密演算法之後,得到的地址是一樣的;
(3)悄州御方便後台跟蹤點擊量、地域分布等用戶統計。我們可以對一系列的網址進行流量,點擊等統計,挖掘出大多數用戶的關注點,這樣有利於我們對項目的後續工作更好的作出決策;
(4)規避關鍵詞、域名屏蔽手段、隱藏真實地址,適合做付費推廣鏈接;
(5)當你看到一個淘寶的寶貝連接後面是200個「e7x8bv7c8bisdj」這樣的字元的時候,你還會覺得舒服嗎。更何況微博字數只有140字,微博或簡訊里,字數不夠,你用條短網址就能幫你騰出很多空間來;
四、短網址服務提供平台
目前,國內網又很多提供短地址服務的平台,例如:
新浪:http://sina.lt/
網路:http://dwz.cn/
0x3:http://0x3.me/
MRW:http://mrw.so/
等等還有很多,這個可以搜索一下就會有很多!但是一個注意的是,如果使用某一個平台的短地址服務,一定要保證長期可靠的服務,不然一段時間失效了,我們以前已經轉換的URL就完了!
這里以網路例,將我們上述博客的地址轉換為短地址如下所示:
當然,對於我們的業務來說,如果自己可以提供自己的短URL服務那才是更好的,不需要受制於人!(中國晶元需要崛起!!!)
五、關於如何生成短地址URL的討論
關於短地址URL如何生成方式的,網上有很多方式,有基於映射的,有基於Hash的,有基於簽名的,但是總的來說並不能滿足絕大部分場景的使用,或者說是一種錯誤的設計方式。這里不再重復造輪子!以下是知乎用戶iammutex關於該問題的探討,截圖過來和大家一起學習一下:
作者:iammutex
鏈接:https://www.hu.com/question/29270034/answer/46446911
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
六、生成短地址URL需要注意的
看到上述知乎用戶iammutex關於如何正確生成短地址URL的探討,我們知道了,可以通過發號器的方式正確的生成短地址,生成演算法設計要點如下:
(1)利用放號器,初始值為0,對於每一個短鏈接生成請求,都遞增放號器的值,再將此值轉換為62進制(a-zA-Z0-9),比如第一次請求時放號器的值為0,對應62進制為a,第二次請求時放號器的值為1,對應62進制為b,第10001次請求時放號器的值為10000,對應62進制為sBc。
(2)將短鏈接伺服器域名與放號器的62進制值進行字元串連接,即為短鏈接的URL,比如:http://t.cn/sBc。
(3)重定向過程:生成短鏈接之後,需要存儲短鏈接到長鏈接的映射關系,即sBc -> URL,瀏覽器訪問短鏈接伺服器時,根據URL Path取到原始的鏈接,然後進行302重定向。映射關系可使用K-V存儲,比如Redis或Memcache。
七、生成短地址之後如何跳轉哪?
對於該部分的討論,我們可以認為他是整個交互的流程,具體的流程細節如下:
(1)用戶訪問短鏈接:http://t.cn/RuPKzRW;
(2)短鏈接伺服器http://t.cn收到請求,根據URL路徑RuPKzRW獲取到原始的長鏈接(KV緩存資料庫中去查找):https://blog.csdn.net/xlgen157387/article/details/79863301;
(3)伺服器返回302狀態碼,將響應頭中的Location設置為:https://blog.csdn.net/xlgen157387/article/details/79863301;
(4)瀏覽器重新向https://blog.csdn.net/xlgen157387/article/details/79863301發送請求;
(5)返回響應;
八、短地址發號器優化方案
1、演算法優化
採用以上演算法,如果不加判斷,那麼即使對於同一個原始URL,每次生成的短鏈接也是不同的,這樣就會浪費存儲空間(因為需要存儲多個短鏈接到同一個URL的映射),如果能將相同的URL映射成同一個短鏈接,這樣就可以節省存儲空間了。主要的思路有如下兩個:
方案1:查表
每次生成短鏈接時,先在映射表中查找是否已有原始URL的映射關系,如果有,則直接返回結果。很明顯,這種方式效率很低。
方案2:使用LRU本地緩存,空間換時間
使用固定大小的LRU緩存,存儲最近N次的映射結果,這樣,如果某一個鏈接生成的非常頻繁,則可以在LRU緩存中找到結果直接返回,這是存儲空間和性能方面的折中。
2、可伸縮和高可用
如果將短鏈接生成服務單機部署,缺點一是性能不足,不足以承受海量的並發訪問,二是成為系統單點,如果這台機器宕機則整套服務不可 用,為了解決這個問題,可以將系統集群化,進行「分片」。
在以上描述的系統架構中,如果發號器用Redis實現,則Redis是系統的瓶頸與單點,因此,利用資料庫分片的設計思想,可部署多個發號器實例,每個實例負責特定號段的發號,比如部署10台Redis,每台分別負責號段尾號為0-9的發號,注意此時發號器的步長則應該設置為10(實例個數)。
另外,也可將長鏈接與短鏈接映射關系的存儲進行分片,由於沒有一個中心化的存儲位置,因此需要開發額外的服務,用於查找短鏈接對應的原始鏈接的存儲節點,這樣才能去正確的節點上找到映射關系。
九、如何用代碼實現短地址
1、使用隨機序列生成短地址
說到這里終於說到重點了,很多小夥伴已經按捺不住了,不好意思讓大家失望了,這只是一片簡單的文章,並不能把這么繁雜的一個系統演示清楚!秉著不要重復造輪子的原則,這里給出一個為數不多還算可以的實現短地址的開源項目:urlshorter
注意:urlshorter本身還是基於隨機的方式生成短地址的,並不算是一個短地址發號器,因此會有性能問題和沖突的出現,和知乎用戶iammutex 描述的實現方式還是有區別的!而關於短地址發號器的方式目前還沒有找到更好的開源項目可供參考!
項目地址:https://gitee.com/tinyframework/urlshorter
2、使用SnowFlake發號器生成短地址
實現參考: https://github.com/beyondfengyu/SnowFlake http://www.wolfbe.com/detail/201611/381.html
Twitter的雪花演算法SnowFlake,使用Java語言實現。
SnowFlake演算法用來生成64位的ID,剛好可以用long整型存儲,能夠用於分布式系統中生產唯一的ID, 並且生成的ID有大致的順序。 在這次實現中,生成的64位ID可以分成5個部分:
0 - 41位時間戳 - 5位數據中心標識 - 5位機器標識 - 12位序列號
5位數據中心標識、5位機器標識這樣的分配僅僅是當前實現中分配的,如果業務有其實的需要,可以按其它的分配比例分配,如10位機器標識,不需要數據中心標識。
Java代碼實現如下:
/**
* 進制轉換工具,最大支持十進制和62進制的轉換
* 1、將十進制的數字轉換為指定進制的字元串;
* 2、將其它進制的數字(字元串形式)轉換為十進制的數字
* @author xuliugen
* @date 2018/04/23
*/
public class NumericConvertUtils {
/**
* 在進製表示中的字元集合,0-Z分別用於表示最大為62進制的符號表示
*/
private static final char[] digits = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M',
'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'};
/**
* 將十進制的數字轉換為指定進制的字元串
* @param number 十進制的數字
* @param seed 指定的進制
* @return 指定進制的字元串
*/
public static String toOtherNumberSystem(long number, int seed) {
if (number < 0) {
number = ((long) 2 * 0x7fffffff) + number + 2;
}
char[] buf = new char[32];
int charPos = 32;
while ((number / seed) > 0) {
buf[--charPos] = digits[(int) (number % seed)];
number /= seed;
}
buf[--charPos] = digits[(int) (number % seed)];
return new String(buf, charPos, (32 - charPos));
}
/**
* 將其它進制的數字(字元串形式)轉換為十進制的數字
* @param number 其它進制的數字(字元串形式)
* @param seed 指定的進制,也就是參數str的原始進制
* @return 十進制的數字
*/
public static long toDecimalNumber(String number, int seed) {
char[] charBuf = number.toCharArray();
if (seed == 10) {
return Long.parseLong(number);
}
long result = 0, base = 1;
for (int i = charBuf.length - 1; i >= 0; i--) {
int index = 0;
for (int j = 0, length = digits.length; j < length; j++) {
//找到對應字元的下標,對應的下標才是具體的數值
if (digits[j] == charBuf[i]) {
index = j;
}
}
result += index * base;
base *= seed;
}
return result;
}
}
/**
* Twitter的SnowFlake演算法,使用SnowFlake演算法生成一個整數,然後轉化為62進制變成一個短地址URL
* @author beyond
* @author xuliugen
* @date 2018/04/23
*/
public class SnowFlakeShortUrl {
/**
* 起始的時間戳
*/
private final static long START_TIMESTAMP = 1480166465631L;
/**
* 每一部分佔用的位數
*/
private final static long SEQUENCE_BIT = 12; //序列號佔用的位數
private final static long MACHINE_BIT = 5; //機器標識佔用的位數
private final static long DATA_CENTER_BIT = 5; //數據中心佔用的位數
/**
* 每一部分的最大值
*/
private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);
private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);
private final static long MAX_DATA_CENTER_NUM = -1L ^ (-1L << DATA_CENTER_BIT);
/**
* 每一部分向左的位移
*/
private final static long MACHINE_LEFT = SEQUENCE_BIT;
private final static long DATA_CENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
private final static long TIMESTAMP_LEFT = DATA_CENTER_LEFT + DATA_CENTER_BIT;
private long dataCenterId; //數據中心
private long machineId; //機器標識
private long sequence = 0L; //序列號
private long lastTimeStamp = -1L; //上一次時間戳
/**
* 根據指定的數據中心ID和機器標志ID生成指定的序列號
* @param dataCenterId 數據中心ID
* @param machineId 機器標志ID
*/
public SnowFlake(long dataCenterId, long machineId) {
if (dataCenterId > MAX_DATA_CENTER_NUM || dataCenterId < 0) {
throw new IllegalArgumentException("DtaCenterId can't be greater than MAX_DATA_CENTER_NUM or less than 0!");
}
if (machineId > MAX_MACHINE_NUM || machineId < 0) {
throw new IllegalArgumentException("MachineId can't be greater than MAX_MACHINE_NUM or less than 0!");
}
this.dataCenterId = dataCenterId;
this.machineId = machineId;
}
/**
* 產生下一個ID
* @return
*/
public synchronized long nextId() {
long currTimeStamp = getNewTimeStamp();
if (currTimeStamp < lastTimeStamp) {
throw new RuntimeException("Clock moved backwards. Refusing to generate id");
}
if (currTimeStamp == lastTimeStamp) {
//相同毫秒內,序列號自增
sequence = (sequence + 1) & MAX_SEQUENCE;
//同一毫秒的序列數已經達到最大
if (sequence == 0L) {
currTimeStamp = getNextMill();
}
} else {
//不同毫秒內,序列號置為0
sequence = 0L;
}
lastTimeStamp = currTimeStamp;
return (currTimeStamp - START_TIMESTAMP) << TIMESTAMP_LEFT //時間戳部分
| dataCenterId << DATA_CENTER_LEFT //數據中心部分
| machineId << MACHINE_LEFT //機器標識部分
| sequence; //序列號部分
}
private long getNextMill() {
long mill = getNewTimeStamp();
while (mill <= lastTimeStamp) {
mill = getNewTimeStamp();
}
return mill;
}
private long getNewTimeStamp() {
return System.currentTimeMillis();
}
public static void main(String[] args) {
SnowFlake snowFlake = new SnowFlake(2, 3);
for (int i = 0; i < (1 << 4); i++) {
//10進制
Long id = snowFlake.nextId();
//62進制
String convertedNumStr = NumericConvertUtils.toOtherNumberSystem(id, 62);
//10進制轉化為62進制
System.out.println("10進制:" + id + " 62進制:" + convertedNumStr);
//TODO 執行具體的存儲操作,可以存放在Redis等中
//62進制轉化為10進制
System.out.println("62進制:" + convertedNumStr + " 10進制:" + NumericConvertUtils.toDecimalNumber(convertedNumStr, 62));
System.out.println();
}
}
}
//生成結果:
10進制:185784275776581632 62進制:dITqmhW2
『貳』 大數據最常用的演算法有哪些
奧地利符號計算研究所(Research Institute for Symbolic Computation,簡稱RISC)的Christoph Koutschan博士在自己的頁面上發布了一篇文章,提到他做了一個調查,參與者大多數是計算機科學家,他請這些科學家投票選出最重要的演算法,以下是這次調查的結果,按照英文名稱字母順序排序。
大數據等最核心的關鍵技術:32個演算法
1、A* 搜索演算法——圖形搜索演算法,從給定起點到給定終點計算出路徑。其中使用了一種啟發式的估算,為每個節點估算通過該節點的最佳路徑,並以之為各個地點排定次序。演算法以得到的次序訪問這些節點。因此,A*搜索演算法是最佳優先搜索的範例。
2、集束搜索(又名定向搜索,Beam Search)——最佳優先搜索演算法的優化。使用啟發式函數評估它檢查的每個節點的能力。不過,集束搜索只能在每個深度中發現最前面的m個最符合條件的節點,m是固定數字——集束的寬度。
3、二分查找(Binary Search)——在線性數組中找特定值的演算法,每個步驟去掉一半不符合要求的數據。
4、分支界定演算法(Branch and Bound)——在多種最優化問題中尋找特定最優化解決方案的演算法,特別是針對離散、組合的最優化。
5、Buchberger演算法——一種數學演算法,可將其視為針對單變數最大公約數求解的歐幾里得演算法和線性系統中高斯消元法的泛化。
6、數據壓縮——採取特定編碼方案,使用更少的位元組數(或是其他信息承載單元)對信息編碼的過程,又叫來源編碼。
7、Diffie-Hellman密鑰交換演算法——一種加密協議,允許雙方在事先不了解對方的情況下,在不安全的通信信道中,共同建立共享密鑰。該密鑰以後可與一個對稱密碼一起,加密後續通訊。
8、Dijkstra演算法——針對沒有負值權重邊的有向圖,計算其中的單一起點最短演算法。
9、離散微分演算法(Discrete differentiation)。
10、動態規劃演算法(Dynamic Programming)——展示互相覆蓋的子問題和最優子架構演算法
11、歐幾里得演算法(Euclidean algorithm)——計算兩個整數的最大公約數。最古老的演算法之一,出現在公元前300前歐幾里得的《幾何原本》。
12、期望-最大演算法(Expectation-maximization algorithm,又名EM-Training)——在統計計算中,期望-最大演算法在概率模型中尋找可能性最大的參數估算值,其中模型依賴於未發現的潛在變數。EM在兩個步驟中交替計算,第一步是計算期望,利用對隱藏變數的現有估計值,計算其最大可能估計值;第二步是最大化,最大化在第一步上求得的最大可能值來計算參數的值。
13、快速傅里葉變換(Fast Fourier transform,FFT)——計算離散的傅里葉變換(DFT)及其反轉。該演算法應用范圍很廣,從數字信號處理到解決偏微分方程,到快速計算大整數乘積。
14、梯度下降(Gradient descent)——一種數學上的最優化演算法。
15、哈希演算法(Hashing)。
16、堆排序(Heaps)。
17、Karatsuba乘法——需要完成上千位整數的乘法的系統中使用,比如計算機代數系統和大數程序庫,如果使用長乘法,速度太慢。該演算法發現於1962年。
18、LLL演算法(Lenstra-Lenstra-Lovasz lattice rection)——以格規約(lattice)基數為輸入,輸出短正交向量基數。LLL演算法在以下公共密鑰加密方法中有大量使用:背包加密系統(knapsack)、有特定設置的RSA加密等等。
19、最大流量演算法(Maximum flow)——該演算法試圖從一個流量網路中找到最大的流。它優勢被定義為找到這樣一個流的值。最大流問題可以看作更復雜的網路流問題的特定情況。最大流與網路中的界面有關,這就是最大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一個流網路中的最大流。
20、合並排序(Merge Sort)。
21、牛頓法(Newton』s method)——求非線性方程(組)零點的一種重要的迭代法。
22、Q-learning學習演算法——這是一種通過學習動作值函數(action-value function)完成的強化學習演算法,函數採取在給定狀態的給定動作,並計算出期望的效用價值,在此後遵循固定的策略。Q-leanring的優勢是,在不需要環境模型的情況下,可以對比可採納行動的期望效用。
23、兩次篩法(Quadratic Sieve)——現代整數因子分解演算法,在實踐中,是目前已知第二快的此類演算法(僅次於數域篩法Number Field Sieve)。對於110位以下的十位整數,它仍是最快的,而且都認為它比數域篩法更簡單。
24、RANSAC——是「RANdom SAmple Consensus」的縮寫。該演算法根據一系列觀察得到的數據,數據中包含異常值,估算一個數學模型的參數值。其基本假設是:數據包含非異化值,也就是能夠通過某些模型參數解釋的值,異化值就是那些不符合模型的數據點。
25、RSA——公鑰加密演算法。首個適用於以簽名作為加密的演算法。RSA在電商行業中仍大規模使用,大家也相信它有足夠安全長度的公鑰。
26、Sch?nhage-Strassen演算法——在數學中,Sch?nhage-Strassen演算法是用來完成大整數的乘法的快速漸近演算法。其演算法復雜度為:O(N log(N) log(log(N))),該演算法使用了傅里葉變換。
27、單純型演算法(Simplex Algorithm)——在數學的優化理論中,單純型演算法是常用的技術,用來找到線性規劃問題的數值解。線性規劃問題包括在一組實變數上的一系列線性不等式組,以及一個等待最大化(或最小化)的固定線性函數。
28、奇異值分解(Singular value decomposition,簡稱SVD)——在線性代數中,SVD是重要的實數或復數矩陣的分解方法,在信號處理和統計中有多種應用,比如計算矩陣的偽逆矩陣(以求解最小二乘法問題)、解決超定線性系統(overdetermined linear systems)、矩陣逼近、數值天氣預報等等。
29、求解線性方程組(Solving a system of linear equations)——線性方程組是數學中最古老的問題,它們有很多應用,比如在數字信號處理、線性規劃中的估算和預測、數值分析中的非線性問題逼近等等。求解線性方程組,可以使用高斯—約當消去法(Gauss-Jordan elimination),或是柯列斯基分解( Cholesky decomposition)。
30、Strukturtensor演算法——應用於模式識別領域,為所有像素找出一種計算方法,看看該像素是否處於同質區域( homogenous region),看看它是否屬於邊緣,還是是一個頂點。
31、合並查找演算法(Union-find)——給定一組元素,該演算法常常用來把這些元素分為多個分離的、彼此不重合的組。不相交集(disjoint-set)的數據結構可以跟蹤這樣的切分方法。合並查找演算法可以在此種數據結構上完成兩個有用的操作:
查找:判斷某特定元素屬於哪個組。
合並:聯合或合並兩個組為一個組。
32、維特比演算法(Viterbi algorithm)——尋找隱藏狀態最有可能序列的動態規劃演算法,這種序列被稱為維特比路徑,其結果是一系列可以觀察到的事件,特別是在隱藏的Markov模型中。
以上就是Christoph博士對於最重要的演算法的調查結果。你們熟悉哪些演算法?又有哪些演算法是你們經常使用的?
『叄』 代碼如何開始學習
建議你先學習C語言,C語言是最基礎的東西。
1、學代碼要有信心、恆心。
2、學代碼要由淺入深,從簡單到復雜。
代碼就是程序員用開發工具所支持的語言寫出來的源文件,是一組由字元、符號或信號碼元以離散形式表示信息的明確的規則體系。代碼設計的原則包括唯一確定性、標准化和通用性、可擴充性與穩定性、便於識別與記憶、力求短小與格式統一以及容易修改等。源代碼是代碼的分支,某種意義上來說,源代碼相當於代碼。現代程序語言中,源代碼可以書籍或磁帶形式出現,但最為常用格式是文本文件,這種典型格式的目的是為了編譯出計算機程序。計算機源代碼最終目的是將人類可讀文本翻譯成為計算機可執行的二進制指令,這種過程叫編譯,它由通過編譯器完成。
(參考資料:代碼-網路)