使用Clodflare搭建网站镜像

2022-10-18 作者 jemiry

自从上次给小站设置了CDN之后,意外发现Cloudflare相当的强大,就想捉摸着解决科研人员上网的两大痛点。googlegithub了。搭建两个镜像网站,以备不时之需。

Clouldflare是一家主营内容分发网络(Content Delivery Network, CDN),分布式域名解析(Distributed Domain Name Server)的公司。

Clouldflare可以免费注册,免费版的功能就已经很强大了,我用到的主要是内容分发网络服务和worker功能。

内容分发网络服务举例来,我的小站域名是web.jemirynet.xyz,本来应该解析到我的远程服务器IP地址的,这样访客访问我的网站的时候就会直接发送请求到我的服务器。但是我的服务器在国外,有些地方连接可能要绕好大一圈,速度和延迟都无法保证。Clouldflare就扮演着中继者的角色,他在世界各地都有中继服务器。首先我将我的域名设置为Clouldflare的服务器,这样访问我的域名就会先连接Clouldflare的服务器,Clouldflare再帮我转发这些网站内容。如果网页内容主要是静态内容的话也可以直接缓存在Clouldflare的服务器上。这样使的世界各地的连接都相对稳定了,但是由于中间多了一层转发,本来直接连接就很快的链路反而可能会延迟变大。另外使用了内容分发网络服务之后服务器的IP地址不会暴露,其安全性也有一定提高。

worker功能按我的理解就是可以在Clouldflare的服务器上运行一个脚本程序,这个脚本可以监听一个子域名,可以处理一些网络请求。我们今天的目的就是利用这个worker让他将我们的域名变成google/github的镜像站。将我们的所有请求转发给google,在将所有google的请求传回给我们,中间当然还要处理下域名。结果就是我们的域名使用起来和google/github就一模一样!

Cloudflare免费用户一天可以发起十万次请求,自己用的话足够了。

本来还想试试google scholar的,但好像子域名的情况比较特殊,有人说得重新域名解析,目前还没搞懂。google学术倒是我自己也用得少,就今后再说吧~

主要参考了这篇博客

前期准备

首先去cloudflare官网上注册一个免费账号,然后在左边一栏选择Workers->Create a server,然后给自己的镜像网站起个子域名,之后就可以选择Create server部署服务了,选择Quick edit就可以填入脚本了。

配置脚本

最重要的配置文件分成两部分。第一部分是配置文件,以google为例,结果如下

// 你要镜像的网站.
const upstream = 'www.google.com'

// 镜像网站的目录,比如你想镜像某个网站的二级目录则填写二级目录的目录名,镜像 google 用不到,默认即可.
const upstream_path = '/'

// 镜像站是否有手机访问专用网址,没有则填一样的.
const upstream_mobile = 'www.google.com'

// 屏蔽国家和地区.
const blocked_region = ['KP', 'SY', 'PK', 'CU']

// 屏蔽 IP 地址.
const blocked_ip_address = ['0.0.0.0', '127.0.0.1']

// 镜像站是否开启 HTTPS.
const https = true

// 文本替换.
const replace_dict = {
    '$upstream': '$custom_domain',
    '//google.com': ''
}

第二部分是函数实现,都是一样的

addEventListener('fetch', event => {
    event.respondWith(fetchAndApply(event.request));
})

async function fetchAndApply(request) {

    const region = request.headers.get('cf-ipcountry').toUpperCase();
    const ip_address = request.headers.get('cf-connecting-ip');
    const user_agent = request.headers.get('user-agent');

    let response = null;
    let url = new URL(request.url);
    let url_hostname = url.hostname;

    if (https == true) {
        url.protocol = 'https:';
    } else {
        url.protocol = 'http:';
    }

    if (await device_status(user_agent)) {
        var upstream_domain = upstream;
    } else {
        var upstream_domain = upstream_mobile;
    }

    url.host = upstream_domain;
    if (url.pathname == '/') {
        url.pathname = upstream_path;
    } else {
        url.pathname = upstream_path + url.pathname;
    }

    if (blocked_region.includes(region)) {
        response = new Response('Access denied: WorkersProxy is not available in your region yet.', {
            status: 403
        });
    } else if (blocked_ip_address.includes(ip_address)) {
        response = new Response('Access denied: Your IP address is blocked by WorkersProxy.', {
            status: 403
        });
    } else {
        let method = request.method;
        let request_headers = request.headers;
        let new_request_headers = new Headers(request_headers);

        new_request_headers.set('Host', url.hostname);
        new_request_headers.set('Referer', url.hostname);

        let original_response = await fetch(url.href, {
            method: method,
            headers: new_request_headers
        })

        let original_response_clone = original_response.clone();
        let original_text = null;
        let response_headers = original_response.headers;
        let new_response_headers = new Headers(response_headers);
        let status = original_response.status;

        new_response_headers.set('access-control-allow-origin', '*');
        new_response_headers.set('access-control-allow-credentials', true);
        new_response_headers.delete('content-security-policy');
        new_response_headers.delete('content-security-policy-report-only');
        new_response_headers.delete('clear-site-data');

        const content_type = new_response_headers.get('content-type');
        if (content_type.includes('text/html') && content_type.includes('UTF-8')) {
            original_text = await replace_response_text(original_response_clone, upstream_domain, url_hostname);
        } else {
            original_text = original_response_clone.body
        }

        response = new Response(original_text, {
            status,
            headers: new_response_headers
        })
    }
    return response;
}

async function replace_response_text(response, upstream_domain, host_name) {
    let text = await response.text()

    var i, j;
    for (i in replace_dict) {
        j = replace_dict[i]
        if (i == '$upstream') {
            i = upstream_domain
        } else if (i == '$custom_domain') {
            i = host_name
        }

        if (j == '$upstream') {
            j = upstream_domain
        } else if (j == '$custom_domain') {
            j = host_name
        }

        let re = new RegExp(i, 'g')
        text = text.replace(re, j);
    }
    return text;
}

async function device_status(user_agent_info) {
    var agents = ["Android", "iPhone", "SymbianOS", "Windows Phone", "iPad", "iPod"];
    var flag = true;
    for (var v = 0; v < agents.length; v++) {
        if (user_agent_info.indexOf(agents[v]) > 0) {
            flag = false;
            break;
        }
    }
    return flag;
}