Project RC

一种标准阿西的设计与实现。

关于 Multimethods

创建于
分类:Dev
标签:编程语言多态多分派MultimethodsC++

最近学到了一个编程语言中叫作 multimethods 的概念,在这里做个笔记。

为什么

要解释这个概念,首先提出两个程序设计中会遇到的问题。

1. Expression Problem

案例

考虑 C++ 中这样一种情况:

struct Event {
    virtual ~Event() {}
};

struct MessageEvent : Event {
    virtual ~MessageEvent() {}

    std::string message;
    int user_id;
};

struct NoticeEvent : Event {
    virtual ~NoticeEvent() {}

    std::string notice;
};

如果此时需要给这些 Event 类添加一个序列化对象为 JSON 的成员函数,从面向对象的角度自然会想到给 Event 加一个虚函数,然后在子类中实现:

struct Event {
    virtual ~Event() {}
    virtual std::string to_json() const = 0;
};

struct MessageEvent : Event {
    virtual ~MessageEvent() {}

    std::string message;
    int user_id;

    std::string to_json() const override {
        return "json for message event";
    }
};

这种方法的问题在于,这些 Event 类很可能是第三方库中的,而它们对应的实现文件可能已经编译成了链接库,要修改类定义是很困难的。

要在不改变类定义的情况下给类添加新功能,这就是 expression problem

横切关注点(Cross-cutting Concern)

Expression problem 是横切关注点问题的一部分,以上面为例,to_json 是一种非常普遍的操作,不仅是 Event 类,其它各种类都可能需要此操作。类似的还有 to_stringtime_it 等,它们都是一种与很多模块都相关的横切面。

2. 多分派(Multiple Dispatch)

在 OOP 中,最常用的操作是通过形如 obj.operate() 的方式调用对象的方法(C++ 中的成员函数)。C++ 会隐式地给 operate 函数增加一个 this 参数,指示调用的方法所属的对象。这种操作使用一个参数来确定要调用的函数,因此称为单分派(single dispatch)

如果要使用两个或多个参数来确定要调用的函数,也就是多分派,该怎么办呢?一种方案是函数重载(overload),例如:

struct Shape {
    virtual ~Shape() {}
    // ...
};

struct Circle : Shape {
    virtual ~Circle() {}
    // ...
};

struct Rect : Shape {
    virtual ~Rect() {}
    // ...
};

bool intersect(const Circle &a, const Circle &b);
bool intersect(const Rect &a, const Rect &b);
bool intersect(const Circle &a, const Rect &b);

但问题是,重载函数的选择是在编译期进行的,但实际编程中,常常会把各类型的对象都通过 Shape & 来引用,此时必须在运行期动态确定要调用的函数,函数重载就不可行了。

Open Multimethods

Open multimethods 可同时解决上面的两个问题,这里之所以是 open,是因为 method(方法)通常指类内定义的函数,这里 open 意思是方法定义在类外。

YOMM2 库提供的矩阵类为例可以比较容易理解 open multimethods 的思路:

// 不可修改的库代码部分:

// 矩阵基类
struct Matrix {
    virtual ~Matrix() {}
    // ...
};

// 稠密矩阵
struct DenseMatrix : Matrix { /* ... */ };
// 对角矩阵
struct DiagonalMatrix : Matrix { /* ... */ };

// 可修改的应用程序代码部分:

#include <yorel/yomm2/cute.hpp>

using yorel::yomm2::virtual_;

register_class(Matrix);
register_class(DenseMatrix, Matrix);
register_class(DiagonalMatrix, Matrix);

declare_method(string, to_json, (virtual_<const Matrix &>));

define_method(string, to_json, (const DenseMatrix &m)) {
    return "json for dense matrix...";
}

define_method(string, to_json, (const DiagonalMatrix &m)) {
    return "json for diagonal matrix...";
}

int main() {
    yorel::yomm2::update_methods();

    shared_ptr<const Matrix> a = make_shared<DenseMatrix>();
    shared_ptr<const Matrix> b = make_shared<DiagonalMatrix>();

    cout << to_json(*a) << "\n"; // json for dense matrix
    cout << to_json(*b) << "\n"; // json for diagonal matrix

    return 0;
}

可以看到,open multimethods 的定义和函数重载相似,但 ab 都是 Matrix 的指针,当调用 to_json 时,程序能够正确地在运行期根据 ab 的实际类型来选择函数。同时,不需要将 to_json 写到 Matrix 类的内部,减少了侵入和重新编译的成本。

除此之外,YOMM2 还用一个矩阵乘法的例子演示了多分派的实现:

declare_method(
    shared_ptr<const Matrix>,
    times,
    (virtual_<shared_ptr<const Matrix>>, virtual_<shared_ptr<const Matrix>>));

// 任意 Matrix * Matrix -> DenseMatrix
define_method(
    shared_ptr<const Matrix>,
    times,
    (shared_ptr<const Matrix> a, shared_ptr<const Matrix> b)) {
    return make_shared<DenseMatrix>();
}

// DiagonalMatrix * DiagonalMatrix -> DiagonalMatrix
define_method(
    shared_ptr<const Matrix>,
    times,
    (shared_ptr<const DiagonalMatrix> a, shared_ptr<const DiagonalMatrix> b)) {
    return make_shared<DiagonalMatrix>();
}

程序将在运行时通过 abtypeid 来选择最 specific 的函数来调用。

参考资料

关于 Multimethods

你好,2020

创建于
分类:Misc
标签:年度总结

终于有一个闲下来的下午,可以总结一下过去这忙碌却又无为、充实却又单调的一年,对全新的 2020 年做一些展望了。

2019

2019 年有一个开心的开始,和女票一起跨年,之后去上海松江旅游,在松江还和 CQHTTP 交流群的几个朋友们面了基。回学校之后就开始张罗着给 18 级的新生做 Python 和 QQ 机器人主题的培训。

农历新年也是为数不多的一个心情很好的年,年三十贴了春联,晚上和群友们玩得很 high,第二天初一,第一次一个人开车,和同学去看了《流浪地球》。

寒假结束,2 月底,正式开始每天去图书馆复习考研了。经历了中科院计算所和清华计算机之间的纠结,最后在 6 月决定考上海交大软件工程,直接目标就是 IPADS 实验室。

年初还搞了两次开源软件协会小聚,第一次还行,之后似乎没什么人想来了,有点失望吧。

3 月意外地收到了腾讯面试邀请,感觉聊得还不错,不过因为已经决定考研,就没有继续面下去。

2 月底到 12 月底的 10 个月,300 天,就是充实又单调的考研复习了,间歇性地觉得自己可以冲清华,又间歇性地觉得自己好菜。努力了 300 天,大部分精力花在了数学上,最后在考场上数学还是炸了,卷子写到中途整个脑子已经一片空白了,好在其它几门发挥正常,现在还不知道能不能过复试线……不论结果如何,都要感谢家人的支持、女朋友的陪伴、朋友们的鼓励。

考完研之后,在种种不满中还是被安排到了昆山进行校企合作培养,几天下来似乎也适应了这里的节奏。

这一年,经历了无数次情绪的高涨和低落,经历了许多人情冷暖。

考研复习的 300 天,觉得自己很努力,可是看到朋友们都学了很多新技术、做了很多新项目,会很难受,如果最后真的没考上,这时间可就相当于浪费掉了……

但这一年也是有收获的,这是从小到大第一次可以把一个计划、一个决定贯彻执行一整年,似乎渐渐明白了如何控制自己的执行力和管理时间,也变得对生活更加有动力了。

2020

2020 年最重要的一件事,就是不论有没有考上研,都要不断突破自己的舒适圈,用考研这段时间积累的自我管理能力去真正地学习一些新东西、做一些以前做到一半就放弃的事情。希望自己可以成功啊!

你好,2020

我的 2018 年

创建于
分类:Misc
标签:年度总结

2018 年的最后一天是时候总结一下这一年都干了什么了~

一年的计划回顾

今年刚开始的时候打算学的东西基本上全都了,比如:

  • 网球
  • 滑板
  • 概率论
  • 计算机网络
  • 编译原理
  • 日语

年初的时候算是学了些计算机组成原理和体系结构相关的东西,然而并不深入……其它的时间基本上都花在水项目上了。

今年看了的书

  • 《苏菲的世界》
  • 《C++ Primer》
  • 《算法》
  • 《数字电⼦技术基础》
  • 《数字设计和计算机体系结构》
  • 《汇编语言》
  • 《计算机组成与设计》
  • 《精通比特币》

除了《精通比特币》,其它基本上都是今年上半年看的,之后就没怎么看过书,一直在写代码了。

今年值得记住的「第一次」

  • 第一次去酒吧
  • 第一次跑 10 公里
  • 第一次实习
  • 第一次加班
  • 第一次面试别人
  • 第一次在外地过生日
  • 第一次辞职
  • 第一次被租房中介坑
  • 第一次做菜
  • 第一次组建社团
  • 第一次开培训班

项目

今年主要用的编程语言是 Python 和 C++,主要维护的项目全都是跟 QQ 机器人相关的:

  • coolq-http-api
  • coolq-cpp-sdk
  • python-cqhttp
  • python-aiocqhttp
  • nonebot
  • amadeus

社交

首先,最重要的!收获了一个无敌可爱的女朋友,让我整个人都变可爱了!在一起经历了很多事情,有开心也有难过,希望以后也能一直走下去!

今年在 CQHTTP 插件的交流群里也认识了很多新朋友,面了很多次基。真的很感谢写这个插件的经历,不仅在项目经验上有很大提升,也认识了很多很志同道合的朋友。

下半年接近年末的时候开始尝试组建开源软件协会,在学校也认识了很多有趣的人,有 18 级的小学弟们,还有其它年级以前不曾了解的大佬们。

新年计划?

看到开头咕了的那些了吗,计划的结果就是这样的,还计什么划。

感觉一次计划一年是非常不切实际的事情,一年的时间太长了,有太多太多无法确定的事情,2018 年的计划我坚持执行到了 6 月,但最终还是变成了想到啥干啥。这么看来也许可以半年订一次计划,应该能够更容易实现一些。

嘛,明天再说吧,先放松放松,享受今年最后的几个小时吧!

我的 2018 年

基于 QDP 协议实现 HTTP 代理

创建于
分类:Dev
标签:QDP代理HTTP代理通信协议QQ酷QCQHTTP

动机

简单实现了 QDP 之后,想通过这个协议寻求对计算机网络一些知识的深入学习,通过跟朋友们的交流,知道了可以通过实现 TUN/TAP 虚拟网络设备来兼容现有的 TCP/IP 协议栈,这是一个有趣的方向,不过还是打算先验证一下自己最开始的想法,也就是基于 QDP 实现一个 HTTP 代理,算是学习和实践一下 HTTP 代理的原理吧。

思路

根据 HTTP 代理原理及实现(一),HTTP 代理的原理,分为两种:第一种,浏览器将请求直接发送给 HTTP 代理,后者将 HTTP 请求转发给服务端(以客户端的身份),随后再将服务端的响应转发给浏览器(以服务端的身份);第二种,浏览器通过 CONNECT 方法请求代理建立一条隧道,通过该隧道转发 TCP 数据。

QDP 协议在这个实验中的作用,实际上是用于在「与浏览器通信的本地 HTTP 代理」(后面称此为「代理前端」)和「用于转发请求到真实目标站点的伪客户端」(后面称此为「代理后端」)之间传输数据,从而让真实的流量通过 QQ 消息传送。

由于 QDP 被用在代理程序的两个部分之间的通信,因此还需要设计一种数据交换协议(实际上是一种 RPC)(后面称此为「代理协议」)来作为 QDP 的有效载荷。

到这里,从思路上来说,整个工作流程已经比较清晰了:代理前端开放 HTTP 代理端口,接受浏览器的代理请求,然后进行必要的处理,再通过代理协议,把必要的数据和指令发送给代理后端,后者根据这些数据和指令,向代理请求的实际目标网站发起连接,并继续通过代理协议在代理前端和目标网站之间转发数据。

实现

第一步首先根据 Jerry Qu 的博客内容来实现一个正常的 HTTP 代理,源码见 demo/http_proxy.py。这一步遇到了一些坑,最后因为没有适当的第三方 HTTP 库,转而直接使用 asyncio 自带的流 API,也算是粗糙地实现了。

接着就是要把代理的前端和后端拆开。

先设计它们的通信协议(上面说的代理协议),为了简便起见,直接使用 JSON 来定义:

{
    "id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "method": "connect",
    "params": {
        "host": "www.example.com",
        "port": 443
    }
}
{
    "id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "method": "transfer",
    "params": {
        "data": "<base64 encoded bytes>"
    }
}
{
    "id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "method": "close",
    "params": {}
}

上面的 id 字段是 UUID,用于唯一标识一个代理请求。method 字段定义了代理协议的三个方法,分别是 connecttransferclose,这三个方法是通过分析先前实现的 HTTP 代理所进行的操作得来的,首先代理前端需要通知后端连接目标站点(使用 connect 方法),然后两端需要互相转发数据(使用 transfer 方法),最后请求完成后还需要关闭连接(使用 close 方法)。params 字段是相应方法所需的参数。

有了代理协议之后,就可以开始分别实现代理前端和代理后端了。

代理前端非常简单,直接在正常的 HTTP 代理的代码上修改。接受代理请求的部分不用动,当需要建立连接的时候,向代理后端发送 connect 协议包;然后当从代理请求的连接中读取数据之后,使用 transfer 协议包向代理后端发送数据,与此同时,当后端发来数据(同样是 transfer 方法)时,从中读取数据并转发给代理请求方(浏览器)。源码见 demo/http_proxy_frontend.py

代理后端不能直接从正常的 HTTP 代理代码修改,需要写一些新的逻辑,主要就是不断地接收代理前端发来的协议包,如果是 connect,就开启一个协程,向目标网站建立连接,然后不断接收对应 id 的协议包,如果是 transfer 则转发,close 则关闭,实际代码不是很多。源码见 demo/http_proxy_backend.py

上面代码虽然说起来简单,但实际编写的时候还是经历了一些艰难的 debug 的……由于代码量不算非常多,就没怎么加注释了,阅读起来应该不会很困难。

效果

编写代码时代理前后端都是跑在本地的,测试成功后,将后端和其对应的 QQ 移到阿里云上海的某个 VPS,成功运行,访问 ip.cn 来验证 IP 地址确实已经是阿里云上海的地址:

从上图的 DevTools 可以看出,这个代理的速度基本上慢到不可用了(本来 QDP 就已经足够慢了,现在代理协议又需要占用额外的空间),但作为一个概念验证已经足够了。

参考资料

基于 QDP 协议实现 HTTP 代理

QDP:一种以 QQ 消息为传输介质的通信协议

创建于
分类:Dev
标签:QDPUDP通信协议QQ酷QCQHTTP

QDP(QQ-based Datagram Protocol)是一种基于 QQ 消息的传输协议,可用于通过 QQ 传输任意二进制数据,并自动对数据报进行分片发送。

协议实现见 richardchien/qdp

动机

上面的描述听起来很诡异,但确实是这样。

起因是做 CQHTTP 插件的时候想基于 酷Q 写一个新的 QQ 客户端,然后想到可以通过 QQ 消息发送一些 QQ 自己的客户端不支持的内容,比如 Markdown,再由这个第三方客户端来进行解析和显示,进而意识到其实可以通过 Base64 等编码来使任意二进制数据的传输称为可能。

和朋友讨论的过程中也意识到其实这个东西理论上可以用来做隧道代理(虽然速度会非常非常慢)。

这个想法在脑海里搁置了很久之后,终于闲 xian 来 de 无 dan 事 teng 来设计了一下协议的具体内容并做了简单实现。

思路

首先,QQ 消息只能发送文本内容,而我们想实现任意二进制的传输,因此需要把二进制转换成字符串,既然是概念验证,肯定就选最简单的 Base64 了。

然后,考虑到发送的二进制内容可能非常大,编码之后可能会超出 QQ 单条消息的允许大小,经过简单测试,发现一条消息可以发送 4500 个 ASCII 字符,也就是说,一条消息最大能发送 4500 字节,这里我们记 QQ 消息的 MTU 为 4500 B。

这个 MTU,实际上不能全部拿来传输数据,因为我们要能够确保知道这条消息是 QDP 协议的数据,还需要一些标记手段,这里通过在 Base64 编码之后的消息开头加上魔术前缀来实现,例如 <<<42>>>~,只有消息以这个前缀开头,接收方才会去尝试解包它之后的 Base64 内容。于是消息内容最终长这样:

<<<42>>>~elkAATA5xexIZWxsbywgMTIzIQ==

再考虑 QQ 机器人发送消息的频率不能无限高,实际上这个频率只能很低,否则很容易被封号,经过和相关机器人开发者的讨论,这个频率应该能够达到最高 10 msg/s 左右,但这只是发送频率,实际接收方接收消息的速度会更慢。

另外,QQ 消息有一个特点是,消息之间有可能乱序,甚至有可能丢失,但只要是收到的消息,几乎不可能出错,类比计算机网络中现有的 TCP、UDP 等协议的话,QDP 协议是不需要校验和的,因为只存在乱序和丢包,不存在内容出错。

由于这只是概念验证,于是不打算实现像 TCP 那样的可靠传输,实际上 QQ 消息在一定程度上已经非常可靠了,虽然说有可能出现乱序,但在网络条件比较好的测试环境应该还是可以忽略不计。

UDP 协议使用源 IP、源端口、目标 IP 和目标端口来确定数据报的发送和接收方,但 QQ 上没有 IP,因此这里使用源 QQ、源端口、目标 QQ 和目标端口来确定发送和接收方。于是,模仿 UDP 协议的首部,QDP 的首部需要包含源端口和目标端口。而 QDP 数据报最终发送时,需要经过类似于 IP 分片的处理,也就是把 QDP 数据报当做数据,切成多块之后再各自加首部,形成新的大小在 MTU 允许范围内的数据报,本来想把这一层称为「QIP」,但实现的时候发现没必要这么复杂,所以这个概念就不要了,这个切分之后的分片,我们称之为「QDP 分片」。如果模仿 IP 协议的话,「QDP 分片」的首部需要包含源 QQ、目标 QQ、数据报 ID(用于重组分片)、分片偏移,但这里我们进行简化,因为我们通过 QQ 收发消息,收发消息的时候都能够知道自己和对方的 QQ 号,不像真实的网络那么复杂,因此实际上分片中是不需要放源和目标 QQ 号的。而 IP 的分片偏移在实现上也似乎有点繁琐,因此 QDP 分片直接使用序号了。

根据上一段的思路,最终 QDP 数据报(Packet)和 QDP 分片(Fragment)的协议格式设计如下:

QDP Packet
+------------------+------------------+------------+
|      16 bit      |      16 bit      | var length |
|     Src Port     |     Dst Port     |    Data    |
+------------------+------------------+------------+

QDP Fragment
+------------------+-------+----------+------------+
|     16 bit       | 1 bit |  15 bit  | var length |
|    Packet ID     |  MF   | Sequence |    Data    |
+------------------+-------+----------+------------+

其中,QDP Fragment 的 Data 是整个 QDP Packet 的二进制切分之后的一部分,QDP Packet 的 Data 是实际要传输的二进制内容;Packet ID 是对应一个 QDP Packet 的随机数,用于接收方对可能有多个数据报混杂的分片进行重组;MF 标志位就和 IP 数据报的 MF 一个意思,More Fragment,表示当前分片是不是最后一个分片;Sequence 表示当前分片是原始 QDP Packet 的第几个分片,从 1 开始数。

有了协议格式之后,整体的收发流程就比较明确了。

发送方指定目标 QQ、目标端口和数据,QDP 实现程序将源端口、目标端口和数据放入 QDP Packet,按需进行切分,组成一个或若干个 QDP Fragment,然后依次将每个 QDP Fragment 的内容的二进制进行 Base64 编码,加上魔术前缀 <<<42>>>~,发送给目标 QQ。

接收方收到 QQ 消息,判断是否以魔术前缀开头,如果是,将前缀之后的内容进行 Base64 解码,恢复成 QDP Fragment,判断 MF 标志位,如果不是最后一个分片,暂存该分片,如果是最后一个,则根据 Sequence 进行排序重组,如果出现分片丢失的情况,直接丢弃该数据报。成功重组之后得到 QDP Packet,判断其目标端口是否为当前应用监听的端口,如果是,则放入 Socket 对应的接收队列,等待应用程序接收。

实现

上面思路的最后已经详细说明了协议的具体工作流程,因此实现起来就非常简单了,见 richardchien/qdp

上面给出的实现提供了如下接口(很类似于 Python 内置的 UDP Socket 接口):

qdp.init({
    12345678: 'ws://127.0.0.1:6700'
})

sock = qdp.Socket()
await sock.bind((12345678, 9999))
logging.info('QDP socket created')

while True:
    data, addr = await sock.recvfrom()
    text = data.decode('utf-8')
    logging.info(f'Received from {addr[0]}:{addr[1]}, data: {text}')
    text_send = f'Hello, {text}!'
    await sock.sendto(text_send.encode('utf-8'), addr)
    logging.info(f'Sent to {addr[0]}:{addr[1]}, data: {text_send}')

上面的代码给出了一段使用 QDP Socket 实现服务端的例子。qdp.init() 传入 QQ 号和 CQHTTP 的 WebSocket API 地址的映射;sock.bind((12345678, 9999)) 将 Socket 绑定到了 QQ 12345678 的 9999 端口;sock.recvfrom()sock.sendto() 就是非常正常的接收和发送接口了。

客户端部分的代码基本上和服务端类似,和 UDP 的区别是,即使是客户端,也必须要调用 sock.bind() 方法,来绑定到 QQ 号(因为要连接 CQHTTP),端口可以填 None,内部会从 50000 到 65535 随机选取一个可用端口。

另外,由于发送大量数据时需要分很多片,为了限制消息发送频率,顺便给 CQHTTP 写了一个 API 限速功能,可以通过配置文件限制请求的执行速度,测试时使用了 2 msg/s 和 5 msg/s 两种速度。

总结

以上就是 QDP 协议从理论上的概念到实现的过程了,实现之后简单进行了一下测速,发现每秒实际只能传输 2~3 KB 的数据,可以说非常慢了,基本上没啥用,不过作为概念验证已经算是成功了。

参考资料

QDP:一种以 QQ 消息为传输介质的通信协议