机器学习算法做安全之垃圾邮件识别（下）-行业问题-网易企业邮箱-163企业邮箱申请购买中心

网易企业邮箱，中国企业邮箱第一品牌

咨询电话: 400-999-7163

当前位置: 首页 >> 常见问题 >> 行业问题

机器学习算法做安全之垃圾邮件识别（下）

时间:2022.05.12

前言

本文主要以垃圾邮件识别为例，介绍常见的文本处理方法以及常见的文本处理相关的机器学习算法。上半部主要介绍垃圾邮件识别使用的数据集，介绍使用的特征提取方法，包括词袋模型和TF-IDF模型、词汇表模型。本文下半部主要介绍使用的模型以及对应的验证结果，包括朴素贝叶斯、支持向量基和深度学习。

模型训练与验证

方法一：朴素贝叶斯算法

使用朴素贝叶斯算法，特征提取使用词袋模型，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

gnb = GaussianNB()

gnb.fit(x_train,y_train)

y_pred=gnb.predict(x_test)

评估结果的准确度和TT、FF、TF、FT四个值。

print metrics.accuracy_score(y_test, y_pred)

print metrics.confusion_matrix(y_test, y_pred)

在词袋最大特征数为5000的情况下，整个系统准确度为94.33%，TT、FF、TF、FT矩阵如表所示。

表1-1 基于词袋模型的朴素贝叶斯验证结果

类型名称	T	F
T	5937	632
F	133	6875

完整输出结果为：

CountVectorizer(analyzer=u’word’, binary=False, decode_error=’ignore’,

dtype=<type ‘numpy.int64′>, encoding=u’utf-8′, input=u’content’,

lowercase=True, max_df=1.0, max_features=5000, min_df=1,

ngram_range=(1, 1), preprocessor=None, stop_words=’english’,

strip_accents=’ascii’, token_pattern=u’(?u)\\b\\w\\w+\\b’,

tokenizer=None, vocabulary=None)

0.943278712835

[[5937 632]

[ 133 6785]]

从调优的角度，我们试图分析词袋最大特征数max_features对结果的影响，我们分别计算max_features从1000到10000对评估准确度的影响。

global max_features

a=[]

b=[]

for i in range(1000,20000,2000):

max_features=i

print “max_features=%d” % i

x, y = get_features_by_wordbag()

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=0)

gnb = GaussianNB()

gnb.fit(x_train, y_train)

y_pred = gnb.predict(x_test)

score=metrics.accuracy_score(y_test, y_pred)

a.append(max_features)

b.append(score)

plt.plot(a, b, ‘r’)

可视化结果成图标，结果如图所示，可见max_features值越大，模型评估准确度越高，同时整个系统运算时间也增长，当max_features超过约13000以后，系统准确率反而下降，所以max_features设置为13000左右，系统准确度达到最大，接近96.4%，但是通过实验，当max_features超过5000时计算时间明显过长且对准确率提升不明显，所以折中角度max_features取5000也满足实验要求。

词袋最大特征树对朴素贝叶斯算法预测结果的影响

当max_features设置为13000时系统运行结果为：

CountVectorizer(analyzer=u’word’, binary=False, decode_error=’ignore’,

dtype=<type ‘numpy.int64′>, encoding=u’utf-8′, input=u’content’,

lowercase=True, max_df=1.0, max_features=13000, min_df=1,

ngram_range=(1, 1), preprocessor=None, stop_words=’english’,

strip_accents=’ascii’, token_pattern=u’(?u)\\b\\w\\w+\\b’,

tokenizer=None, vocabulary=None)

0.963965299918

[[6369 200]

[ 286 6632]]

使用朴素贝叶斯算法，特征提取使用TF-IDF模型，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

gnb = GaussianNB()

gnb.fit(x_train,y_train)

y_pred=gnb.predict(x_test)

评估结果的准确度和TT、FF、TF、FT四个值。

print metrics.accuracy_score(y_test, y_pred)

print metrics.confusion_matrix(y_test, y_pred)

在词袋最大特征数为5000的情况下，整个系统准确度为95.91%，TT、FF、TF、FT矩阵如表所示，同等条件下准确率比词袋模型提升。

表1-2 基于TF-IDF模型的朴素贝叶斯验证结果

类型名称	T	F
T	6471	98
F	453	6465

完整输出结果为：

CountVectorizer(analyzer=u’word’, binary=True, decode_error=’ignore’,

dtype=<type ‘numpy.int64′>, encoding=u’utf-8′, input=u’content’,

lowercase=True, max_df=1.0, max_features=5000, min_df=1,

ngram_range=(1, 1), preprocessor=None, stop_words=’english’,

strip_accents=’ascii’, token_pattern=u’(?u)\\b\\w\\w+\\b’,

tokenizer=None, vocabulary=None)

TfidfTransformer(norm=u’l2′, smooth_idf=False, sublinear_tf=False,

use_idf=True)

NB and wordbag

0.959145844146

[[6471 98]

[ 453 6465]]

方法二：支持向量基算法

使用支持向量基算法，特征提取使用词袋模型，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

clf = svm.SVC()

clf.fit(x_train, y_train)

y_pred = clf.predict(x_test)

评估结果的准确度和TT、FF、TF、FT四个值。

print metrics.accuracy_score(y_test, y_pred)

print metrics.confusion_matrix(y_test, y_pred)

在词袋最大特征数为5000的情况下，整个系统准确度为90.61%，TT、FF、TF、FT矩阵如表1-3 所示，同等条件下准确率比词袋模型提升。

表1-3 基于词袋模型的SVM验证结果

类型名称	T	F
T	5330	1239
F	27	6891

完整输出结果为：

CountVectorizer(analyzer=u’word’, binary=False, decode_error=’ignore’,

dtype=<type ‘numpy.int64′>, encoding=u’utf-8′, input=u’content’,

lowercase=True, max_df=1.0, max_features=5000, min_df=1,

ngram_range=(1, 1), preprocessor=None, stop_words=’english’,

strip_accents=’ascii’, token_pattern=u’(?u)\\b\\w\\w+\\b’,

tokenizer=None, vocabulary=None)

SVM and wordbag

0.906131830652

[[5330 1239]

[ 27 6891]]

方法三：深度学习算法之MLP

近几年有学者尝试使用深度学习算法提高垃圾邮件识别率。

我们先使用深度学习算法最简单的一种MLP（Multi-layer Perceptron，多层感知机），我们构造包括两层隐藏层的MLP，每层节点数分别为5和2，结构如图所示。

用于垃圾邮件检测的MLP结构图

在Scikit-Learn中可以使用MLPClassifier实现MLP，使用支持向量基算法，特征提取使用词袋模型，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

clf = MLPClassifier(solver=‘lbfgs’,

alpha=1e-5,

hidden_layer_sizes = (5, 2),

random_state = 1)

clf.fit(x_train, y_train)

y_pred = clf.predict(x_test)

评估结果的准确度和TT、FF、TF、FT四个值。

print metrics.accuracy_score(y_test, y_pred)

print metrics.confusion_matrix(y_test, y_pred)

在词袋最大特征数为5000的情况下，整个系统准确度为98.01%，TT、FF、TF、FT矩阵如表1-4 所示，同等条件下准确率比词袋模型提升。

表1-4 基于词袋模型的MLP验证结果

类型名称	T	F
T	6406	163
F	105	6813

完整输出结果为：

DNN and wordbag

maxlen=5000

MLPClassifier(activation=’relu’, alpha=1e-05, batch_size=’auto’, beta_1=0.9,

beta_2=0.999, early_stopping=False, epsilon=1e-08,

hidden_layer_sizes=(5, 2), learning_rate=’constant’,

learning_rate_init=0.001, max_iter=200, momentum=0.9,

nesterovs_momentum=True, power_t=0.5, random_state=1, shuffle=True,

solver=’lbfgs’, tol=0.0001, validation_fraction=0.1, verbose=False,

warm_start=False)

0.980129013124

[[6406 163]

[ 105 6813]]

方法四：深度学习算法之CNN

CNN的诞生是为了解决图像处理领域计算量巨大而无法进行深度学习的问题，CNN通过卷积计算、池化等大大降低了计算量，同时识别效果还满足需求。图像通常是二维数组，文字通常都是一维数据，是否可以通过某种转换后，也使用CNN对文字进行处理呢？答案是肯定的。

我们回顾下在图像处理时，CNN是如何处理二维数据的。如图所示，CNN使用二维卷积函数处理小块图像，提炼高级特征进一步分析。典型的二维卷积函数处理图片的大小为3*3、4*4等。

CNN处理图像数据的过程

同样的原理，我们可以使用一维的卷积函数处理文字片段，提炼高级特征进一步分析。典型的一维卷积函数处理文字片段的大小为3、4、5等。

CNN处理文本数据的过程

这个要感谢Yoon Kim的经典论文Convolutional Neural Networks for Sentence Classification

言归正传，使用词汇表编码后，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x,y=get_features_by_tf()

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

将训练和测试数据进行填充和转换，不到最大长度的数据填充0，由于是二分类问题，把标记数据二值化。定义输入参数的最大长度为文档的最大长度。

trainX = pad_sequences(trainX, maxlen=max_document_length, value=0.)

testX = pad_sequences(testX, maxlen=max_document_length, value=0.)

# Converting labels to binary vectors

trainY = to_categorical(trainY, nb_classes=2)

testY = to_categorical(testY, nb_classes=2)

network = input_data(shape=[None,max_document_length], name=’input’)

定义CNN模型，其实使用3个数量为128核，长度分别为3、4、5的一维卷积函数处理数据。

network = tflearn.embedding(network, input_dim=1000000, output_dim=128)

branch1 = conv_1d(network, 128, 3, padding=’valid’, activation=’relu’, regularizer=”L2″)

branch2 = conv_1d(network, 128, 4, padding=’valid’, activation=’relu’, regularizer=”L2″)

branch3 = conv_1d(network, 128, 5, padding=’valid’, activation=’relu’, regularizer=”L2″)

network = merge([branch1, branch2, branch3], mode=’concat’, axis=1)

network = tf.expand_dims(network, 2)

network = global_max_pool(network)

network = dropout(network, 0.8)

network = fully_connected(network, 2, activation=’softmax’)

network = regression(network, optimizer=’adam’, learning_rate=0.001,

loss=’categorical_crossentropy’, name=’target’)

实例化CNN对象并进行训练数据，一共训练5轮。

model = tflearn.DNN(network, tensorboard_verbose=0)

model.fit(trainX, trainY,

n_epoch=5, shuffle=True, validation_set=(testX, testY),

show_metric=True, batch_size=100,run_id=”spam”)

CNN的结构如图所示。

处理垃圾邮件的CNN结构图

在我的mac本上运行了近3个小时后，对测试数据集的识别准确度达到了令人满意的98.30%。

Training Step: 680 | total loss: 0.01691 | time: 2357.838s

| Adam | epoch: 005 | loss: 0.01691 – acc: 0.9992 | val_loss: 0.05177 – val_acc: 0.9830 — iter: 13524/13524

–

方法五：深度学习算法之RNN

RNN由于特殊的结构，可以使用以前的记忆协助分析当前的数据，这点非常适合语言文本相关任务的处理，因此在NLP等领域使用广泛。

我们使用词汇表编码后，将数据集合随机分配成训练集合和测试集合，其中测试集合比例为40%。

x,y=get_features_by_tf()

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 0)

将训练和测试数据进行填充和转换，不到最大长度的数据填充0，由于是二分类问题，把标记数据二值化。定义输入参数的最大长度为文档的最大长度。

trainX = pad_sequences(trainX, maxlen=max_document_length, value=0.)

testX = pad_sequences(testX, maxlen=max_document_length, value=0.)

# Converting labels to binary vectors

trainY = to_categorical(trainY, nb_classes=2)

testY = to_categorical(testY, nb_classes=2)

network = input_data(shape=[None,max_document_length], name=’input’)

定义RNN结构，使用最简单的单层LSTM结构。

# Network building

net = tflearn.input_data([None, max_document_length])

net = tflearn.embedding(net, input_dim=1024000, output_dim=128)

net = tflearn.lstm(net, 128, dropout=0.8)

net = tflearn.fully_connected(net, 2, activation=’softmax’)

net = tflearn.regression(net, optimizer=’adam’, learning_rate=0.001,

loss=’categorical_crossentropy’)

实例化RNN对象并进行训练数据，一共训练5轮。

# Training

model = tflearn.DNN(net, tensorboard_verbose=0)

model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True,

batch_size=10,run_id=”spm-run”,n_epoch=5)

RNN的结构如图所示。

处理垃圾邮件的RNN结构图

在我的mac本上运行了近3个小时后，对测试数据集的识别准确度达到了尚可的94.88%。

小结

本文以Enron-Spam数据集为训练和测试数据集，介绍了常见的垃圾邮件识别方法，介绍了三种特征提取方式，分别是词袋模型、TF-IDF模型和词汇表模型，其中词汇表模型后来发展成了word2ver模型，这个会在后面章节具体介绍。

本章介绍了常见的垃圾邮件分类算法，包括朴素贝叶斯、支持向量机以及深度学习的三种算法，其中CNN和MLP算法的识别率达到了令人满意的98%以上。

值得一提的是，在朴素贝叶斯的实验中我们发现，词袋抽取的单词个数并非越多，垃圾邮件识别概率越大，而是有个中间点可以达到效果优质，并且TF-IDF结合词袋模型会提升检测能力，后面章节我们都会结合两者使用。

以上提到的各种方法基本都有大量参数可以调优，比如神经网络的层数，取样的文本长度等，由于篇幅有限不一一赘述。

另外，针对英文环境，在特征提取环节还有调优空间，比如动词的不同时态、名词的单复数的归一化处理，常用的停顿词诸如the的处理等。

上一篇: 机器学习算法做安全之垃圾邮件识别（上）
下一篇: 如何保护企业云免受勒索软件攻击？

相关标签

台湾地区的企业邮箱

网易企业邮箱已满

日本企业邮箱

网易企业邮箱raid

邮箱被盗

企业邮箱和个人邮箱的区别

网易企业邮箱双因子验证

外贸邮件敏感词

经营性与非经营性互联网信息服务如何界定

开发信

.com域名涨价

上海疫情期间工资发放

乌克兰企业邮箱

恢复foxmail的 Mails文件夹

网易企业邮箱验证码

邮件乱码

报错530 5.7.1 client was notauthenticated

网络钓鱼

核酸待复核

如何将微信文件转至邮箱

微信文件转邮箱

外贸企业邮箱

管理员帐号更换绑定手机

outlook降低带附件邮件大小

网易企业邮箱邮件迁移

微信解封

Exchange每分钟可提交邮件数量

Exchange群组默认不接收外部邮件

网易企业邮箱超大附件

如何设置DKIM

公正邮

劳动补贴申请骗局

网易企业邮箱短信验证码

收到勒索电子邮件怎么办

网易企业邮箱离职交接

邮件进入垃圾箱

Exchange限制邮箱用户发送邮件数量和速率

花瓣

史上最大邮箱账户泄密事件

邮件数量超过限制

win10自带邮件客户端如何导入pst文件

网易企业邮箱

网易企业邮箱支持群发吗

Exchange Server的DKIM签名

电子邮件营销

附件变成DAT文件

企业邮箱盗用诈骗

Exchange限制手机访问

收到内部仿冒邮件

网易企业邮箱第三方伪造

OSS、COS、OBS

Gmail 如何撤回已发送的邮件

企业邮箱骗局

网易企业邮箱智能仓储管理系统

企业邮箱邮件签名证书

Gmail邮箱屏蔽的文件类型

发信专属域名

网易专项邮箱

MDaemon DKIM验证

网易企业邮箱免费版

进入发件箱显示时间为“无”

exchange如何删除特定条件邮件

pop协议与imap协议区别

网易企业邮箱手机登录

IPv6改造

Outlook已发送邮件在发件箱找不到

catch-all邮箱

SPF和DKIM伪造邮件

网易企业邮箱Exchange协议

Exchange 2016安装证书

垃圾邮件识别算法

域名实名制

科新机电网易企业邮箱

IMAP 服务器已关闭连接

Outlook附件限制大小

网易企业邮箱邮件审核

如何修改Outlook 2013ost位置

Office 365如何归档电子邮件

Win10自带邮件客户端

服务器Hmail Server如何设置DKIM

Exchange报错

解禁企业邮箱

Outlook 中的电子邮件创建会议

网易企业邮箱SPF记录

企业邮箱与即时通讯软件

软退信

黑客

网易企业邮箱尊享版

谷歌文章评论功能

垃圾邮件

S/MIME邮件证书

三五互联企业邮箱

WordPress Mail SMTP插件

网易企业邮箱ERP

企业邮箱服务需要备案吗？

Winmail DKIM验证

网易企业邮箱防火墙

网易企业邮箱自助查询

Exchange邮件审核

路由器摆放位置

Exchange添加免责声明

网易企业邮箱群发开发信技巧

Exchange2010 邮箱不可用/数据库修复

Exchange企业邮箱自动发送垃圾邮件

伪造的电子邮件

续费率超过100%

Google Chrome更新

Exchange2010/2013限制

企业邮箱仪式感

离职交接

发垃圾解禁流程

网易企业邮箱排版

垃圾邮件基本概念

Postfix邮件

企业邮箱邮件找不到了

邮件列表功能

Python

Postfix调整附件

怎么修改Autodiscover的URL

网易企业邮箱兼容Microsoft Edge

网易企业邮箱高防IP

电子邮箱泄密

A记录、MX记录、CNAME记录、txt记录

本地邮件数据迁移

网易企业邮箱企业网盘

WinWebMail服务程序没有被安装

黄峥

去中心化

BEC攻击

网易企业邮箱任务邮件

如何查询收件方服务器接收邮件大小

利用已读/未阅读回执发送的垃圾邮件

个人S/MIME邮件证书

网易企业邮箱新设备识别

7条策略彻底规避企业邮箱服务器成为发送垃圾邮件

网易企业邮箱在网易公司位置

利用word发送通知邮件

网易企业邮箱SPF记录语法

网易企业邮箱参数

网易企业邮箱邮件列表功能

Domino SMTP

电邮安全协议SPF/DKIM/DMARC

网易企业邮箱配置转发规则

Exchange S/MIME

网易企业邮箱机房

管理员关闭短信验证

企业邮箱钓鱼诈骗

台湾企业邮箱

3G退网

如何正确使用企业邮箱

NDR退信

撞库攻击

非本域名的垃圾邮件

网易企业邮箱被盗预防措施

企业管理

网易企业邮箱异常邮件

企业垃圾邮件过滤方式

荣联科技

网易企业邮箱发信源多重认证

钓鱼邮件与墨菲定律

邮件模板

腾讯企业邮箱

企业邮箱邮件系统

网易企业邮箱海外版

Postfix限制

网易企业邮箱服务器出现故障

网易企业邮箱查看被隔离邮件

网易企业邮箱无代码集成

企业邮箱的网络钓鱼攻击

腾讯企业邮箱Exchange服务

网易企业邮箱DOCmail安全客户端

SMTP 流程

用电子邮件归档解决Microsoft Outlook问题

邮件系统设计

网易企业邮箱常用测试命令

网易企业邮箱IPv6

企业邮箱SaaS服务

网易企业邮箱SRS技术

哪些域名后缀可以备案

企业邮箱迁移

亚马逊电子邮件服务

工资补贴钓鱼骗局

网易企业邮箱回源IP段

英国NCSC

2022年企业邮箱

网易企业邮箱—工业互联网PaaS平台

Exchange导出自动转发的用户

网易企业邮箱电子文件管理平台

TTL

越复杂的密码也就越安全

启用Exchange 2010 SMTP日志

网易企业邮箱编码规则

网易企业邮箱和163企业邮箱区别

网易企业邮箱OFD版式文件

DMARC 如何创建记录

网易邮件营销

OWA被拦截

FBI网络钓鱼

163企业邮箱

企业邮箱市场

日程管理

网易企业邮箱强制解析

Exchange 将用户添加至成员组报错

邮件备份和邮件归档区别

网易企业邮箱安全级别

exchange开启SMTP高级日志

五种常见的邮件归档错误概念

网易企业邮箱自定义登录页

客户自有域名的HTTPS

大量发送电子邮件

SPF反钓鱼反垃圾的重要性

企业邮箱诈骗

Winwebmail

企业邮箱反垃圾防病毒能力

ID 5300、5800、5801报错

Exchange2007限制附件容量

开发信的核心七要素

EMOS

网易企业邮箱三重“安全门

网易企业邮箱资料窃取

勒索软件攻击

网易企业邮箱海外邮件

微软Edge

网易企业邮箱数据

网易企业邮箱服务器磁盘

阿里云kpi

网易企业邮箱检测cname记录

电子邮件假冒攻击

上海企业邮箱申请

Frappo网络钓鱼

网易企业邮箱DMARC

集团公司企业邮箱

邮件归档重要性

网易企业邮箱湛江机场

Sysrv-hello僵尸

腾讯企业邮箱发信量

上海疾病预防控制中心

外贸企业邮箱四指标

过滤垃圾网站

网易企业邮箱电子文档安全管理系统

企业邮箱云安全

延迟满足

密码字典穷举爆破

网易企业邮箱灾难评估

企业邮箱 IT系统备份

国外企业邮箱

Icewarp启用黑名单

网易企业邮箱安全

Hive勒索攻击

居家办公神器

跨境企业邮箱

董事长能力

帐号安全防护

远程办公

网易企业邮箱远程办公

400电话转接手机

微信电脑双开多开

网易企业邮箱web3.0

Linux提权漏洞

DNS Flag Day

企业网站与推广

Sysrv僵尸网络

网易支持双机热备份和异地容灾

网易企业邮箱多网络解决方案

校园邮旗舰版邮箱容量

网易企业邮箱供电

NLP

织梦Please set request_order

NFT泡沫

25年技术沉淀，专注企业邮箱

100万+

合作企业
180个

行业和类目
7*24时

服务响应
99.99%

垃圾拦截率

查看更多+ 热门问题

查看更多+ 新闻中心

咨询电话:
400-999-7163

在线QQ咨询:

网易企业邮箱优秀经销商
连续多年获得网易优秀经销商
23年只专注于企邮行业
一心一意专心致力于企业邮箱
一站式服务
满足企业信息化个性需求
售后保障
一对一邮箱顾问服务

网易企业邮箱 - 产品介绍 - 开通邮箱 - 成功案例 - 产品报价 - 优惠活动 - 常见问题 - 关于我们 - 服务范围 - 站点地图 - 核心服务 -
全部区域： - 上海 - 北京 - 安徽 - 福建 - 甘肃 - 广东 - 广西 - 贵州 - 海南 - 河北 - 河南 - 黑龙江 - 湖北 - 湖南 - 吉林 - 江苏 - 江西 - 辽宁 - 内蒙古 - 宁夏 - 青海 - 山东 - 山西 - 陕西 - 四川 - 天津 - 西藏 - 新疆 - 云南 - 浙江 - 重庆 - 香港 - 澳门 - 台湾 - 企业邮箱申请 -
Copyright © 2018-2021 网易企业邮箱申请购买中心客服热线：400-999-7163

咨询电话

400-999-7163

E-mail

admin@163biz.com

提交信息，立即免费体验！

机器学习算法做安全之垃圾邮件识别（下）

时间:2022.05.12

前言

模型训练与验证

方法一：朴素贝叶斯算法

方法二：支持向量基算法

方法三：深度学习算法之MLP

方法四：深度学习算法之CNN

方法五：深度学习算法之RNN

相关标签

25年技术沉淀，专注企业邮箱

100万+

180个

7*24时

99.99%

查看更多+ 热门问题

查看更多+ 新闻中心