CN1573784A - 用于阻止垃圾邮件的源/目的地的特征和列表 - Google Patents
用于阻止垃圾邮件的源/目的地的特征和列表 Download PDFInfo
- Publication number
- CN1573784A CN1573784A CNA2004100639539A CN200410063953A CN1573784A CN 1573784 A CN1573784 A CN 1573784A CN A2004100639539 A CNA2004100639539 A CN A2004100639539A CN 200410063953 A CN200410063953 A CN 200410063953A CN 1573784 A CN1573784 A CN 1573784A
- Authority
- CN
- China
- Prior art keywords
- feature
- address
- message
- url
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002265 prevention Effects 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000010801 machine learning Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 6
- 101150055528 SPAM1 gene Proteins 0.000 description 82
- 238000012549 training Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 239000004615 ingredient Substances 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 241001391944 Commicarpus scandens Species 0.000 description 2
- 241001673391 Entandrophragma candollei Species 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G06Q50/40—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Abstract
本发明包括一种易于从消息中提取用于垃圾邮件过滤的数据的系统和方法。所提取的数据可以是特征的形式,其能够与机器学习系统一同使用,以建立改进的过滤器。嵌入在消息体中的与源信息以及其它信息相关联的数据能够作为特征被提取,该消息允许消息的收件人联系和/或者响应消息的发件人。在被用作机器学习系统的特征之前,该特征或者其子集能够被规范化和/或者被摆脱困惑。该(已摆脱困惑的)特征能被用于填充多个易于检测和阻止垃圾邮件的特征列表。示范性的特征包括一个email地址,IP地址,URL,指向URL的一个嵌入式图像,以及/或者其中的一部分。
Description
技术领域
本发明涉及用于识别合法的(例如,好的邮件)和不希望得到的邮件,尤其涉及用于处理电子消息来提取数据以方便阻止垃圾邮件的系统和方法。
发明背景
诸如因特网这样的全球通信网络的出现已经为达到大量的潜在客户带来了商机。电子消息,尤其是电子邮件(“电子邮件”)作为一种向网络用户散布不需要的广告和宣传(也表示为“垃圾邮件”)的方式正在日益蔓延。
Radicati集团有限公司,其是一个咨询销售研究公司,估计到2002年8月份为止,每天将发送二十亿条垃圾电子邮件消息。这个数量预计每两年翻三倍。个人和单位(例如,商业,政府机构)变得越来越不方便,而且时常被垃圾邮件搞得不愉快。同样,对于可靠的数据处理来说,垃圾邮件正在或者很快会变为一种主要的威胁。
用于阻止垃圾邮件的关键的技术是使用过滤系统/方法。一种被证实的过滤技术是基于一种机器学习方法——机器学习过滤器分配给输入消息一个该消息是垃圾邮件的概率。在这种方法中,典型地从两种示例性消息(例如,垃圾邮件和非垃圾邮件消息)中提取特征,而且学习过滤器被应用于在两种类型之间进行概率区分。由于多种消息特征与内容(例如,在题目和/或者消息体中的单词和短语)相关,所以这种类型的过滤器通常称之为“基于内容的过滤器”。
随着这种垃圾邮件过滤技术的冲击,许多垃圾邮件制作者已经想出了伪装它们身份以避免和/或者绕过垃圾邮件过滤器的方法。因此,在识别和阻止伪装了的垃圾邮件消息中,传统的基于内容的和自适应过滤器可能变得无效。
发明概述
为了提供对本发明某些方面的一个基本的理解,下面给出了本发明的一个简单的概述。这种概述不是本发明大范围的综述。不是为了识别本发明关键的/重要的要素,或者描绘本发明的范围。其唯一的目的是以简单的方式给出本发明的一些概念作为后面给出的更详细描述的开头。
垃圾邮件制作者在它们的消息中几乎能够伪装所有的信息。例如,它们能够嵌入图像,所以没有作为用于机器学习系统的特征的字。图像甚至可能以失真的方式使得使用ORC软件变得困难,或者至少是耗时的。尽管如此,不管他们消除了多少特征,仍然存在有用的信息。首先,垃圾邮件制作者必须从某处发送该消息。我们能够检测消息是从哪个IP地址接收的。其次,垃圾邮件制作者几乎总是试图销售某物,因此必须包括联系他们的一种方式。这可能是免费号码,但是垃圾邮件制作者可能不愿使用该号码,因为抱怨高成本。其可能是非免费号码,但是因为较低的响应率,垃圾邮件制作者可能不愿这样做。作为选择,其可能是一个URL(例如,http://www.spamcorp.com/buyenlarger.htm)。该URL可能被嵌入到一个图像中,使得过滤器和/或者软件更难检测到它。然而,垃圾邮件制作者可能不愿这样做,因为用户需要在他们的浏览器中键入该URL,其可能使响应率较低。
对垃圾邮件制作者来说,最可能的联系方式是嵌入链接,或者通过一个某种嵌入电子邮件地址。例如,“点击这里可以了解更多”,其中“点击这里”包括一个具体网页的链接,根据本发明的一个方面,机器学习系统能够检测并使用该网页。同样,将要回复的地址(例如,典型地是“来自地址”,但有时是“回复”地址,如果存在一个的话),或者任何嵌入邮件到:链接(允许通过点击链接发送邮件消息的链接),或者任何其它电子邮件地址。另外,垃圾邮件制作者通常在消息中包括图像。因为反复邮寄大量的图像花费很高,所以垃圾邮件制作者通常仅将一个特殊的链接嵌入到图像中,这就会引起图像被下载。这些链接点的位置也能够作为特征被使用。
关于从来自地址的邮件,邮件回复地址,嵌入邮件到的地址,外部链接,以及外部图像的链接中提取的信息,至少这种信息的一部分能被用作机器学习系统的一个特征,一个加权或者概率与之相关联:或者该信息可能被加入到一个列表中。例如,我们能够保存列表,这些列表是IP地址,或者来自只发送垃圾邮件的地址,或者仅发送好邮件的地址,或者发送90%以上是好邮件的地址等。事实是,在这样的列表上的一个特殊的链接或者地址既能够被用作机器学习系统的一个特征,又能够被用作任何其它垃圾邮件过滤系统的一部分,或者两者。
本发明提供一种通过检查消息的特定部分来易于识别伪装的垃圾邮件消息的系统和方法。尤其是,本发明涉及处理一种诸如像电子邮件(电子邮件)这样的消息以提取源和/或者目的地数据,来区分垃圾邮件消息和合法的消息。该处理方法包括识别和分析IP地址信息,电子邮件地址信息,和/或者通用资源定位器(URL)信息的各种技术,以及将所提取的数据与垃圾邮件的属性(例如,好的用户对恶意的用户,或者好的发件人对恶意的发件人)相关联的各种技术。例如,一个恶意的用户或者恶意的发件人将被认为是一个垃圾邮件制作者(例如,发送垃圾邮件的那个人)。
所提取的数据,或者至少其中的一部分能够被用于为机器学习系统产生特征设置。机器学习技术检查消息的内容以确定该消息是否是垃圾邮件。垃圾邮件制作者能够使消息的大部分内容变得混乱,诸如通过将它们的大部分信息放入到难以处理的图像中。然而,消息的起源不能被完全地伪装,由于垃圾邮件制造者需要为收件人提供某种易于联系它们的方式。这样的实例包括使用一个链接(例如,URL)和/或者一个电子邮件地址(例如,IP地址)。这些类型的信息或变体,或其中的部分能被用作垃圾邮件检测器的特征。尤其是,例如,该信息借助于机器学习系统能被用于训练一个垃圾邮件检测器和/或者垃圾邮件过滤器。
本发明也能够与父控制系统合作。父控制系统可能通知用户该消息是不适宜的,而且也能够表明这种不适宜的原因,诸如包括色情资料。根据本发明的一个方面,一个或者多个被提取的并且被规范化的特征(例如,URL)能够通过一个父控制系统或者过滤器来获得父控制系统的分类。这种分类可能被用作该机器学习系统的一个附加的特征以方便建立和/或者改善垃圾邮件过滤器。
此外,所提取的特征能够通过类型来分类,能够根据垃圾邮件的程度来加权,而且能够指明要么是肯定的(例如,很可能不是垃圾邮件),要么是否定的(很可能是垃圾邮件)特征。该特征也能够被用于创建诸如非垃圾邮件制造者列表和垃圾邮件制造者列表这样的列表。
为了完成上述和相关的目的,这里结合下面的描述和附图描述了本发明的某些示例性的方面。然而,这些方面表明了可以使用本发明的原理的几种不同的方式,而且本发明试图包括所有的这些方面及其它们的等价物。当结合附图考虑时,本发明的其它优点和新的特征从下面本发明的详细描述中将变得显而易见。
附图简述
图1是根据本发明的一个方面的易于阻止垃圾邮件的一个系统的高级框图;
图2是根据本发明的一个方面,通过从输入的消息中提取一种或者多种特征以易于阻止垃圾邮件的系统的框图。
图3是根据本发明的一个方面,能够从一个IP地址中提取的多个特征的示意性框图。
图4是根据本发明的一个方面,能够从一个FQDN中提取的多个特征的示意性框图。
图5是根据本发明的一个方面,能够从一个电子邮件地址中提取的多个特征的示意性框图。
图6是根据本发明的一个方面,能够从一个URL或者网址中提取的多个特征的示意性框图。
图7是根据本发明的一个方面与训练过滤器有关的示例性方法的流程图。
图8是根据本发明的一个方面与使用一个训练过滤器有关的示例性方法的流程图。
图9是根据本发明的一个方面与创建一个列表有关的示例性方法的流程图。
图10是根据本发明的一个方面与使用一个列表来训练过滤器有关的示例性方法的流程图。
图11是根据本发明的一个方面,至少参考图7和8的方法的处理过程的流程图。
图12是根据本发明的一个方面,易于在合法的和伪造的发件人的IP地址中作出区分的处理过程的流程图。
图13是根据本发明的一个方面,在来自输入消息的特征的生成和提取中结合父控制系统的方法的流程图。
图14是根据本发明的一个方面,易于创建将在机器学习系统中使用的特征集的方法的流程图。
图15是用于实施本发明各个方面的一种示例性的环境。
发明详述
现在将参考附图描述本发明,其中相似的参考数字完全被用于参照相似的元件。在下面的描述中,为了提供对本发明总体上的理解,出于解释的目的,阐明了多个具体细节。然而,很显然没有这些具体的细节也可以实施本发明。在另外的例子中,为了便于描述本发明,以方框图的形式示出了熟知的结构和设备。
正如在该申请中所使用的,术语“组成部分”和“系统”是指与计算机相关的一个实体,要么是硬件,硬件和软件的组合,软件,要么是运行中的软件。例如,一个组成部分可能是,但不被限制为在处理器上运行的一个处理过程,一个处理器,一个对象,一个可执行的,一种执行的线程,一段程序,和/或者一台计算机。通过举例说明,在服务器上运行的应用程序和该服务器都可能是一个组成部分。一个或者多个组成部分可能驻留在一个处理器中,和/或者执行的线程中,以及一个组成部分可以被定位在一台计算机上,和/或者在两台或者多台计算机之间分布。
本发明可能包括各种推断方案和/或者技术,这些方案和/或者技术是关于为学习垃圾邮件过滤的机器产生训练数据。正如在这里所使用的,术语“推断”一般认为是与推断系统状态的过程,环境,和/或者来自一组经由事件和/或者数据而被捕获的观察的用户有关。例如,推断能够被用于识别一个具体的上下文或者动作,或者能够产生基于状态的概率分布。这种推断可能是概率性的,即基于数据和事件的考虑,基于感兴趣的状态来计算概率分布。推断也可能是指用于从一组事件和/或者数据中构成更高级别事件的技术。这种推断导致了从一组已观察的事件和/或者所存储的事件数据中构造新的事件或者动作,无论在密切临时接近中的事件是否相关联,以及是否该事件和数据来自一个或者多个事件或者数据源。
应当理解尽管术语消息在整个说明书中被广泛的使用,但是这样的术语并没有从本质上限制电子邮件,但是可能更适合于包括能够在任何合适的通信结构上分布的任何形式的电子消息。例如,易于在两个或者多个人(例如,交互聊天程序,以及立即通知的程序)之间进行会议的会议应用和程序也能够利用这里公开的过滤的优点,由于不需要的文本在用户交换消息时,能够被电子地散布到通常的聊天消息中,和/或作为开始消息,结束消息被插入,或上述的全部。在这个特殊的应用中,为了捕获不希望的内容(例如商业广告节目,推销做广告,或广告)并且将其加标签为垃圾邮件,过滤器能被训练为自动过滤特殊的消息内容(文本和图像)。
在本发明中,术语“收件人”指引入消息或邮件内容的地址。术语“用户”可能指收件人或发件人,这由上下文而定。例如,用户可能是指发送垃圾邮件的电子邮件用户,和/或用户可能是指接收垃圾邮件的电子邮件收件人,这由上下文和术语的应用而定。
网际协议(IP)地址是一个32比特数字,典型地代表国际互联网上的一台机器。在当两台机器通信时使用这些数字。典型地以“XXX.XXX.XXX.XXX”的形式代表了它们,其中每个XXX在0和255之间。不幸地是,IP地址很难记忆。因为这个原因,就创造了“域名”和“主机名”协定。“域名”是指国际互联网上的一组机器的名字(可能是一台机器),并且典型的形式为“x.com”,或“y.edu”,或“courts.wa.gov”。
一个正式域名(FQDN)是国际互联网上的一台特殊的机器,例如“b.x.com”或“c.y.edu”或“www.courts.wa.gov”,域名部分分别是“x.com”或“y.edu”或“courts.wa.gov”。“b”“c”和“www”部分分别被称为FQDN的主机名部分。通常,IP地址能被用在域名可能使用的任何情形中(例如“DN/IP”说明两种可能性存在)。而且通常,IP地址能被用在FQDN可能使用的任何情形中(例如“FQDN/IP”说明两种可能性存在)。一个电子邮件地址由用户名和域名或IP地址(DN/IP)组成,例如“a@x.com”或“a@1.2.3.4”。在两个例子中,用户名都是“a”。
统一资源定位器(URL)典型的形式是″服务名称:FQDN/IP/url-path。″例如,“http://www.microsoft.com/windows/help.htm”。“http”部分是服务器名。“/www.microsoft.com”部分是FQDN,以及“windows/help.htm”是URL路径。这是某种URL的简化,但是对本发明来说已经是足够了。
参考图1,示出了根据本发明的一个方面的特征提取和训练系统100的大体的框图。特征提取和训练系统100包括处理输入消息110以便从消息中提取特征数据。这种特征能够从至少一部分源和/或者目的地信息中提取,这些信息是在消息和/或者其变型中提供。尤其是,一个或者多个输入消息110能够通过系统100经由消息接收部件120被接收。消息接收部件120能够被定位在一个电子邮件或者消息服务器上,例如,用来接收输入消息110。尽管某些消息(例如,至少一个)对于现存的过滤器(例如,垃圾邮件,父控制过滤器)来说是易于攻击的,因此转向了一个垃圾箱或者垃圾邮件文件夹中,至少部分的源和/或者目的地数据能够被提取或者被理解,用于与机器学习系统或者填充一个特征列表有关的用途。
消息接收部件120能够将输入消息,或者其中的一个子集传递到特征提取部件130。该特征提取部件130能够从接收的消息110中提取数据,以便产生特征集以方便过滤器训练和最终的垃圾邮件检测。从消息中提取的数据或者特征与在其中被发现的和/或者嵌入的源和/或者目的地信息相关。数据或者特征的例子包括发件人的IP地址,回复的电子邮件地址,cc:(例如,副本)电子邮件地址,各种URL(包括基于文本的链接,基于图像的链接,以及以文本形式的URL或者其中的一部分),非长途免费电话号码(例如,尤其是一个区号),长途免费的电话号码,邮寄到:电子邮件地址链接,文本形式的电子邮件地址,在SMTPHELO命令中的FQDN,SMTP MAIL FROM地址/返回路径地址,以及/或者至少任何上述中的一部分。
特征提取部分130能够执行任何合适的数字处理,以便从消息110中提取各种特征集,随后在机器学习系统中使用。另外作为选择,特征集能被用于填充用于其它过滤器训练技术的列表。
例如,诸如a.x.com这样的FQDN能够被翻译成一般被称作IP地址的号码。IP地址典型地以有点的十进制的形式被观察,包括4个数字数据块。每个数据块分别由小数点或者点分开,而且每个数字数据块的范围是从0到255,其中每个号码的变化对应于不同的英特网名称。例如,a.x.com可能被翻译为123.124.125.126,而121.124.125.126可能代表qustuv.com。因为数字不如单词容易识别或者记忆。IP地址通常通过它们各自的FQDN来被查阅。以有点的十进制格式表示的相同的IP地址也能够以可选择的下面将要描述的形式被表示。
根据本发明的一个方面,特征提取部件130能够集中到包括在消息110中的发件人IP地址。发件人IP地址至少部分地基于发件人IP信息。一般来说,在英特网上的邮件发送是从服务器到服务器的传送,有时只包括两个服务器(例如,一个发件人和一个收件人)。更罕见的一种情况是,客户机能够直接发送到一个服务器。在某些情况下,能够包括更多的服务器,例如,由于防火墙的出现,邮件或者消息能够从一个服务器被发送到另一个服务器。尤其是,一些服务器能够被定位在防火墙之内,因此这些服务器就仅能够与防火墙另一侧的指定的服务器进行通信。这就引起了消息从发件人到收件人过程中,消息要经过的跳数的增加。接收线路包含IP地址,以方便跟踪消息的路径来确定消息从哪里发起。
当消息110从服务器到服务器传播时,每个被联系的服务器将它从其接收消息的IP地址识别预先考虑到发送字段(即,接收的字段),也预先考虑服务器被断定的FQDN的名字,该服务器正在与它对话。该FQDN由发送服务器通过SMTP协议的HELO命令告诉接收服务器,因此如果发送服务器在该体系结构的外部时,那么收到的FQDN就不可信。例如,该消息从具有5个预先考虑的IP地址和FQDN的线路中被接收五次,因此表明其已经通过六个不同的服务器(即已经通过5次),这些线路在相反的顺序中被预先考虑(即最近的开始)。然而,每个服务器都具有修改任何较低的(早期预先考虑的)线路的能力。当消息已经在多个服务器之间传播时,这可能尤其有问题。因为每个中间的服务器都能够改变任何早期所写的(较低的)发件人线路。垃圾邮件制作者能够预先考虑消息的发件人的伪IP地址,以伪装发件人的IP信息或者垃圾邮件消息的发件人。例如,垃圾邮件消息可能最初出现,好像其从trusteddomain.com被发送,因此错误地显示了到收件人的消息的真正的来源。
对于垃圾邮件软件来说,容易地识别体系结构之外的IP地址是重要的,该IP地址被发送到体系结构内部的服务器上。由于该IP地址被接收服务器写入,所以在该体系结构内部,其可能被作为一个正确的IP地址来对待。所有其它的在该体系结构外部的IP地址都不被信任,由于它们被在体系结构之外的服务器写入,因此,很可能被修改。可能存在许多包括在到接收体系结构的路径中的发送服务器的IP地址,但是由于仅有一个地址能够被信任,所以我们仅参考可信赖的这一个作为“发件人”的IP地址。
对于垃圾邮件过滤软件来说,一种用于找到发件人IP地址的方法是弄清楚在一个体系结构处的邮件服务器的配置。一般来说,如果一个服务器知道了哪一台机器通过其它的在状态中的机器,则其能够确定发件人的IP地址。然而,描述服务器的配置,尤其对于安装在email客户机上的垃圾邮件过滤软件来说,不是很方便的。一种可替换的方法包括利用MX记录来确定消息的真正来源。MX记录列表,用于每个域名,用于该域名的邮件收件人的FQDN。通过发件人的列表能够跟踪回一个IP地址,,直到发现一个IP地址为止,该IP地址对应于一个FQDN,该FQDN对应于在域名MX记录中的一个实体。机器接收的IP地址是发件人的IP地址。想像1.2.3.101是用于x.com的唯一的MX记录。然后,通过找到从1.2.3.101接收的线路,能够知道对应于x.com的输入邮件服务器的下一个线路,因此在该线路中的IP地址对应于发送到x.com的IP地址。
下表描述了一种示例性的分析,正如讨论先前确定的消息的真正来源一样:
行 | 注释 |
Received:from a.x.com({1.2.3.100})by b.x.comTue,April 22,2003 13:11:48-0700 | 在x.com的内部 |
Received:from mailserver.x.com({1.2.3.101})byb.x.com Tue April 22,2003,12:11:48 -0700 | 1.2.3.101是用于x.com的一条MX记录,所以我们知道下一条线路是x.com的内部的第一条 |
Received:from outside.com({4.5.6.7})bymailserver.x.com Tue April 22,200311:11:48-0700 | 这是所接收的x.com的消息:这是最后一条可信的线路,使用4.5.6.7作为发件人的IP地址 |
Received::from trustedsender.com({8.9.10.11})byoutside.com Tue April 22,2003,10:11:48-0700 | 通过服务器在4.5.6.7构造的线路可能是假的 |
当前,没有用于列出输出邮件服务器的可接受的标准,例如,如果该启发式的邮件服务器可能失败的话,在一个体系结构之内的IP地址不同于在一个体系结构之外的那些IP地址,或者如果一个体系结构从MX记录中列出的机器直接发送邮件到MX记录中列出的另一个机器。此外,在特殊的情况下,即如上所述发件人的IP被发现是在体系结构的内部,如果在MX记录中的一个机器可能发送到MX记录中的另一个机器时,如上所述的过程被继续。另外,某个IP地址可能作为内部的IP地址被检测(因为它们是通过172.31.y.z,或者通过192.16 8.0.z的形式10.x.y.z或者172.16.y.z,一种仅用于内部IP地址的形式):任何到达体系结构内部的IP地址都能够被信任。最后,如果接收线路的形式是“从a..x.com[1.2.3.100]”并且a.x.com的IP地址的查找输出1.2.3.100,或者反向的1.2.3.100的IP地址的查找输出a..x.com,如果x.com是一个体系结构,那么下一个线路也可能是可信任的。
通过使用这些观察,找到发件人的IP地址通常是可能的,示例性的伪代码如下:
bool fFoundHost InMX; <dp n="d9"/> if(external IP address of MX records matches internal IP address of MX records) { fFoundHost InMX=FALSE;#it’s worth looking for }else{ fFoundHost InMX=TRUE;#it’s not worth looking for pretend we already fbund it } for each received from line of the form Received from a.b.c [i.j.k.l]{ ifi.j.k.l in MX records of recerver domain { fFoundHost InMX=TRUE; continue; } if not fFoundHost InMx { #Has not yet gone through an MX record,must be internal continue;; } ifi.j.k.l is of form 10.x.y.z or 172.16.y.z to 172.31.y.z or 192.168.0.z to 192.168.255.z { #Must be internal continue; } if DNS lookup of a.b.c yields i.j.k.l and b.c is receiver domain { <dp n="d10"/> #Must be internal continue; } Output sender’s alleged FQDN a.b.c and sender’s actual IP address i.j.k.k } If we reach here,then Error:unable to identify sender’s alleged FQDN and sender’s actual IP address.
利用发件人的IP地址,同时利用其它的源和目的地特征能够做很多事情。首先,它们能一律被加到恶意发件人的列表中,有时候称为Black列表。Black列表实际上能够被用于过滤,阻止,或者重新定向一个不可信赖的消息到一个适当的文件夹或者它们能够被进一步调查的一个位置。
其它类型的列表也可能被产生并且作为过滤器在基于结构的客户机或者服务器上被使用。在客户机结构中,用户能够通知客户机电子邮件软件,他将从哪里接收邮件(例如,邮件列表,个人等)。对应于可信的电子邮件地址的记录的一个列表要么自动要么手动通过用户产生。因此,想像具有电子邮件地址‘b@zyx.com’的发件人发送给用户一个电子邮件消息。该发件人的电子邮件地址b@zyx.com包括用户名‘b’,以及FQDN/IP‘zyx.com’。当客户机从发件人(b@zyx.com)接收输入消息110时,它能够检索一个用于用户电子邮件地址的可信的发件人列表,以确定是否用户已经表明‘b@zyx.com’是一个有效的而且可信的地址。对于服务器结构来说,该列表能够被直接定位在服务器上。因此,当消息到达消息服务器时,它们的各个特征(例如,发件人的IP地址,在MAILFROM或者HELO字段中的域名,以及其它的源和/或者目的地信息)能够与定位在消息服务器上的列表相比较。根据基于客户或者基于服务器的传送协议,确定是来自有效发件人的消息能被传送到所希望的收件人。然而,确定包括了在有问题的或者不好的特征列表中的源或者目的地特征的消息,能够被移到垃圾邮件文件夹中以便删除,或者相反被特别地处理。
作为一种填充可信的或者有害的源特征列表的选择,发件人的源特征(例如,IP地址,合法的From地址)能够被提取作为一个或者多个特征,而且日后与机器学习技术一同用于过滤器的建立和/或者训练。
IP地址能够从一个消息首部的任何部分中的email地址(例如,在发送者的地址或者答复地址中有关FQDN的IP查询)导出,或者从嵌入到消息实体中的一个URL链路的域名部分的IP地址查询中导出,或者直接从IP地址中导出,如果其作为URL的FQDN/IP部分出现的话。此外,如后面将要描述的,IP地址具有若干种属性,其中的每一种属性能够被用作机器学习系统的特征,或者用作用户填充列表的一个元素。因此,在第二种方法中,特征提取部件130能够采用IP地址的多个子部分来产生附加的特征。
如上所述任何特征的组合都能够从各个输入消息110中提取。典型地,尽管所有的消息都能被使用,但是消息能够被随机地,自动地,和/或者手动地选择来参与到特征提取中。已提取的特征集实际上被应用于一个过滤训练部件140,诸如机器学习系统或者任何其它的建立和/或者训练象垃圾邮件过滤器这样的训练过滤器150的系统。
现在参考图2,根据本发明的一个方面示出了一个特征提取系统200,该系统易于摆脱一个或者多个输入消息210的特征的困惑,或者规范一个或者多个输入消息210的特征。最后,至少部分地基于标准化的一个或者多个特征来建立一个过滤器。系统200包括一个特征提取部件220,例如,正如所示出的,其要么直接地要么间接地借助于一个消息收件人(图1)来接收一个输入信息210。根据用户的优先选择,选择用于特征提取的或者在特征提取中的输入消息能够受系统200支配。作为选择,对于特征提取来说,实际上所有的输入消息都可能是有效的。
特征提取包括抽取一个或者多个与来自消息210的源和/或者目的地信息相关联的特征230(也被称为FEATURE1232,FEATURE2234,和FEATUREM236,其中M是大于或等于1的整数)。源消息可能与表明消息的发送者的元素,服务器域名,以及相关的规定了消息来源的标识信息相关。目的地信息可能与的一个消息的元素相关,该消息表明收件人发送其对消息的响应给谁或者到哪里。能够在消息的首部以及消息体中发现源和目的地信息,对于消息收件人来说要么是可见的要么是不可见的。
由于垃圾邮件制作者注意去伪装并且/或者迷惑它们通过传统的垃圾邮件过滤器检测的能力,所以系统200包括一个特征标准化部件240,其易于摆脱一个或者多个被提取的特征230的困惑,或者至少其中的一部分。该特征标准化部件240能够处理和/或者分解已提取的特征230,诸如通过分析已提取的特征230(例如,FQDN-查阅数据块的目录和MX记录,和/或者根据其当前的格式来翻译FQDN),而且将它们与现存的垃圾邮件制作者列表,非垃圾邮件制作者,以及/或者父控制列表的数据库作一个比较。在正如下文中图4所讨论的某些情况中,诸如当已提取的特征是一个URL时,前缀和/或者后缀可能也被删除以便于规范化该特征,并且识别URL是否指向垃圾邮件制作者的网站,或者指向一个合法的源。
一旦特征被规范化,至少250的一个子集能够通过诸如机器学习系统这样的训练系统260来使用,以建立和/或者更新一个过滤器270。例如,该过滤器能够被训练用于一个垃圾邮件过滤器。此外,能够以肯定的特征来建立并且/或者训练过滤器,诸如表明非垃圾邮件来源(例如,发件人的From电子邮件地址,发件人的IP地址,嵌入式的电话号码,以及/或者URL)这样的特征,以及/或者非垃圾邮件发件人,以及以否定的特征,诸如识别并且与一个垃圾邮件制作者相关的特征。
作为选择,特征集能够被用于填充一个新的或者加入到一个现存的垃圾邮件特征列表280中。其它的列表也能够被产生以对应于特定的被提取的特征,诸如好的地址的列表,有害地址的列表,好的URL的列表,有害的URL的列表,好的电话号码的列表,以及有害的电话号码的列表。好的特征列表能够识别非垃圾邮件制作者,过去的合法的发件人,和/或者具有较高可能性的非垃圾邮件(例如,90%的机会不是垃圾邮件来源)的发件人。相反,有害的特征列表可能对应于垃圾邮件制作者,潜在的垃圾邮件制作者,以及/或者具有相对高的可能性的垃圾邮件(例如,大约90%的垃圾邮件来源)的发件人。
现在参考图3-6,其中根据本发明的若干个方面示出了能够分别从IP地址,FQDN,电子邮件地址和URL中导出并提取的示例性的特征,以方便检测和阻止垃圾邮件。
图3描述了根据本发明一个方面的IP地址300的示例性细分类。在以虚线的十进制格式(每4个数据块等于3位数,其中每个数据块通过周期来分开,而且其中3位数的每个数据块是在0到255之间可除尽的任何数字)表示时,IP地址300是32比特长,并且定位在数据块(例如,网络数据块)中。这些数据块被分配为诸如等级A,等级B和等级C这样的等级。每个数据块包括一组IP地址,其中每个数据块的IP地址的数量根据种类而不同。也就是说,可能存在或多或少的分配给每个数据块的地址,这取决于种类(即,A,B或者C)。数据块的尺寸通常是2的幂次,并且在同一个数据块中的IP地址的集合将分享最初的k个二进制数字,而且不同于最后的32-k(例如,32减去k)个二进制数字。因此,根据每个数据块所分得的最初的k个比特,每个数据块都能够被识别(数据块ID302)。为了确定与特定IP地址300相关联的数据块ID302,用户能够查阅诸如arin.net这样的数据块的目录。此外,数据块ID302能够被提取并且用作一个特征。
然而,在某些情况下,数据块ID302不能被容易地确定,甚至通过arin.net,因为在一个数据块中的IP地址的组合能够被分开出售,并且重复出售多次。在某些情况下,在数据块ID302处,对于各个IP地址来说,用户或者提取系统能够作出一种或者多种推测。例如,用户能够提取至少最初的1个比特304,最初的2个比特306,最初的3个比特308,最初的M个比特310(即,M是大于或者等于1的整数)和/或者等于至少最初的31比特312作为分开的特征,对于随后通过一个机器学习系统和/或者作为有关特征列表(例如,好的特征列表,垃圾邮件特征列表等等)的元素使用来说。
例如,实际上,IP地址最初的1比特能够被提取并用作一个特征,来确定是否该IP地址指向一个垃圾邮件制作者或者非垃圾邮件制作者。来自其它IP地址的从其它消息中提取的最初的1比特能够被比较,以方便确定至少一个数据块ID。然后,识别至少一个数据块ID能够帮助鉴别该消息是否来自一个垃圾邮件制作者。此外,共享最初M个比特的IP地址能够与它们的其它被提取的特征相比较,以确定该IP地址是否来自合法的发件人和/或者相应的消息是否是垃圾邮件。
IP地址也能够按照体系(314)来排列。也就是说,一组高位比特可以被定位到一个特定的国家。那个国家能够定位一个子集到ISP(英特网服务提供商),以及该ISP可以定位一个子集到一家特定的公司。相应地,不同的级别对于同一个IP地址来说是有意义的。例如,来自一个定位在韩国的IP地址能够在确定IP地址是否与垃圾邮件制作者相关中使用。如果该IP地址是定位到以严格地政策来反对垃圾邮件制作者的ISP的数据块的一部分,则这也可能在确定IP地址与一个垃圾邮件制作者不相关的过程中是有用的。因此,通过使用IP地址的最初的1-31个比特中的每一个,结合IP地址的至少一个子集的排列体系314,一个用户能够自动的在不同的级别得到信息,而实际上不知道IP地址被定位的方式(例如,不知道数据块ID)。
除了上面讨论的特征之外,一种稀有的特征316(例如,特征的出现不是很普遍的)能够通过运行适当的运算和/或者使用比较频率和计数的统计数据来确定,其中例如在输入消息的抽样中出现的特征。实际上,不常用的IP地址300可以是被用于发送电子邮件的拨号上网线路的一个例子,其通常由垃圾邮件制作者使用。垃圾邮件制作者尝试经常修改它们的身份和/或者位置。因此,一个特征可能经常或者不经常是有用的信息。因此,稀有的特征316能够被用作机器学习系统的一个特征和/或者作为至少一个列表(例如,稀有特征列表)的一部分。
图4示出了FQDN400的示例性特征的细分类,诸如用于Example.b.x.xom。例如,FQDN400能够从一个HELO域中提取(例如,发件人的合理的FQDN),并且典型地包括一个主机名402,和域名404。主机名402是指一个特定的计算机,其是例子中的“b”。域名404是指至少在英特网上的一个机器或者一组机器的名字。在该实例中,“x.com”表示域名404。FQDN400体系的细分类由406表示。尤其是,B.X.com408(整个FQDN400)能被部分地剥离到X.com410(部分FQDN),然后被剥离到COM412(部分FQDN),由此每个FQDN部分都能被用作一个特征。
某些特征,诸如从信息中接收的特征,首先以IP地址的形式存在。因此,将FQDN400转换到IP地址300可能是有用的,该IP地址又能够细分为另外的特征(如图3所示),因为创建一个新的主机名和域名是相对容易的,但是获得一个新的IP地址是相当困难的。
不幸的是,域的主人显然能够使不同的机器全部映象到同一个位置。例如,命名为“a.x.com”的机器的主人可能与“b.x.com”的主人是一样的,其可能是“x.com”的同一个主人。因此,垃圾邮件制作者能够容易地误导一个传统的过滤器以确信该消息是来自FQDN400“b.x.com”而不是来自域404“x.com”,因此实际中允许消息通过垃圾邮件过滤器,域404“x.com”已经表明了该消息是垃圾邮件或者很可能是垃圾邮件。因此,在提取消息的源和/或者目的地信息时,剥离该地址以简化域名404是有用的。作为选择,整个FQDN400能够作为一个特征被提取。
在某些情况下,附加的来源是有效的,诸如父控制系统。这种资源通常能够为主机名字和/或者URL分配一种“类型”或者质量评估,诸如色情或者暴力。通过使用这样一种资源,该提取的信息能够进一步通过“类型”来分类。该特征的特征类型414连同建立和/或者学习与垃圾邮件相关的改进的过滤器一起,能够被用作附加的特征。作为选择,能够产生对应于不同的先前已经识别的特征类型的列表。特征类型414可能包括,但是不被限制为,性和色情相关的特征,种族和/或者憎限的语言相关的特征,物理增加特征,收入或者财务解决方案特征,家庭购买力特征等,其一般识别消息的主题。
最后,稀有的特征316或者特征类型(见上文中的图3)可能是如上在图3中所讨论的另一个特征。例如,从一个消息中提取的诸如来自FQDN400“b.x.com”的主机名“B”402这样的特征,可能是特征类型的一般的例子:色情资料。因此,当该特征从消息中提取并且发现了关于色情资料特征的列表时,可能得出结论即该消息很可能是垃圾邮件,或者对于所有的年龄是不合适/不恰当的,或者构成了成人内容(例如,成人电视节目),等等。因此,每个列表可能包括最普通的特定类型的特征。作为选择,对应的IP地址通常可能在垃圾邮件消息中被发现,因此指定作为垃圾邮件的公共的特征。此外,特征的通用性和/或者稀有性能够被用作一个用于机器学习或者其它基于系统的规则的单独的特征。
图5示出了电子邮件地址500的示例性特征的细分类:a.@b.x.com,其包括FQDN400以及少量附加的特征,诸如用户名502。该email地址500能够从From字段中提取,cc(副本)字段和消息的响应字段,以及来自任何的邮寄到:在消息(例如,邮寄到:链接是一种特定种类的链接,产生到一个特定地址的邮件)体中的链接,以及,如果有效,则来自在SMTP协议中使用的MAIL FROM命令。电子邮件地址500也能被嵌入到消息的文本中。在某些情况下,在响应该消息时,该消息的内容可能指导收件人使用“答复所有人”的功能。在这种情况下,在cc字段中的地址和/或者至少这些地址中的一部分包括在也将被答复的“to”字段中(如果超过一个收件人被列出)。因此,这些地址中的每一个能够被提取作为一个或者多个特征,以便于识别和阻止垃圾邮件制作者。
Emai地址500‘a.@b.x.com’能够被分解为各个要素或者子部分,而且这些要素能够被提取并用作特征。另外,电子邮件地址包括一个用户名称502和FQDN504(例如,见图4中的FQDN400),其甚至能够被进一步分解到另外的特征中。出于几种实际的原因,诸如使用,识别和承认,电子邮件地址通常使用FQDN而不是IP地址被标记。
在当前的实例中,‘a.@b.x.com’包括用户名502‘a.’。因此,‘a.’能够被提取作为一个特征。同样,FQDN504‘b.x.com’能够从电子邮件地址中提取作为至少一个另外的特征。电子邮件地址500的FQDN504部分能够通过一个父控制系统,以方便确定特征类型414,其在上面的图4中作了详细的描述。因此,与电子邮件地址500的FQDN部分相关的特征类型能够被用作另外的特征。
另外的电子邮件地址,垃圾邮件制作者通常通过URL来联系。图6根据本发明的一个方面,描述了一种示例性的URL600(例如,x.y.com/a./b/c)连同多个被提取的特征。URL600能够被嵌入到消息的文本中,和/或者作为消息文本的一个图像。例如,垃圾邮件消息可能包括到网站的指针,因此将收件人引到垃圾邮件制作者的网页或者相关的站点。
URL可能以与IP地址同样的方式来摆脱困惑。最初,诸如http://,http s://,ftp://,telnet://这样的任何的前缀(服务名称)能够在URL600摆脱困惑之前被删除。另外,如果“@”符号(例如%40是十六进制的符号)出现在URL之中,则在前缀(例如http://)和“@”符号之间的任何东西可能在规范化该URL400之前被删除。在前缀和“@”符号之间插入文本可能是另外一种形式的欺骗,这种欺骗是由垃圾邮件制作者用来迷惑消息收件人被引入的真实的网页位置。
例如,http://www.amazon.com@121.122.123.124/in fo.htm被送至消息收件人,好像该网页被定位在www.amazon.com。因此,收件人可以更加倾向于信任该链接,尤其重要的是消息的发送者。相反,真正的网页定位在121.122.123.124,其实际上对应于与垃圾邮件相关的网页。然而,在某些情况下,合法的发件人可以结合鉴权信息,诸如在URL400部分的登录名和密码,以方便自动登录。
一旦规范化并且摆脱了困惑,URL600实际上就能够表达为x.y.com/a/b/c,其中x.y.com630是机器(FQDN)的名字,而a/b/c(例如后缀)是在机器上文件的位置。如果x.y.com/a/b/c600识别一个垃圾邮件制作者,则x.y.com/a/b610和x.y.com/a620很可能识别相同的或者相关的垃圾邮件制作者。因此,URL600的结束部分或者路径每次都能被剥离一部分,以获得用于机器学习系统或者列表的附加的特征。这就使得对于垃圾邮件制作者来说,建立多种不同的位置就变得更加的困难,这些位置实际上都是以某种没有注意到的模式的方式指向它们。
当后缀被剥离时,FQDN630也能够进一步分析以获得附加的特征,正如先前在图4中所讨论的。此外,FQDN630也能被转换为一个IP地址,正如在图3中所描述的。因此,各种与IP地址相关的特征也能被用作特征。
以IP地址而不是FQDN(例如,打点的十进制形式)来编写某些URL,诸如nnn.nnn.nnn.nnn/a./b/c。这些后缀能够从“c”开始逐级逐次被删除,最终的(部分的)URL能够被用作一特征(例如,nnn.nnn.nnn.nnn/a/b,nnn.nnn.nnn.nnn/a,nnn.nnn.nnn.nnn都是可能的从URL中以打点的十进制形式来提取的特征)。接下来,IP地址(例如,没有后缀和前缀)能被用作一个特征。然后,其能被映射到网络数据块。如果该网络数据块不是可确定的,则可能作出多种推测,使用前1,2…中的每一个,直到IP地址的前31个比特为止作为独立的特征(见图3)。
除了打点的十进制格式以外,该IP地址能够以双字的格式(例如,在基数10中的两个每个16比特的二进制字),八进制的格式(例如,基数是8)以及十六进制的格式(例如,基数是16)来表达。实际上,垃圾邮件制作者能够混乱一个IP地址,一个URL,一个MAILTO的链接,以及/或者例如,通过使用%nn符号(其中nn是一对十六进制数字)来编码域名部分的一个FQDN。
某些URL可能包括可以用于干扰或者欺骗用户的重定向器。重定向器是在URL的IP地址中跟随一个“?”的参数或者参数集,该URL指示一个浏览器重新将其定向到另一个网页。例如,该URL可以以“www.intendedpage.com?www.actualpage.com”出现,其中浏览器实际上指向″www.actualpage.com″,而且加载该页而不是预料中的“www.intendedpage.com”页。因此,包括在URL中的参数也可能考虑被提取作为特征。
现在将通过一连串的动作来描述根据本发明的各种方法。应当理解本发明没有被动作的顺序所限制,从这里所描述和示出的可知,根据本发明的一些顺序可能以不同的顺序出现,或者与其它动作并行出现。例如,本领域的普通技术人员将理解一种方法可选择性地被表示为一系列相关联的状态或者事件,诸如在正式的图中。此外,不是所有的示例性的动作都可能需要执行根据本发明的方法。
参考图7,示出了示例性过程700的流程图,该过程便于根据本发明的一个方面来训练过滤器。过程700可能以在710处接收一个消息(例如,至少一个消息)开始。该消息能够通过一个收件人来接收,例如,其中一个现存的过滤器(例如,一个垃圾邮件过滤器)能够分类该消息可能是垃圾邮件或者不可能是垃圾邮件,至少部分地基于一组提前通过过滤器学习的标准。该消息能够被分析以便在720处从中提取一个或者多个特征。在725(在下文的图11中)处进一步详细地描述了特征的提取。特征的实例包括定位在接收字段,答复字段,cc字段,邮寄到(mailto)字段,MAIL FROM SMTP命令,HELO字段,嵌入到文本中的或者作为一个图像的URL地址,和/或者非长途免费的电话号码(例如,映射到地理上的区域的电话区号),以及消息体内容部分中的信息(例如,发件人的IP地址)。
所提取的特征(和/或者规范化)以及消息的分类(例如,垃圾邮件或者非垃圾邮件)能够在730处被加到一组训练数据中。对于所有其它的输入消息来说,在740,上述所有的(例如,710,720和730)实际上都能被重复,直到它们能够被相应地处理为止。在750,所出现的特征可能是有用的,或者最有用的特征能够从训练集中选择。这种选择的特征能够被用于训练一个过滤器,诸如机器学习过滤器,例如,在760处借助于机器学习算法。
正如图8中通过一个示例性的方法800所描述的,一旦被训练,一个机器学习过滤器就能够被用于方便垃圾邮件的检测。该方法800以在810接收一个消息开始。在820处,一个或多个特征从该消息中被提取,正如在下文图11中所描述的。例如,在830,被提取的特征通过一个过滤器,该过滤器通过一个机器学习系统来训练。接下来,从机器学习系统中获得一个诸如“垃圾邮件”、“非垃圾邮件”、或者消息可能是垃圾邮件的概率这样的判定。一旦获得有关消息内容的判定,就能够获得合适的动作。动作的类型包括,但不被限制为,检测消息,将消息移动到一个特殊的文件夹中,隔离该消息,以及允许收件人访问该消息。
作为选择,基于动作的列表能够以从消息中提取的特征来执行。参考图9,示出了示例性过程900的一个流程图,用于建立并且填充列表,至少部分地基于所提取的特征和它们在所接收信息中的出现,这些信息被分类作为垃圾邮件或者非垃圾邮件(或者可能是垃圾邮件)。过程900通过接收一个消息开始。接下来,在920处提取一些感兴趣的特征,诸如发送IP地址的消息。例如,在接收了消息之后的某个时间,通过现存的过滤器,该消息能够被分为垃圾邮件或者非垃圾邮件。在930处,根据消息的分类(例如,垃圾邮件或者非垃圾邮件)能够增加特征的计数。这会在940处重复直到实际上所有的消息都被处理为止(例如,在910,920和930处)。此后,在950处,能够创建一个特征列表。例如,能够为IP地址创建一个特征列表,该IP地址90%是好的(例如,输入消息的90%是非垃圾邮件)。同样,另一个用于90%都是有害(垃圾邮件)的发件人IP地址的列表也能被创建。用于其它特征的列表也能够以同样的方式创建。
应当理解这些列表可能是动态的。也就是说,当处理另外的新的消息组时,它们可能被更新。因此,对发件人的IP地址来说,首先发现好的列表是可能的;然后,在之后的某个时间,发现一个不好的列表,就象对于某些垃圾邮件制作者来说,实际上首先发送好的邮件(例如,获得“可信的”过滤器以及收件人),然后才开始发送垃圾邮件是很普遍的。
可能以不同的方式来利用这些列表。例如,它们可能被用于产生通过机器学习系统使用的训练集,以便训练过滤器。这通过图10中描述的示例性的过程1000可以得到。根据图10,过程1000能通过在1010上接收一个消息开始。该消息能被分类,例如,分为垃圾邮件或非垃圾邮件。在1020上,包括但不限于发件人的IP地址的特征能够从该消息中被提取。在1030上,被提取的特征和消息的分类被加到一个训练集上,其随后被用于训练机器学习系统。
接下来,在1040上,与发件人的IP地址在其上的特殊列表相符合的一个具体特征被包括在训练集中。例如,如果发件人的IP地址在“90%好”列表上,则被加到训练集的特征将是“90%好列表”。在1050上,前述的步骤(例如1010,1020,1030,和1040)能被重复来随后处理所有的输入消息。对于过滤器训练的目的来说,因为这些特征可能比其它的特征更有用。最有用的特征部分地基于1060上的用户优先权被选择,并且被用于通过使用机器学习算法来训练诸如垃圾邮件过滤器这样的过滤器。
此外,例如IP地址的动态列表能被构造以用于与测试消息,新消息,和/或可疑的消息相比较。然而,在这种情况中,IP地址本身不是特征。而IP地址的属性是特征。作为选择,这些列表能以其它方式被利用。尤其是,例如,可疑IP地址的列表能被用来将发件人标记为有害的,并且相应地以可疑的方式来处理他们的消息。
现在转到图11,示出了与上述图7-10分别描述的过程700,800,900和1000相结合,从消息中提取特征的示范性方法1100的流程图。方法1100能够在接收的IP地址中开始,其中的一部分被提取并且在1110上被规范化。而且在1110上,为了从接收的IP地址中提取附加的特征,该IP地址可能经历比特方式处理(例如,如图3中讨论的,前1个比特,前2个比特,直到前31个比特为止)。此外,发件人的宣称的主机名也可能在1110上被提取。规范化的被接收的IP地址和发件人主机名特征现在能被用作计算机学习系统或相关的训练系统的特征。
随意地,在1120上,“From”行的内容能被提取和/或规范化,并且随后被用作特征。在1130上,“MAIL FROM SMTP”命令的内容同样能被提取和/或被规范化用作特征。
然后方法1100能继续寻找其它的可能被包括在消息中的特征。例如,它可以随意地提取和规范化(如果必要)1140上的答复字段中的内容。在1150上,cc字段的内容能随意地被提取或被规范化来用作至少一个特征。在1160上,非长途的免费电话号码从消息体中能被随意提取并且也被指定为特征。非电话的号码对于识别垃圾邮件制作者来说可能是有用,因为区号或电话号码的前三位数字能被用来映射出垃圾邮件制作者的位置。如果不止一个非长途的免费电话号码存在于消息中,那么每个号码都能被提取并且在1160上用作分离的特征。
同样地,一个或多个URL和/或MAILTO链接或其中的部分,能分别在1170和1180上被随意地提取和/或规范化。尤其是,URL可能经历路径剥离(例如URL的文件名部分),其中附加在URL的FQDN末端的一个或多个后缀可能被剥离。这就可能依赖于路径中的后缀的数字,导致一个或多个部分URL。根据本发明,每个部分URL能被用作分离的特征。
方法1100能继续扫描消息体来查找其它的电子邮件地址,也查找关键字和/或短语,其在垃圾邮件消息中比在合法消息更可能被找到,反之亦然。每个字或短语能被提取并且用作计算机学习系统的特征或列表单元的特征,或两者。
如前面所讨论,在Internet上被发送的消息可能是从服务器到服务器发送,少到只包括两台服务器。与消息有联系的服务器的数量会由于防火墙和相关的网络结构的出现而增加。当消息从服务器到服务器被传送时,各个服务器预先考虑其从字段中接收的IP地址。每个服务器也具有修改任何容易考虑的接收地址的能力。不幸的是,垃圾邮件制作者能够利用这种能力的优点,而且能够进入在接收字段中的伪装的地址,以区分它们的位置和/或者身份,并且误导收件人有关消息的来源。
图12示出了一个用于在输入消息的接收线路中区分合法的和伪装的(例如,垃圾邮件制作者)预先考虑的服务器IP地址的示范性过程1200的流程图。以它们被加入的顺序(例如,第一个是最近被加入的)能够检查该预先考虑的接收地址。因此,用户能够通过发送服务器IP地址的链接来追溯,以在1210确定最后确信的服务器IP地址。在1220处,最后确认的服务器IP地址(完全在体系结构之外的那一个)能够被提取作为将被机器学习系统使用的特征。任何其它的在最后确信的IP地址之后的IP地址可能是有疑问的,不可靠的,而且可能被忽略,但是能够与好的(大部分)IP地址的列表和(大部分)不好的IP地址的列表相互比较。
在1230处,发件人合理的FQDN也能够被提取以便于确定发件人是否是合法的或者是一个垃圾邮件制作者。尤其是,合法的FQDN能够通过域名剥离而被细分类,以产生一个或者多个部分FQDN。例如,想像合法的FQDN是a.b.c.x.com。这个合法的FQDN将以下面的方式被剥离以产生:b.c.x.com→c.x.com→x.com→com。因此,每个FQDN字段部分以及整个FQDN能够被用作一个独立的特征,以帮助确定伪装的和合法的发件人。
本发明也可以使用父控制系统。父控制系统能够至少部分地基于消息的内容,将一个消息分为不适合的,并且给出为什么不适合的原因。例如,一个URL可以被嵌入到一个消息中作为可点击的链接(要么基于文本要么基于图像),或者作为消息体中的文本。该父控制系统能够将嵌入的URL和一个或者多个其所存储的好的和/或者有害的URL列表相比较,以确定该消息的正确分类,或者利用其它的用于父控制分类的技术。然后,该分类能够被用作一个附加的特征,要么在机器学习系统中要么在一个特征列表中,或者在二者中。
在图13中,示出了一个将至少父控制系统的一个方面结合到本发明中的示范性过程1300的流程图。在1310接收了一组消息之后,该消息能够被扫描用于URL,邮件发送到的链接,或者类似于邮件发送到的链接的其它文本,一个URL,或者在1320中的URL的一部分。如果该消息没有出现来获得1330处的任何的上述内容,则过程1300返回到1310。然而,如果该消息没有表明这些,则至少被检测符号的一部分能够通过至少一个在1340处的父控制系统。
在1350处,通过查阅一个或者多个URL数据库,该父控制系统能够分类该邮寄到的链接,URL或者其一部分,URL业务的名字,URL路径,以及FQDN(例如,诸如URL电子邮件地址等这样的FQDN部分)。例如,该消息可以被分为包括至少一个色情作品,逃避债务,赌博,以及其它类似的内容。这种分类能够被提取作为在1360中附加的特征。由于垃圾邮件消息的主题包括这些材料,所以合并的父控制系统在获得附加特征中可能是有用的,其中机器学习系统能够被用于训练并建立改进的过滤器。其它的分类也存在,包括但不被限制为这些,其中这种分类也可能被用作特征。垃圾邮件消息可能或者不可能包括涉及这种材料类型的主题,但是一个用户仍然可以想要这种类型的消息。
实际上,不同的分类能够表明不同的垃圾邮件制作者的级别。例如,分类为憎恨语言的消息实际上可能表示没有垃圾邮件的等级(例如,因为其很可能不是垃圾邮件)。相反地,分类作为性内容/材料的消息可能反映一个相对高的垃圾邮件的级别(例如,大约90%的该消息是垃圾邮件的确认度)。机器学习系统能够建立一个说明垃圾邮件级别的过滤器。因此,过滤器能够被定制并且被个性化以满足用户的优先选择。
正如已经讨论的,无数的特征能够从一个消息中被提取,并且用作由机器学习系统使用的训练数据,或者作为识别好坏特征列表的元素。特征的质量,除了特征本身之外,在检测和阻止垃圾邮件中可能是有用的。例如,想像一个特征是发件人的电子邮件地址。该电子邮件地址可能被用作一个特征,并且电子邮件地址在新的输入消息中出现的频率可能被用作另一个特征。
图14描述了一个用于提取这种类型的特征(例如,与通用的或者稀有的提取特征相关的)的示范性过程1400的流程图。垃圾邮件制作者通常尽力快速去改变它们的位置,因此,很可能大多数用户从先前未知的地址发送邮件,或者以指示先前未知的机器的URL来发送邮件。因此,对于被提取的每一个特征类型来说(例如,接收的IP地址,URL,电子邮件地址,域名等等),假设用于每种类型的特征列表被保留,则可能跟踪特殊特征的出现率,频率或者数量。
过程1400能够以一个或者多个特征从输入消息,和/或者在1410规范化一个特征开始。然后,该特征能够与一个或者多个特征列表相比较,这些特征先前已经被提取或者在1420中的多个先前的消息中已经被观察到。该过程1400能够确定当前的特征是否是通用的。一个特征的通用性能够通过已计算的近期出现的特征的频率,以及/或者先前的输入消息来确定。如果该消息在1430不是通用的或者不是足够通用的(例如,未能满足通用性的阈值),则在1440,其稀有的特征能够被用作一个附加的特征。同样,该特征的通用性在1450也能被用作一个特征。
根据上面所描述的本发明,下面的伪代码可以用于实施本发明的至少一个方面。所有的大写子母表明了不同的名称。应当注意,在伪代码的末端定义了两个函数,add-machine-features和add-ip-features。象“PREFIX-machine-MACHINE”这样的符号用于表示由PREFIX变量结合单词machine结合MACHINE变量组成的一个字符串。最后,函数add-to-feature-list将特征写入到与当前消息相关的特征列表中。
示例性的伪代码如下所示:
#for a given message,extract all the features IPADDRESS:=the last external IP address in the received from list; Add-ipfeatures(received,IPADDRESS); SENDERS-ALLEGED-FQDN:=FQDN in the last external IP Address in the recerved-from list; Add-machine-features(sendersfqdn,SENDERS-ALLEGED-FQDN); For each电子邮件address type TYPE in(from,CC,to,reply-to, embedded-mailto-link,embedded-address,and SMTP MAIL FROM) { for each address ADDRESS of type TYPE in the message{ deobfuscate ADDRESS if necessary; add-to-feature-list TYPE-ADDRESS; if ADDRESS is of the form NAME@MACHINE then { add-machine-features(TYPE,MACHINE); } else {#ADDRESS is of form NAME@IPADDRESS add-ip-features(TYPE,IPADDRESS); } } } for each url type TYPE in(clickable-links,text-based-links, embedded-image-links) <dp n="d24"/> { for each URL in the message of type TYPE {deobfuscate URL; add-to-feature-list TYPE-URL; set PARENTALCLASS:=parental control system class of URL; add-to-feature-list TYPE-class-PARENTCLASS; while URL has a location suffix { remove location suffix from URL,i.e.x.y/a/b/c→;x.y/a/b→x.y/a;x.y/a; #ALL suffixes have been removed;URL is now either machine name or IP address if URL is machine name { add-machine-features(TYPE,URL); } else {add-ip-features(TYPE,URL); } } } function add-machine-features(PREFIX,MACHINE) { add-ip-features(PREFIX-ip,nslookup(MACHINE); while MACHINE not equal″″ { add-to-feature-list PREFIX-machine-MACHINE; remove beginning from MACHINE#(i.e.a.x.com→ x.com,or X.com→com); } } <dp n="d25"/> fuction add-ip-features(PREFIX,IPADDRESS) { add-ip-feature-list PREFIX-ipaddress-IPADDRESS; find netblock NETBLOCK of IPADDRESS; add-to-feature-list PREFIX-netblock-NETBLOCK; forN=1 to 31{ MASKED=first N bits of IPADDRESS; Add-to-feature-list PREFIX-masked-N-MASKED; } }
为了提供本发明各个方面的补充的背景,图15和下面的讨论想要为适宜的操作环境1510是供一个简短的全面的描述,其中可能实现了本发明的各个方面。尽管在计算机可执行的诸如程序模块这样的指令的通常的环境下描述了本发明,但是本领域的普通技术人员承认本发明也能够结合其它的程序模块,和/或者以软件和硬件的组合来执行。
然而,一般来说,程序模块包括例行程序,程序,目标,部件,数据结构等,它们能够执行特定的任务或者执行特定的数据类型。操作环境1510仅仅是适宜的操作环境的一个实例,并没有试图给出任何有关本发明的使用或者功能范围的限制。其它熟知的适合于与本发明一起使用的固定计算机系统,环境,和/或者配置包括但不限制于个人计算机,手持或者膝上型设备,多处理器系统,基于系统的微处理器,可编程的用户电子,网络PC,小型计算机,大型计算机,包括上述系统或者设备的分布式计算环境等。
参考图15,一个用于执行本发明各个方面的示范性的环境1510包括一个计算机1512。该计算机1512包括一个处理单元1514,系统存储器1516,和系统总线1518。该系统总线1518耦合一个系统部件,该系统部件包括但不限制为用于处理单元1514的系统存储器1516。处理单元1514可能是各种任何可用的处理器。双微处理器和其它的多处理器结构也可能用作处理单元1514。
系统总线1518可能是若干种总线结构类型中的一种,其包括存储器总线或者存储器控制器,外围总线或者外部总线,和/或者使用任何可用总线结构的本地总线,任何可用总线结构包括但不仅限制于11位总线,工业标准结构(ISA),微信道结构(MSA),扩展的ISA(EISA),智能设备电子(IDE),VESA本地总线(VLB),外围部件互连(PCI),通用串行总线(USB),增强的图形端口(AGP),PC机内存卡国际协会总线(PCMCIA),以及小型计算机系统接口(SCSI)。
该系统存储器1516包括易失的存储器1520和非易失的存储器1522。基本输入/输出系统(BIOS),包括在计算机1512的范围内的组成部分之间传送信息的基本的例行程序,诸如在启动期间,被存储在非易失的存储器1522中。为了举例说明,同时不作为限制,非易失的存储器1522可能包括只读存储器(ROM),可编程ROM(PROM),可擦可编程只读存储器(EPROM),电可擦除可编程只读存储器(EEPROM),或者闪存。易失的存储器1520包括随机访问存储器(RAM),其作为一个外部缓存。为了举例说明,同时不作为限制,RAM可以多种形式得到,诸如同步RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据速率SDRAM(DDR SDRAM),增强型SDRAM(ESDRAM)。同步链接DRAM(SLDRAM),以及直接随机存储器总线RAM(DRRAM)。
计算机1512也包括可移动的/不可移动的,易失的/非易失的计算机存储介质。图15说明了例如一个磁盘存储器1524。该磁盘存储器1524包括但是不限制于像磁盘设备这样的设备,例如软盘,硬盘,磁带驱动器,Jaz驱动器,邮政分区驱动器,LS-100驱动器,闪存卡,或者存储棒。另外,磁盘存储器1524可能单独包括存储介质,或者与其它存储介质相结合,其它存储介质包括但不仅限制于诸如紧凑型磁盘ROM设备(CD-ROM),CD可记录设备(CD-R驱动器),CD重写驱动器(CD-RW驱动器),或者数字通用磁盘ROM驱动器(DVD_ROM)这样的光盘驱动器。为了方便磁盘存储设备1524和系统总线1518的连接,可移动的或者不可移动的接口典型地被用于诸如接口1526这样的接口。
应当理解,图15描述了软件,该软件起到在用户和适当的操作环境1510中所描述的基本计算机设备之间的中间物的作用。这种软件包括一个操作系统1528。操作系统1528,其能被存储在磁盘存储器1524上,用于控制和定位计算机系统1512的资源。系统应用程序1530借助于操作系统1528通过程序模块1532和程序数据1534来利用管理和资源,程序数据1534被存储在系统存储器1516或者磁盘存储器1524上。应当理解,能够以各种操作系统或者操作系统的组合来实施本发明。
一个用户通过输入设备1536将命令或者信息键入到计算机1512中。输入设备1536包括,但不仅限制于诸如鼠标,跟踪球,唱针,触模板,键盘,麦克风,操纵杆,游戏垫,圆盘式卫星电视天线,扫描仪,TV调谐卡,数字相机,数字摄像机,网络摄像机等这样的点设备。这些或者其它的输入设备通过系统总线1518经由接口部分1538连接到处理单元1514。接口部分1538包括例如串行端口,并行端口,游戏端口和通用串行总线(USB)。输出设备1540使用某些同种类型的端口作为输入设备1536。因此,例如USB端口可以被用于提供输入到计算机1512,而且从计算机1512输出信息到一个输出设备1540。输出适配器1542被提供以说明存在一些输出设备1540像监视器,扬声器,以及在要求特定适配器的其它输出设备1540中的打印机。该输出适配器1542包括,通过说明但不是限制,视频和声音卡,该卡提供一种在输出设备1540和系统总线1518之间连接的手段。应当注意,其它的设备和/或者系统提供诸如远程计算机1544这样的输入和输出性能。
计算机1512能够在一个网络环境中通过使用与一个或多个诸如远程计算机1544这样的远程计算机的逻辑连接进行操作。远程计算机1544可能是个人计算机,服务器,网络,工作站,基于应用的微处理器,对等设备或其它通用网络节点等等,典型地包括多个或全部的所述的与计算机1512相关的组成部分。为了简洁,关于远程计算机1544只举例说明一个存储设备1546。远程计算机通过网络接口1548被逻辑地连接到计算机1512上,然后经由通信连接1550物理地连接。网络接口1548包括诸如局域网(LAN)和广域网(WAN)这样的通信网络。LAN技术包括光纤分布式数据接口(FDDI),铜分布式数据接口(CDDI),以太网/IEEE1102.3,令牌环/IEEE 1102.5等等。WAN技术包括但是不被限于,点对点链接,电路交换网络,像ISDN以及在其上的变体,分组交换网络和用户数字线(DSL)。
通信连接1550指用于将网络接口1548连接到总线1518的硬件或软件。尽管为了在计算机1512的内部明确地说明而示出了通信连接1510,但是它也可能是在计算机1512的外部。连接到网络接口1548的必要的硬件/软件包括,仅为示范目的,内部和外部的技术,诸如调制解调器,包括常规的电话类调制解调器,电缆调制解调器和DSL调制解调器,ISDN适配器和以太网卡。
上面的描述包括了本发明的实例。不可能描述每一种想得到的部件或者方法的组合,当然,为了描述本发明的目的,本领域的普通技术人员承认本发明的许多进一步的组合和置换是可能的。相应地,本发明意在包含所有落入到所附权利要求的精神和范围之内的改变,修改和变型。此外,为了扩展在详细的说明书或者权利要求中所使用的术语“包括”,当术语“包含”在权利要求中被用作一个过渡单词被解释时,该术语意在以类似于术语“包含”的方式被包含在内。
Claims (54)
1.一种便于提取关于垃圾邮件处理的数据的系统,包括:
一个部件,其接收一个项目并且提取一组与消息的发源,或者其中的部分和/或信息相关联的特征,使预定的收件人能够就该消息进行联系、响应或者接收:
以及一个部件,其利用一个被提取的特征的子集建立过滤器。
2.权利要求1的系统,进一步包括一个规范化部件,其使一个特征子集摆脱困惑。
3.权利要求1的系统,该过滤器是一个垃圾邮件过滤器。
4.权利要求1的系统,该过滤器是一个父控制过滤器。
5.权利要求1的系统,进一步包括一个机器学习系统部件,其利用已摆脱困惑的特征来学习至少垃圾邮件和非垃圾邮件其中之一。
6.权利要求1的系统,所述特征的子集包括至少一个IP地址,该至少一个IP地址是回复地址、抄送地址、收件人地址、发件人地址、和定位在消息中的URL中的任何一个的至少一部分。
7.权利要求6的系统,该IP地址包括一个数据块ID,其中该数据块ID能被提取作为至少一个特征。
8.权利要求7的系统,其中该数据块ID至少部分地通过查阅一个数据块目录来确定。
9.权利要求8的系统,其中该数据块目录是arin.net。
10.权利要求7的系统,其中该数据块ID至少部分地通过推测来确定,从而提取IP地址的至少前1个比特,至少前2个比特,至少前3个比特,直到至少前31个比特中的任何一个作为特征。
11.权利要求1的系统,其中特征的子集包括IP地址的前1个到前31个比特中的每一个。
12.权利要求1的系统,特征的子集包括一个URL。
13.权利要求12的系统,其中URL地址被定位在至少其中一个消息体,作为文本嵌入在消息中,以及嵌入在消息中的图像中。
14.权利要求1的系统,进一步包括一个部件,其使用至少一个已提取特征的子集来填充至少一个特征列表。
15.权利要求14的系统,该至少一个特征列表是好用户的列表、垃圾邮件制作者列表、表示合法的发件人的肯定特征的列表、以及表示垃圾邮件的特征的列表中的任何一个。
16.权利要求1的系统,其中该特征子集包括至少一个URL。
17.权利要求16的系统,其中URL作为文本被嵌入到消息体中。
18.权利要求16的系统,其中URL是消息体中链接的至少一部分。
19.权利要求16的系统,其中URL是作为图像嵌入到消息中链接的至少一部分。
20.权利要求1的系统,特征的子集包括从email地址中提取的主机名称和域名中的至少一个。
21.权利要求1的系统,特征的子集包括从email地址和URL任何一个中提取的至少一部分FQDN。
22.权利要求1的系统,特征的子集包括从email地址和URL任何一个中提取的至少一部分域名。
23.权利要求1的系统,至少一部分被提取特征的子集在同机器学习系统一同使用之前被规范化。
24.权利要求1的系统,至少一部分被提取特征的子集在被用于填充至少一个特征列表之前被规范化。
25.权利要求1的系统,进一步包括一个分类部件,其分类至少一部分URL,email地址,和IP地址中的至少一个,作为成人,成人内容,不适合的,不适合某个年龄段的,适合于所有年龄的,不合宜的,以及合宜的中的任何一个。
26.权利要求25的系统,其中该分类部件是一个父控制系统。
27.权利要求25的系统,其中该分类部件分配至少一个特征类型给URL,网站地址,和IP地址中的至少一个的已分类部分。
28.权利要求1的系统,其中该特征组包括至少一个非免费电话号码,所述电话号码包含一个电话地区号,以便于映射发件人或者与消息相关的联系者的地理位置。
29.一种存储如权利要求1所述的计算机可执行组件的计算机可读媒介。
30.一种使用权利要求1的系统的计算机。
31.一种易于提取与垃圾邮件处理有关的数据的方法,包括:
接收一个消息;
提取一组与消息的发源,或者其中的部分和/或信息相关联的特征,该信息能够使预定的收件人就所述消息进行联系,响应或者接收;以及
利用一个被提取的特征的子集以建立过滤器。
32.权利要求31的方法,其中该特征组包括一个IP地址的至少一部分。
33.权利要求32的方法,其中提取IP地址的至少一部分包括执行至少下列动作的其中一个:
查找一个数据块ID的目录以确定至少一个对应于IP地址的数据块ID,以便该数据块ID被提取作为一个附加的特征;以及
从IP地址中提取至少前1个比特直到前31个比特中的每一个。
34.权利要求32的方法,其中至少一个已提取的IP地址对应于至少一个服务器。
35.权利要求34的方法,进一步包括提取该至少一个服务器作为一个附加的特征。
36.权利要求31的方法,进一步包括使至少一个从消息中提取的特征的子集摆脱困惑。
37.权利要求31的方法,进一步包括使从消息中提取的至少一个特征的至少一部分摆脱困惑。
38.权利要求37的方法,其中使从消息中提取的接收的发件人的IP地址摆脱困惑包括:追溯通过多个“添加到”IP地址的搜索路径,来核对“添加到”IP地址的搜索路径的身份。
39.权利要求37的方法,进一步包括从网站地址提取附加的特征,包括执行至少下列动作的其中一个:
每次删除至少一个后缀,从而产生相应的附加特征;以及
每次删除至少一个前缀,从而产生相应的附加特征。
40.权利要求37的方法,其中该组特征包括回复地址,抄送地址,收件人地址,URL,链接,和发件人地址中任何一个的至少一部分。
41.权利要求31的方法,其中至少一个被提取特征的子集作为文本和图像其中之一被嵌入消息体中。
42.权利要求31的方法,其中该组特征包括一个主机名和一个域名。
43.权利要求31的方法,进一步包括分类一个或者多个已提取的特征和/或者其中的部分以表明与该消息相关联的是适宜的和不适宜的内容中的任何一种,并且将这种分类用作一个附加的特征。
44.权利要求31的方法,进一步包括分配一种特征类型给相应的被提取的特征以便至少部分地基于各个已提取的特征来通知用户消息内容,并且利用这种特征类型作为一个附加的特征。
45.权利要求44的方法,进一步包括确定特征类型和特征中的至少一种是稀有的和通用的其中之一,并且利用特征的稀有性和通用性作为一个附加的特征。
46.权利要求31的方法,其中特征的子集经由一个机器学习系统被采用来建立一个过滤器。
47.权利要求31的方法,其中该过滤器是一个垃圾邮件过滤器。
48.权利要求31的方法,其中该过滤器是一个父控制过滤器。
49.权利要求31的方法,进一步包括使用至少一个从消息中提取的特征的子集来填充一个或者多个特征列表。
50.权利要求49的方法,其中特征列表包括表示非垃圾邮件制作者的肯定的特征列表,和表示垃圾邮件制作者的恶意的特征列表中的至少之一。
51.权利要求31的方法,其中在被用作机器学习系统的特征之前,已提取的特征至少部分地被摆脱困惑。
52.权利要求31的方法,其中在被用作填充特征列表的特征之前,已提取的特征至少部分地被摆脱困惑。
53.适合于在两个或者多个便于从消息中提取数据的计算机过程之间传送的数据分组,该数据分组包括:
信息,该信息与接收消息、提取一组与消息的发源或者其中的部分和/或能够使预定的收件人就该消息进行联系、响应或者接收的信息相关联的特征、以及利用所提取的特征的子集以建立过滤器相关联。
54.一种易于提取与垃圾邮件处理过程有关的数据的系统,包括:
用于接收消息的装置;
一种装置,用于提取一组与消息的源或者其中的部分和/或能够使预定的收件人就消息进行联系、响应或者接收相关联的特征;以及
一种装置,用于利用一个被提取的特征的子集以建立过滤器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/454,168 US7272853B2 (en) | 2003-06-04 | 2003-06-04 | Origination/destination features and lists for spam prevention |
US10/454,168 | 2003-06-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1573784A true CN1573784A (zh) | 2005-02-02 |
CN1573784B CN1573784B (zh) | 2012-11-07 |
Family
ID=33159539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100639539A Active CN1573784B (zh) | 2003-06-04 | 2004-06-04 | 用于阻止垃圾邮件的源/目的地的特征和列表 |
Country Status (14)
Country | Link |
---|---|
US (4) | US7272853B2 (zh) |
EP (1) | EP1484893B1 (zh) |
JP (1) | JP4672285B2 (zh) |
KR (1) | KR101137065B1 (zh) |
CN (1) | CN1573784B (zh) |
AU (1) | AU2004202268B2 (zh) |
BR (1) | BRPI0401849B1 (zh) |
CA (1) | CA2467869C (zh) |
MX (1) | MXPA04005335A (zh) |
MY (1) | MY142668A (zh) |
PL (1) | PL368364A1 (zh) |
RU (1) | RU2378692C2 (zh) |
TW (1) | TWI353146B (zh) |
ZA (1) | ZA200404018B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364955B (zh) * | 2008-09-28 | 2010-10-20 | 杭州电子科技大学 | 一种分析和提取电子邮件客户端证据的方法 |
WO2011047571A1 (zh) * | 2009-10-23 | 2011-04-28 | 中兴通讯股份有限公司 | 防范垃圾电子邮件的实现方法和系统 |
CN101163161B (zh) * | 2007-11-07 | 2012-02-29 | 福建星网锐捷网络有限公司 | 统一资源定位器地址过滤方法及中间传输设备 |
CN101558398B (zh) * | 2005-05-05 | 2012-11-28 | 思科埃恩波特系统有限公司 | 基于被引用资源的概率分析检测不想要的电子邮件消息 |
CN101573956B (zh) * | 2006-11-03 | 2013-04-10 | 信息实验室有限公司 | 图像垃圾信息的检测方法和系统 |
CN103179024A (zh) * | 2013-03-18 | 2013-06-26 | 北京二六三企业通信有限公司 | 邮件过滤方法及装置 |
CN103198396A (zh) * | 2013-03-28 | 2013-07-10 | 南通大学 | 基于社会网络行为特征的邮件分类方法 |
CN103634422A (zh) * | 2013-11-29 | 2014-03-12 | 北京奇虎科技有限公司 | 一种cdn源站的ip地址识别方法及装置 |
CN105912674A (zh) * | 2016-04-13 | 2016-08-31 | 精硕世纪科技(北京)有限公司 | 数据降噪及分类方法、装置及系统 |
CN106028297A (zh) * | 2016-04-28 | 2016-10-12 | 北京小米移动软件有限公司 | 携带网址的短信处理方法及装置 |
CN107294834A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种识别垃圾邮件的方法和装置 |
CN109218162A (zh) * | 2017-07-05 | 2019-01-15 | 北京二六三企业通信有限公司 | 邮件投递方法及装置 |
CN109328448A (zh) * | 2016-06-13 | 2019-02-12 | 微软技术许可有限责任公司 | 基于网络流数据的垃圾邮件分类系统 |
CN111046283A (zh) * | 2019-12-04 | 2020-04-21 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及存储介质 |
Families Citing this family (408)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6643686B1 (en) * | 1998-12-18 | 2003-11-04 | At&T Corp. | System and method for counteracting message filtering |
US9699129B1 (en) * | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US20110219035A1 (en) * | 2000-09-25 | 2011-09-08 | Yevgeny Korsunsky | Database security via data flow processing |
US20110231564A1 (en) * | 2000-09-25 | 2011-09-22 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US9525696B2 (en) | 2000-09-25 | 2016-12-20 | Blue Coat Systems, Inc. | Systems and methods for processing data flows |
US20100042565A1 (en) * | 2000-09-25 | 2010-02-18 | Crossbeam Systems, Inc. | Mezzazine in-depth data analysis facility |
US20110213869A1 (en) * | 2000-09-25 | 2011-09-01 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US8010469B2 (en) * | 2000-09-25 | 2011-08-30 | Crossbeam Systems, Inc. | Systems and methods for processing data flows |
US9800608B2 (en) * | 2000-09-25 | 2017-10-24 | Symantec Corporation | Processing data flows with a data flow processor |
US20110214157A1 (en) * | 2000-09-25 | 2011-09-01 | Yevgeny Korsunsky | Securing a network with data flow processing |
US20110238855A1 (en) * | 2000-09-25 | 2011-09-29 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7155608B1 (en) * | 2001-12-05 | 2006-12-26 | Bellsouth Intellectual Property Corp. | Foreign network SPAM blocker |
US20060015942A1 (en) * | 2002-03-08 | 2006-01-19 | Ciphertrust, Inc. | Systems and methods for classification of messaging entities |
US8561167B2 (en) | 2002-03-08 | 2013-10-15 | Mcafee, Inc. | Web reputation scoring |
US8578480B2 (en) | 2002-03-08 | 2013-11-05 | Mcafee, Inc. | Systems and methods for identifying potentially malicious messages |
US7716199B2 (en) | 2005-08-10 | 2010-05-11 | Google Inc. | Aggregating context data for programmable search engines |
US7743045B2 (en) * | 2005-08-10 | 2010-06-22 | Google Inc. | Detecting spam related and biased contexts for programmable search engines |
US7693830B2 (en) * | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US7428590B2 (en) * | 2002-06-10 | 2008-09-23 | Akonix Systems, Inc. | Systems and methods for reflecting messages associated with a target protocol within a network |
US20080196099A1 (en) * | 2002-06-10 | 2008-08-14 | Akonix Systems, Inc. | Systems and methods for detecting and blocking malicious content in instant messages |
US20060265498A1 (en) * | 2002-12-26 | 2006-11-23 | Yehuda Turgeman | Detection and prevention of spam |
US7533148B2 (en) * | 2003-01-09 | 2009-05-12 | Microsoft Corporation | Framework to enable integration of anti-spam technologies |
US7219131B2 (en) * | 2003-01-16 | 2007-05-15 | Ironport Systems, Inc. | Electronic message delivery using an alternate source approach |
US7760729B2 (en) | 2003-05-28 | 2010-07-20 | Citrix Systems, Inc. | Policy based network address translation |
US7376652B2 (en) * | 2003-06-17 | 2008-05-20 | The Hayes-Roth Family Trust | Personal portal and secure information exchange |
US8145710B2 (en) * | 2003-06-18 | 2012-03-27 | Symantec Corporation | System and method for filtering spam messages utilizing URL filtering module |
US7155484B2 (en) * | 2003-06-30 | 2006-12-26 | Bellsouth Intellectual Property Corporation | Filtering email messages corresponding to undesirable geographical regions |
US9412123B2 (en) | 2003-07-01 | 2016-08-09 | The 41St Parameter, Inc. | Keystroke analysis |
US7526730B1 (en) | 2003-07-01 | 2009-04-28 | Aol Llc | Identifying URL target hostnames |
US8214437B1 (en) | 2003-07-21 | 2012-07-03 | Aol Inc. | Online adaptive filtering of messages |
US7814545B2 (en) * | 2003-07-22 | 2010-10-12 | Sonicwall, Inc. | Message classification using classifiers |
US7421498B2 (en) * | 2003-08-25 | 2008-09-02 | Microsoft Corporation | Method and system for URL based filtering of electronic communications and web pages |
US7835294B2 (en) * | 2003-09-03 | 2010-11-16 | Gary Stephen Shuster | Message filtering method |
US8271588B1 (en) * | 2003-09-24 | 2012-09-18 | Symantec Corporation | System and method for filtering fraudulent email messages |
US20070275739A1 (en) * | 2003-10-08 | 2007-11-29 | Three B Technologies Pyt Ltd | Method and System for Authorising Short Message Service Messages |
US20050080642A1 (en) * | 2003-10-14 | 2005-04-14 | Daniell W. Todd | Consolidated email filtering user interface |
US7451184B2 (en) * | 2003-10-14 | 2008-11-11 | At&T Intellectual Property I, L.P. | Child protection from harmful email |
US7664812B2 (en) * | 2003-10-14 | 2010-02-16 | At&T Intellectual Property I, L.P. | Phonetic filtering of undesired email messages |
US7930351B2 (en) * | 2003-10-14 | 2011-04-19 | At&T Intellectual Property I, L.P. | Identifying undesired email messages having attachments |
US7610341B2 (en) * | 2003-10-14 | 2009-10-27 | At&T Intellectual Property I, L.P. | Filtered email differentiation |
US7673066B2 (en) * | 2003-11-07 | 2010-03-02 | Sony Corporation | File transfer protocol for mobile computer |
US7978716B2 (en) | 2003-11-24 | 2011-07-12 | Citrix Systems, Inc. | Systems and methods for providing a VPN solution |
US7444403B1 (en) | 2003-11-25 | 2008-10-28 | Microsoft Corporation | Detecting sexually predatory content in an electronic communication |
US20050160258A1 (en) * | 2003-12-11 | 2005-07-21 | Bioobservation Systems Limited | Detecting objectionable content in displayed images |
US8990928B1 (en) | 2003-12-11 | 2015-03-24 | Radix Holdings, Llc | URL salience |
US7590694B2 (en) * | 2004-01-16 | 2009-09-15 | Gozoom.Com, Inc. | System for determining degrees of similarity in email message information |
JP2005208780A (ja) * | 2004-01-21 | 2005-08-04 | Nec Corp | メールフィルタリングシステム及びそれに用いるurlブラックリスト動的構築方法 |
US7184929B2 (en) * | 2004-01-28 | 2007-02-27 | Microsoft Corporation | Exponential priors for maximum entropy models |
US8856239B1 (en) | 2004-02-10 | 2014-10-07 | Sonicwall, Inc. | Message classification based on likelihood of spoofing |
US7653695B2 (en) * | 2004-02-17 | 2010-01-26 | Ironport Systems, Inc. | Collecting, aggregating, and managing information relating to electronic messages |
US7617531B1 (en) * | 2004-02-18 | 2009-11-10 | Citrix Systems, Inc. | Inferencing data types of message components |
US8214438B2 (en) * | 2004-03-01 | 2012-07-03 | Microsoft Corporation | (More) advanced spam detection features |
US10999298B2 (en) | 2004-03-02 | 2021-05-04 | The 41St Parameter, Inc. | Method and system for identifying users and detecting fraud by use of the internet |
US7631044B2 (en) * | 2004-03-09 | 2009-12-08 | Gozoom.Com, Inc. | Suppression of undesirable network messages |
US8918466B2 (en) * | 2004-03-09 | 2014-12-23 | Tonny Yu | System for email processing and analysis |
US7644127B2 (en) * | 2004-03-09 | 2010-01-05 | Gozoom.Com, Inc. | Email analysis using fuzzy matching of text |
US20050289239A1 (en) * | 2004-03-16 | 2005-12-29 | Prakash Vipul V | Method and an apparatus to classify electronic communication |
US7493414B2 (en) * | 2004-04-20 | 2009-02-17 | The Boeing Company | Apparatus and methods relating to web browser redirection |
US8041769B2 (en) | 2004-05-02 | 2011-10-18 | Markmonitor Inc. | Generating phish messages |
US7913302B2 (en) * | 2004-05-02 | 2011-03-22 | Markmonitor, Inc. | Advanced responses to online fraud |
US7992204B2 (en) * | 2004-05-02 | 2011-08-02 | Markmonitor, Inc. | Enhanced responses to online fraud |
US8769671B2 (en) | 2004-05-02 | 2014-07-01 | Markmonitor Inc. | Online fraud solution |
US7870608B2 (en) | 2004-05-02 | 2011-01-11 | Markmonitor, Inc. | Early detection and monitoring of online fraud |
US7457823B2 (en) * | 2004-05-02 | 2008-11-25 | Markmonitor Inc. | Methods and systems for analyzing data related to possible online fraud |
US9203648B2 (en) | 2004-05-02 | 2015-12-01 | Thomson Reuters Global Resources | Online fraud solution |
US7941490B1 (en) * | 2004-05-11 | 2011-05-10 | Symantec Corporation | Method and apparatus for detecting spam in email messages and email attachments |
US7523498B2 (en) * | 2004-05-20 | 2009-04-21 | International Business Machines Corporation | Method and system for monitoring personal computer documents for sensitive data |
US7734093B2 (en) * | 2004-05-20 | 2010-06-08 | Ricoh Co., Ltd. | Paper-based upload and tracking system |
WO2005116851A2 (en) * | 2004-05-25 | 2005-12-08 | Postini, Inc. | Electronic message source information reputation system |
US7756930B2 (en) | 2004-05-28 | 2010-07-13 | Ironport Systems, Inc. | Techniques for determining the reputation of a message sender |
US7870200B2 (en) * | 2004-05-29 | 2011-01-11 | Ironport Systems, Inc. | Monitoring the flow of messages received at a server |
US7873695B2 (en) | 2004-05-29 | 2011-01-18 | Ironport Systems, Inc. | Managing connections and messages at a server by associating different actions for both different senders and different recipients |
US7917588B2 (en) | 2004-05-29 | 2011-03-29 | Ironport Systems, Inc. | Managing delivery of electronic messages using bounce profiles |
US7849142B2 (en) | 2004-05-29 | 2010-12-07 | Ironport Systems, Inc. | Managing connections, messages, and directory harvest attacks at a server |
US8166310B2 (en) * | 2004-05-29 | 2012-04-24 | Ironport Systems, Inc. | Method and apparatus for providing temporary access to a network device |
US7748038B2 (en) * | 2004-06-16 | 2010-06-29 | Ironport Systems, Inc. | Method and apparatus for managing computer virus outbreaks |
US20050283519A1 (en) * | 2004-06-17 | 2005-12-22 | Commtouch Software, Ltd. | Methods and systems for combating spam |
US7580981B1 (en) * | 2004-06-30 | 2009-08-25 | Google Inc. | System for determining email spam by delivery path |
US7757074B2 (en) | 2004-06-30 | 2010-07-13 | Citrix Application Networking, Llc | System and method for establishing a virtual private network |
US8495305B2 (en) | 2004-06-30 | 2013-07-23 | Citrix Systems, Inc. | Method and device for performing caching of dynamically generated objects in a data communication network |
US8739274B2 (en) | 2004-06-30 | 2014-05-27 | Citrix Systems, Inc. | Method and device for performing integrated caching in a data communication network |
KR20070037649A (ko) | 2004-07-23 | 2007-04-05 | 사이트릭스 시스템스, 인크. | 게이트웨이에서 종단으로 패킷을 라우팅하기 위한 방법 및시스템 |
US7724657B2 (en) | 2004-07-23 | 2010-05-25 | Citrix Systems, Inc. | Systems and methods for communicating a lossy protocol via a lossless protocol |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US20070204026A1 (en) * | 2004-07-27 | 2007-08-30 | U.S. Telecom Inc. | Method For Blocking Unwanted E-Mail Based On Proximity Detection |
US20060069667A1 (en) * | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Content evaluation |
US8799465B2 (en) * | 2004-10-13 | 2014-08-05 | International Business Machines Corporation | Fake web addresses and hyperlinks |
US8635690B2 (en) | 2004-11-05 | 2014-01-21 | Mcafee, Inc. | Reputation based message processing |
US7711781B2 (en) * | 2004-11-09 | 2010-05-04 | International Business Machines Corporation | Technique for detecting and blocking unwanted instant messages |
US20060168066A1 (en) * | 2004-11-10 | 2006-07-27 | David Helsper | Email anti-phishing inspector |
US8032594B2 (en) * | 2004-11-10 | 2011-10-04 | Digital Envoy, Inc. | Email anti-phishing inspector |
US7580982B2 (en) * | 2004-12-14 | 2009-08-25 | The Go Daddy Group, Inc. | Email filtering system and method |
US7734670B2 (en) * | 2004-12-15 | 2010-06-08 | Microsoft Corporation | Actionable email documents |
US20060168030A1 (en) * | 2004-12-21 | 2006-07-27 | Lucent Technologies, Inc. | Anti-spam service |
US20060168032A1 (en) * | 2004-12-21 | 2006-07-27 | Lucent Technologies, Inc. | Unwanted message (spam) detection based on message content |
US8549149B2 (en) | 2004-12-30 | 2013-10-01 | Citrix Systems, Inc. | Systems and methods for providing client-side accelerated access to remote applications via TCP multiplexing |
US8954595B2 (en) | 2004-12-30 | 2015-02-10 | Citrix Systems, Inc. | Systems and methods for providing client-side accelerated access to remote applications via TCP buffering |
US8706877B2 (en) | 2004-12-30 | 2014-04-22 | Citrix Systems, Inc. | Systems and methods for providing client-side dynamic redirection to bypass an intermediary |
US8700695B2 (en) | 2004-12-30 | 2014-04-15 | Citrix Systems, Inc. | Systems and methods for providing client-side accelerated access to remote applications via TCP pooling |
US7810089B2 (en) | 2004-12-30 | 2010-10-05 | Citrix Systems, Inc. | Systems and methods for automatic installation and execution of a client-side acceleration program |
US20060168042A1 (en) * | 2005-01-07 | 2006-07-27 | International Business Machines Corporation | Mechanism for mitigating the problem of unsolicited email (also known as "spam" |
US8255456B2 (en) | 2005-12-30 | 2012-08-28 | Citrix Systems, Inc. | System and method for performing flash caching of dynamically generated objects in a data communication network |
US8281401B2 (en) * | 2005-01-25 | 2012-10-02 | Whitehat Security, Inc. | System for detecting vulnerabilities in web applications using client-side application interfaces |
US20060230039A1 (en) * | 2005-01-25 | 2006-10-12 | Markmonitor, Inc. | Online identity tracking |
DE102005004464A1 (de) | 2005-01-31 | 2006-10-26 | Robert Bosch Gmbh | Verfahren zur Speicherung von Botschaften in einem Botschaftsspeicher und Botschaftsspeicher |
US7647380B2 (en) * | 2005-01-31 | 2010-01-12 | Microsoft Corporation | Datacenter mail routing |
US7962510B2 (en) * | 2005-02-11 | 2011-06-14 | Microsoft Corporation | Using content analysis to detect spam web pages |
JP4670049B2 (ja) * | 2005-02-16 | 2011-04-13 | 国立大学法人豊橋技術科学大学 | 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム |
DE102005011169B4 (de) * | 2005-03-09 | 2010-09-30 | 1&1 Internet Ag | Verfahren und System für einen E-Mail-Dienst mit Aufbereitung von Informations-E-Mails eines weiteren Internet-Dienstes |
US7590698B1 (en) * | 2005-03-14 | 2009-09-15 | Symantec Corporation | Thwarting phishing attacks by using pre-established policy files |
US7975010B1 (en) * | 2005-03-23 | 2011-07-05 | Symantec Corporation | Countering spam through address comparison |
US20060224677A1 (en) * | 2005-04-01 | 2006-10-05 | Baytsp | Method and apparatus for detecting email fraud |
US8898162B2 (en) * | 2005-04-01 | 2014-11-25 | International Business Machines Corporation | Methods, systems, and computer program products for providing customized content over a network |
GB2424969A (en) * | 2005-04-04 | 2006-10-11 | Messagelabs Ltd | Training an anti-spam filter |
GB2425855A (en) * | 2005-04-25 | 2006-11-08 | Messagelabs Ltd | Detecting and filtering of spam emails |
JP4559295B2 (ja) * | 2005-05-17 | 2010-10-06 | 株式会社エヌ・ティ・ティ・ドコモ | データ通信システム及びデータ通信方法 |
US20070097976A1 (en) * | 2005-05-20 | 2007-05-03 | Wood George D | Suspect traffic redirection |
US8856279B2 (en) * | 2005-05-26 | 2014-10-07 | Citrix Systems Inc. | Method and system for object prediction |
US20060277259A1 (en) * | 2005-06-07 | 2006-12-07 | Microsoft Corporation | Distributed sender reputations |
US8010609B2 (en) * | 2005-06-20 | 2011-08-30 | Symantec Corporation | Method and apparatus for maintaining reputation lists of IP addresses to detect email spam |
US7739337B1 (en) | 2005-06-20 | 2010-06-15 | Symantec Corporation | Method and apparatus for grouping spam email messages |
GB0512744D0 (en) * | 2005-06-22 | 2005-07-27 | Blackspider Technologies | Method and system for filtering electronic messages |
US7636734B2 (en) * | 2005-06-23 | 2009-12-22 | Microsoft Corporation | Method for probabilistic analysis of most frequently occurring electronic message addresses within personal store (.PST) files to determine owner with confidence factor based on relative weight and set of user-specified factors |
US9087218B1 (en) | 2005-08-11 | 2015-07-21 | Aaron T. Emigh | Trusted path |
US7809156B2 (en) * | 2005-08-12 | 2010-10-05 | Ricoh Company, Ltd. | Techniques for generating and using a fingerprint for an article |
US7487170B2 (en) * | 2005-09-02 | 2009-02-03 | Qwest Communications International Inc. | Location information for avoiding unwanted communications systems and methods |
US7697942B2 (en) * | 2005-09-02 | 2010-04-13 | Stevens Gilman R | Location based rules architecture systems and methods |
US8166068B2 (en) * | 2005-09-02 | 2012-04-24 | Qwest | Location based authorization of financial card transactions systems and methods |
US8176077B2 (en) | 2005-09-02 | 2012-05-08 | Qwest Communications International Inc. | Location based access to financial information systems and methods |
US20070061402A1 (en) * | 2005-09-15 | 2007-03-15 | Microsoft Corporation | Multipurpose internet mail extension (MIME) analysis |
US8078681B2 (en) | 2005-09-29 | 2011-12-13 | Teamon Systems, Inc. | System and method for provisioning an email account using mail exchange records |
US8117267B2 (en) | 2005-09-29 | 2012-02-14 | Teamon Systems, Inc. | System and method for provisioning an email account using mail exchange and address records |
US20070078934A1 (en) * | 2005-09-30 | 2007-04-05 | Teamon Systems, Inc. | System and method for provisioning an email account hosted on an assured email service provider |
US7912907B1 (en) * | 2005-10-07 | 2011-03-22 | Symantec Corporation | Spam email detection based on n-grams with feature selection |
US20070118759A1 (en) * | 2005-10-07 | 2007-05-24 | Sheppard Scott K | Undesirable email determination |
US20070088789A1 (en) * | 2005-10-18 | 2007-04-19 | Reuben Berman | Method and system for indicating an email sender as spammer |
WO2007050244A2 (en) | 2005-10-27 | 2007-05-03 | Georgia Tech Research Corporation | Method and system for detecting and responding to attacking networks |
US8272064B2 (en) * | 2005-11-16 | 2012-09-18 | The Boeing Company | Automated rule generation for a secure downgrader |
US8938671B2 (en) | 2005-12-16 | 2015-01-20 | The 41St Parameter, Inc. | Methods and apparatus for securely displaying digital images |
US11301585B2 (en) | 2005-12-16 | 2022-04-12 | The 41St Parameter, Inc. | Methods and apparatus for securely displaying digital images |
US7921184B2 (en) | 2005-12-30 | 2011-04-05 | Citrix Systems, Inc. | System and method for performing flash crowd caching of dynamically generated objects in a data communication network |
US8301839B2 (en) | 2005-12-30 | 2012-10-30 | Citrix Systems, Inc. | System and method for performing granular invalidation of cached dynamically generated objects in a data communication network |
US7475118B2 (en) * | 2006-02-03 | 2009-01-06 | International Business Machines Corporation | Method for recognizing spam email |
US7827280B2 (en) * | 2006-02-28 | 2010-11-02 | Red Hat, Inc. | System and method for domain name filtering through the domain name system |
US7627641B2 (en) * | 2006-03-09 | 2009-12-01 | Watchguard Technologies, Inc. | Method and system for recognizing desired email |
US8151327B2 (en) | 2006-03-31 | 2012-04-03 | The 41St Parameter, Inc. | Systems and methods for detection of session tampering and fraud prevention |
US9525547B2 (en) * | 2006-03-31 | 2016-12-20 | Ricoh Company, Ltd. | Transmission of media keys |
US8554690B2 (en) * | 2006-03-31 | 2013-10-08 | Ricoh Company, Ltd. | Techniques for using media keys |
US8689102B2 (en) * | 2006-03-31 | 2014-04-01 | Ricoh Company, Ltd. | User interface for creating and using media keys |
US20070233612A1 (en) * | 2006-03-31 | 2007-10-04 | Ricoh Company, Ltd. | Techniques for generating a media key |
US7809796B1 (en) * | 2006-04-05 | 2010-10-05 | Ironport Systems, Inc. | Method of controlling access to network resources using information in electronic mail messages |
US7849502B1 (en) | 2006-04-29 | 2010-12-07 | Ironport Systems, Inc. | Apparatus for monitoring network traffic |
US20080082662A1 (en) * | 2006-05-19 | 2008-04-03 | Richard Dandliker | Method and apparatus for controlling access to network resources based on reputation |
US8489689B1 (en) * | 2006-05-31 | 2013-07-16 | Proofpoint, Inc. | Apparatus and method for obfuscation detection within a spam filtering model |
US8112484B1 (en) * | 2006-05-31 | 2012-02-07 | Proofpoint, Inc. | Apparatus and method for auxiliary classification for generating features for a spam filtering model |
US8307038B2 (en) * | 2006-06-09 | 2012-11-06 | Microsoft Corporation | Email addresses relevance determination and uses |
US8020206B2 (en) | 2006-07-10 | 2011-09-13 | Websense, Inc. | System and method of analyzing web content |
US8615800B2 (en) | 2006-07-10 | 2013-12-24 | Websense, Inc. | System and method for analyzing web content |
US8646071B2 (en) * | 2006-08-07 | 2014-02-04 | Symantec Corporation | Method and system for validating site data |
WO2008021244A2 (en) * | 2006-08-10 | 2008-02-21 | Trustees Of Tufts College | Systems and methods for identifying unwanted or harmful electronic text |
US20080052360A1 (en) * | 2006-08-22 | 2008-02-28 | Microsoft Corporation | Rules Profiler |
US8078625B1 (en) * | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
US7606214B1 (en) * | 2006-09-14 | 2009-10-20 | Trend Micro Incorporated | Anti-spam implementations in a router at the network layer |
CN101155182A (zh) * | 2006-09-30 | 2008-04-02 | 阿里巴巴公司 | 一种基于网络的垃圾信息过滤方法和装置 |
US7882187B2 (en) * | 2006-10-12 | 2011-02-01 | Watchguard Technologies, Inc. | Method and system for detecting undesired email containing image-based messages |
US8577968B2 (en) * | 2006-11-14 | 2013-11-05 | Mcafee, Inc. | Method and system for handling unwanted email messages |
US8590002B1 (en) | 2006-11-29 | 2013-11-19 | Mcafee Inc. | System, method and computer program product for maintaining a confidentiality of data on a network |
US8135780B2 (en) * | 2006-12-01 | 2012-03-13 | Microsoft Corporation | Email safety determination |
US9654495B2 (en) | 2006-12-01 | 2017-05-16 | Websense, Llc | System and method of analyzing web addresses |
US8856289B2 (en) * | 2006-12-29 | 2014-10-07 | Prodea Systems, Inc. | Subscription management of applications and services provided through user premises gateway devices |
US9152706B1 (en) | 2006-12-30 | 2015-10-06 | Emc Corporation | Anonymous identification tokens |
US9497205B1 (en) * | 2008-05-19 | 2016-11-15 | Emc Corporation | Global commonality and network logging |
GB2458094A (en) | 2007-01-09 | 2009-09-09 | Surfcontrol On Demand Ltd | URL interception and categorization in firewalls |
EP2122504B1 (en) * | 2007-01-18 | 2014-10-01 | Roke Manor Research Limited | A method of extracting sections of a data stream |
US20080177843A1 (en) * | 2007-01-22 | 2008-07-24 | Microsoft Corporation | Inferring email action based on user input |
US8763114B2 (en) | 2007-01-24 | 2014-06-24 | Mcafee, Inc. | Detecting image spam |
US7779156B2 (en) | 2007-01-24 | 2010-08-17 | Mcafee, Inc. | Reputation based load balancing |
US8214497B2 (en) | 2007-01-24 | 2012-07-03 | Mcafee, Inc. | Multi-dimensional reputation scoring |
US8356076B1 (en) | 2007-01-30 | 2013-01-15 | Proofpoint, Inc. | Apparatus and method for performing spam detection and filtering using an image history table |
US7716297B1 (en) | 2007-01-30 | 2010-05-11 | Proofpoint, Inc. | Message stream analysis for spam detection and filtering |
US7849193B1 (en) * | 2007-02-01 | 2010-12-07 | Adobe Systems Incorporated | Multiple hyperlinks in a uniform resource locator |
US20080201722A1 (en) * | 2007-02-20 | 2008-08-21 | Gurusamy Sarathy | Method and System For Unsafe Content Tracking |
US8291021B2 (en) * | 2007-02-26 | 2012-10-16 | Red Hat, Inc. | Graphical spam detection and filtering |
US7975301B2 (en) * | 2007-03-05 | 2011-07-05 | Microsoft Corporation | Neighborhood clustering for web spam detection |
US8756673B2 (en) | 2007-03-30 | 2014-06-17 | Ricoh Company, Ltd. | Techniques for sharing data |
US20080243702A1 (en) * | 2007-03-30 | 2008-10-02 | Ricoh Company, Ltd. | Tokens Usable in Value-Based Transactions |
US20080250106A1 (en) * | 2007-04-03 | 2008-10-09 | George Leslie Rugg | Use of Acceptance Methods for Accepting Email and Messages |
US7861260B2 (en) | 2007-04-17 | 2010-12-28 | Almondnet, Inc. | Targeted television advertisements based on online behavior |
US8725597B2 (en) * | 2007-04-25 | 2014-05-13 | Google Inc. | Merchant scoring system and transactional database |
US20080270549A1 (en) * | 2007-04-26 | 2008-10-30 | Microsoft Corporation | Extracting link spam using random walks and spam seeds |
US8621008B2 (en) | 2007-04-26 | 2013-12-31 | Mcafee, Inc. | System, method and computer program product for performing an action based on an aspect of an electronic mail message thread |
GB0709527D0 (en) | 2007-05-18 | 2007-06-27 | Surfcontrol Plc | Electronic messaging system, message processing apparatus and message processing method |
US9083556B2 (en) * | 2007-05-31 | 2015-07-14 | Rpx Clearinghouse Llc | System and method for detectng malicious mail from spam zombies |
US7693806B2 (en) * | 2007-06-21 | 2010-04-06 | Microsoft Corporation | Classification using a cascade approach |
US8856360B2 (en) * | 2007-06-22 | 2014-10-07 | Microsoft Corporation | Automatically identifying dynamic internet protocol addresses |
US7899870B2 (en) * | 2007-06-25 | 2011-03-01 | Microsoft Corporation | Determination of participation in a malicious software campaign |
US7882177B2 (en) * | 2007-08-06 | 2011-02-01 | Yahoo! Inc. | Employing pixel density to detect a spam image |
US8199965B1 (en) | 2007-08-17 | 2012-06-12 | Mcafee, Inc. | System, method, and computer program product for preventing image-related data loss |
US20090063481A1 (en) * | 2007-08-31 | 2009-03-05 | Faus Norman L | Systems and methods for developing features for a product |
US20130276061A1 (en) | 2007-09-05 | 2013-10-17 | Gopi Krishna Chebiyyam | System, method, and computer program product for preventing access to data with respect to a data access attempt associated with a remote data sharing session |
US8117223B2 (en) * | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
DE102007045909A1 (de) * | 2007-09-26 | 2009-08-06 | T-Mobile Internationale Ag | Verfahren zum Schutz vor Viren/Spam in Mobilfunknetzen |
US20090089859A1 (en) * | 2007-09-28 | 2009-04-02 | Cook Debra L | Method and apparatus for detecting phishing attempts solicited by electronic mail |
US8446607B2 (en) * | 2007-10-01 | 2013-05-21 | Mcafee, Inc. | Method and system for policy based monitoring and blocking of printing activities on local and network printers |
US8185930B2 (en) | 2007-11-06 | 2012-05-22 | Mcafee, Inc. | Adjusting filter or classification control settings |
US8479284B1 (en) * | 2007-12-20 | 2013-07-02 | Symantec Corporation | Referrer context identification for remote object links |
JP2009157510A (ja) * | 2007-12-25 | 2009-07-16 | Nec Corp | スパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラム |
US8503302B2 (en) * | 2007-12-31 | 2013-08-06 | Telecom Italia S.P.A. | Method of detecting anomalies in a communication system using numerical packet features |
EP2227889B1 (en) * | 2007-12-31 | 2011-07-13 | Telecom Italia S.p.A. | Method of detecting anomalies in a communication system using symbolic packet features |
US20090171906A1 (en) * | 2008-01-02 | 2009-07-02 | Research In Motion Limited | System and method for providing information relating to an email being provided to an electronic device |
US20090216875A1 (en) * | 2008-02-26 | 2009-08-27 | Barracuda Inc. | Filtering secure network messages without cryptographic processes method |
US8370930B2 (en) * | 2008-02-28 | 2013-02-05 | Microsoft Corporation | Detecting spam from metafeatures of an email message |
US20090228438A1 (en) * | 2008-03-07 | 2009-09-10 | Anirban Dasgupta | Method and Apparatus for Identifying if Two Websites are Co-Owned |
US8107670B2 (en) * | 2008-03-11 | 2012-01-31 | Symantec Corporation | Scanning images for pornography |
US7996900B2 (en) * | 2008-03-14 | 2011-08-09 | Microsoft Corporation | Time travelling email messages after delivery |
US8893285B2 (en) * | 2008-03-14 | 2014-11-18 | Mcafee, Inc. | Securing data using integrated host-based data loss agent with encryption detection |
US20090240670A1 (en) * | 2008-03-20 | 2009-09-24 | Yahoo! Inc. | Uniform resource identifier alignment |
US8745731B2 (en) * | 2008-04-03 | 2014-06-03 | Microsoft Corporation | Clustering botnet behavior using parameterized models |
US8589503B2 (en) | 2008-04-04 | 2013-11-19 | Mcafee, Inc. | Prioritizing network traffic |
US8108323B2 (en) * | 2008-05-19 | 2012-01-31 | Yahoo! Inc. | Distributed spam filtering utilizing a plurality of global classifiers and a local classifier |
JP5324824B2 (ja) * | 2008-05-27 | 2013-10-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム |
US8291054B2 (en) | 2008-05-27 | 2012-10-16 | International Business Machines Corporation | Information processing system, method and program for classifying network nodes |
US20090300012A1 (en) * | 2008-05-28 | 2009-12-03 | Barracuda Inc. | Multilevel intent analysis method for email filtration |
US20090300127A1 (en) * | 2008-06-03 | 2009-12-03 | Qiang Du | E-mail forwarding method and system |
US8812377B2 (en) | 2008-06-25 | 2014-08-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Service brokering using domain name servers |
US20090327849A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Link Classification and Filtering |
EP2318955A1 (en) | 2008-06-30 | 2011-05-11 | Websense, Inc. | System and method for dynamic and real-time categorization of webpages |
US20100011420A1 (en) * | 2008-07-02 | 2010-01-14 | Barracuda Networks Inc. | Operating a service on a network as a domain name system server |
US8219644B2 (en) * | 2008-07-03 | 2012-07-10 | Barracuda Networks, Inc. | Requesting a service or transmitting content as a domain name system resolver |
US9077684B1 (en) | 2008-08-06 | 2015-07-07 | Mcafee, Inc. | System, method, and computer program product for determining whether an electronic mail message is compliant with an etiquette policy |
US10027688B2 (en) * | 2008-08-11 | 2018-07-17 | Damballa, Inc. | Method and system for detecting malicious and/or botnet-related domain names |
US20100042687A1 (en) * | 2008-08-12 | 2010-02-18 | Yahoo! Inc. | System and method for combating phishing |
US7818686B2 (en) | 2008-09-04 | 2010-10-19 | International Business Machines Corporation | System and method for accelerated web page navigation using keyboard accelerators in a data processing system |
US8826450B2 (en) * | 2008-09-19 | 2014-09-02 | Yahoo! Inc. | Detecting bulk fraudulent registration of email accounts |
US20100082749A1 (en) * | 2008-09-26 | 2010-04-01 | Yahoo! Inc | Retrospective spam filtering |
US9070116B2 (en) * | 2008-10-09 | 2015-06-30 | At&T Mobility Ii Llc | On-demand spam reporting |
JP5366504B2 (ja) * | 2008-11-05 | 2013-12-11 | Kddi株式会社 | メール受信サーバ、スパムメールの受信拒否方法およびプログラム |
US8364765B2 (en) * | 2008-11-13 | 2013-01-29 | International Business Machines Corporation | Prioritizing electronic messages based upon geographical location of the recipient |
US8447856B2 (en) * | 2008-11-25 | 2013-05-21 | Barracuda Networks, Inc. | Policy-managed DNS server for to control network traffic |
US20100174829A1 (en) * | 2009-01-06 | 2010-07-08 | Barracuda Networks, Inc | Apparatus for to provide content to and query a reverse domain name system server |
CA2751783A1 (en) * | 2009-02-08 | 2010-08-12 | Research In Motion Limited | Method and system for spam reporting with a message portion |
US8631080B2 (en) * | 2009-03-12 | 2014-01-14 | Microsoft Corporation | Email characterization |
US8166104B2 (en) * | 2009-03-19 | 2012-04-24 | Microsoft Corporation | Client-centered usage classification |
US9112850B1 (en) | 2009-03-25 | 2015-08-18 | The 41St Parameter, Inc. | Systems and methods of sharing information through a tag-based consortium |
US20100257035A1 (en) * | 2009-04-07 | 2010-10-07 | Microsoft Corporation | Embedded content brokering and advertisement selection delegation |
US20100262547A1 (en) * | 2009-04-14 | 2010-10-14 | Microsoft Corporation | User information brokering |
US20100281224A1 (en) * | 2009-05-01 | 2010-11-04 | International Buisness Machines Corporation | Prefetching content from incoming messages |
CN102598007B (zh) | 2009-05-26 | 2017-03-01 | 韦伯森斯公司 | 有效检测采指纹数据和信息的系统和方法 |
US8549627B2 (en) * | 2009-06-13 | 2013-10-01 | Microsoft Corporation | Detection of objectionable videos |
US8925087B1 (en) * | 2009-06-19 | 2014-12-30 | Trend Micro Incorporated | Apparatus and methods for in-the-cloud identification of spam and/or malware |
US8959157B2 (en) * | 2009-06-26 | 2015-02-17 | Microsoft Corporation | Real-time spam look-up system |
JP2011034417A (ja) * | 2009-08-04 | 2011-02-17 | Kddi Corp | 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム |
JP2011034416A (ja) * | 2009-08-04 | 2011-02-17 | Kddi Corp | 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム |
US8654655B2 (en) * | 2009-12-17 | 2014-02-18 | Thomson Licensing | Detecting and classifying anomalies in communication networks |
US8578497B2 (en) | 2010-01-06 | 2013-11-05 | Damballa, Inc. | Method and system for detecting malware |
US8826438B2 (en) | 2010-01-19 | 2014-09-02 | Damballa, Inc. | Method and system for network-based detecting of malware from behavioral clustering |
US8316094B1 (en) * | 2010-01-21 | 2012-11-20 | Symantec Corporation | Systems and methods for identifying spam mailing lists |
US9838349B2 (en) * | 2010-03-08 | 2017-12-05 | Microsoft Technology Licensing, Llc | Zone classification of electronic mail messages |
US20110225076A1 (en) * | 2010-03-09 | 2011-09-15 | Google Inc. | Method and system for detecting fraudulent internet merchants |
US9652802B1 (en) | 2010-03-24 | 2017-05-16 | Consumerinfo.Com, Inc. | Indirect monitoring and reporting of a user's credit data |
US9634993B2 (en) | 2010-04-01 | 2017-04-25 | Cloudflare, Inc. | Internet-based proxy service to modify internet responses |
US9049247B2 (en) | 2010-04-01 | 2015-06-02 | Cloudfare, Inc. | Internet-based proxy service for responding to server offline errors |
US8086684B2 (en) | 2010-04-20 | 2011-12-27 | The Go Daddy Group, Inc. | Detecting and mitigating undeliverable email |
US8621638B2 (en) | 2010-05-14 | 2013-12-31 | Mcafee, Inc. | Systems and methods for classification of messaging entities |
US20110289434A1 (en) * | 2010-05-20 | 2011-11-24 | Barracuda Networks, Inc. | Certified URL checking, caching, and categorization service |
US8707420B2 (en) | 2010-05-21 | 2014-04-22 | Microsoft Corporation | Trusted e-mail communication in a multi-tenant environment |
US9516058B2 (en) | 2010-08-10 | 2016-12-06 | Damballa, Inc. | Method and system for determining whether domain names are legitimate or malicious |
CA2810852C (en) | 2010-09-10 | 2016-06-21 | David Jaray Hanson | System and method for providing a plurality of prioritised email domain names |
US8498998B2 (en) * | 2010-10-11 | 2013-07-30 | International Business Machines Corporation | Grouping identity records to generate candidate lists to use in an entity and relationship resolution process |
US9148432B2 (en) * | 2010-10-12 | 2015-09-29 | Microsoft Technology Licensing, Llc | Range weighted internet protocol address blacklist |
US8396876B2 (en) | 2010-11-30 | 2013-03-12 | Yahoo! Inc. | Identifying reliable and authoritative sources of multimedia content |
US8695092B2 (en) | 2010-12-06 | 2014-04-08 | Microsoft Corporation | Host IP reputation |
US8885931B2 (en) * | 2011-01-26 | 2014-11-11 | Microsoft Corporation | Mitigating use of machine solvable HIPs |
US8631489B2 (en) | 2011-02-01 | 2014-01-14 | Damballa, Inc. | Method and system for detecting malicious domain names at an upper DNS hierarchy |
US9461878B1 (en) * | 2011-02-01 | 2016-10-04 | Palo Alto Networks, Inc. | Blocking download of content |
US8554907B1 (en) * | 2011-02-15 | 2013-10-08 | Trend Micro, Inc. | Reputation prediction of IP addresses |
EP3462317A1 (en) | 2011-02-18 | 2019-04-03 | CSidentity Corporation | System and methods for identifying compromised personally identifiable information on the internet |
US8626856B2 (en) * | 2011-04-11 | 2014-01-07 | Microsoft Corporation | Geo-data spam filter |
RU2453916C1 (ru) * | 2011-05-05 | 2012-06-20 | Игорь Викторович Лебедев | Способ поиска информационных ресурсов с использованием переадресаций |
US9117074B2 (en) | 2011-05-18 | 2015-08-25 | Microsoft Technology Licensing, Llc | Detecting a compromised online user account |
US8285808B1 (en) | 2011-05-20 | 2012-10-09 | Cloudflare, Inc. | Loading of web resources |
US8621556B1 (en) * | 2011-05-25 | 2013-12-31 | Palo Alto Networks, Inc. | Dynamic resolution of fully qualified domain name (FQDN) address objects in policy definitions |
US9087324B2 (en) | 2011-07-12 | 2015-07-21 | Microsoft Technology Licensing, Llc | Message categorization |
US9065826B2 (en) | 2011-08-08 | 2015-06-23 | Microsoft Technology Licensing, Llc | Identifying application reputation based on resource accesses |
US9442881B1 (en) | 2011-08-31 | 2016-09-13 | Yahoo! Inc. | Anti-spam transient entity classification |
US11030562B1 (en) | 2011-10-31 | 2021-06-08 | Consumerinfo.Com, Inc. | Pre-data breach monitoring |
US10754913B2 (en) | 2011-11-15 | 2020-08-25 | Tapad, Inc. | System and method for analyzing user device information |
US8954492B1 (en) * | 2011-11-30 | 2015-02-10 | F5 Networks, Inc. | Methods for inlining content externally referenced in a web page prior to providing the web page to a requestor and devices thereof |
KR101253616B1 (ko) * | 2011-12-09 | 2013-04-11 | 한국인터넷진흥원 | 네트워크 경로 추적 장치 및 방법 |
US9633201B1 (en) | 2012-03-01 | 2017-04-25 | The 41St Parameter, Inc. | Methods and systems for fraud containment |
US8819227B1 (en) * | 2012-03-19 | 2014-08-26 | Narus, Inc. | Discerning web content and services based on real-time DNS tagging |
US9521551B2 (en) | 2012-03-22 | 2016-12-13 | The 41St Parameter, Inc. | Methods and systems for persistent cross-application mobile device identification |
TWI478561B (zh) * | 2012-04-05 | 2015-03-21 | Inst Information Industry | 網域追蹤方法與系統及其電腦可讀取記錄媒體 |
US8396935B1 (en) * | 2012-04-10 | 2013-03-12 | Google Inc. | Discovering spam merchants using product feed similarity |
EP2880619A1 (en) | 2012-08-02 | 2015-06-10 | The 41st Parameter, Inc. | Systems and methods for accessing records via derivative locators |
US10547674B2 (en) | 2012-08-27 | 2020-01-28 | Help/Systems, Llc | Methods and systems for network flow analysis |
US10084806B2 (en) | 2012-08-31 | 2018-09-25 | Damballa, Inc. | Traffic simulation to identify malicious activity |
US9894088B2 (en) | 2012-08-31 | 2018-02-13 | Damballa, Inc. | Data mining to identify malicious activity |
US9680861B2 (en) | 2012-08-31 | 2017-06-13 | Damballa, Inc. | Historical analysis to identify malicious activity |
US9166994B2 (en) | 2012-08-31 | 2015-10-20 | Damballa, Inc. | Automation discovery to identify malicious activity |
US8667074B1 (en) * | 2012-09-11 | 2014-03-04 | Bradford L. Farkas | Systems and methods for email tracking and email spam reduction using dynamic email addressing schemes |
US8898272B1 (en) | 2012-10-02 | 2014-11-25 | Amazon Technologies, Inc. | Identifying information in resource locators |
US9326218B2 (en) * | 2012-11-02 | 2016-04-26 | Telefonaktiebolaget L M Ericsson (Publ) | Base-station-to-base-station gateway and related devices, methods, and systems |
WO2014078569A1 (en) | 2012-11-14 | 2014-05-22 | The 41St Parameter, Inc. | Systems and methods of global identification |
US9241259B2 (en) | 2012-11-30 | 2016-01-19 | Websense, Inc. | Method and apparatus for managing the transfer of sensitive information to mobile devices |
US9531736B1 (en) | 2012-12-24 | 2016-12-27 | Narus, Inc. | Detecting malicious HTTP redirections using user browsing activity trees |
US9027128B1 (en) * | 2013-02-07 | 2015-05-05 | Trend Micro Incorporated | Automatic identification of malicious budget codes and compromised websites that are employed in phishing attacks |
US8812387B1 (en) | 2013-03-14 | 2014-08-19 | Csidentity Corporation | System and method for identifying related credit inquiries |
US9571511B2 (en) | 2013-06-14 | 2017-02-14 | Damballa, Inc. | Systems and methods for traffic classification |
ITTO20130513A1 (it) * | 2013-06-21 | 2014-12-22 | Sisvel Technology Srl | Sistema e metodo per il filtraggio di messaggi elettronici |
US9811830B2 (en) | 2013-07-03 | 2017-11-07 | Google Inc. | Method, medium, and system for online fraud prevention based on user physical location data |
US9258260B2 (en) | 2013-08-19 | 2016-02-09 | Microsoft Technology Licensing, Llc | Filtering electronic messages based on domain attributes without reputation |
US10902327B1 (en) | 2013-08-30 | 2021-01-26 | The 41St Parameter, Inc. | System and method for device identification and uniqueness |
RU2595533C2 (ru) * | 2013-10-02 | 2016-08-27 | Общество С Ограниченной Ответственностью "Яндекс" | Система отображения почтовых вложений на странице веб-почты |
CN104601736B (zh) * | 2013-10-30 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 一种短url服务的实现方法及装置 |
US9239737B2 (en) | 2013-11-15 | 2016-01-19 | Sap Se | Concise resource addressing |
US11568280B1 (en) * | 2019-01-23 | 2023-01-31 | Amdocs Development Limited | System, method, and computer program for parental controls and recommendations based on artificial intelligence |
US10778618B2 (en) * | 2014-01-09 | 2020-09-15 | Oath Inc. | Method and system for classifying man vs. machine generated e-mail |
WO2015137249A1 (ja) * | 2014-03-13 | 2015-09-17 | 日本電信電話株式会社 | 監視装置、監視方法、および、監視プログラム |
KR101561289B1 (ko) | 2014-03-13 | 2015-10-16 | (주)코리아센터닷컴 | 메시지 편집 장치 |
US10079791B2 (en) * | 2014-03-14 | 2018-09-18 | Xpedite Systems, Llc | Systems and methods for domain- and auto-registration |
US10896421B2 (en) | 2014-04-02 | 2021-01-19 | Brighterion, Inc. | Smart retail analytics and commercial messaging |
US9928465B2 (en) | 2014-05-20 | 2018-03-27 | Oath Inc. | Machine learning and validation of account names, addresses, and/or identifiers |
US10078750B1 (en) | 2014-06-13 | 2018-09-18 | Trend Micro Incorporated | Methods and systems for finding compromised social networking accounts |
US10027702B1 (en) | 2014-06-13 | 2018-07-17 | Trend Micro Incorporated | Identification of malicious shortened uniform resource locators |
US9571452B2 (en) * | 2014-07-01 | 2017-02-14 | Sophos Limited | Deploying a security policy based on domain names |
US11838851B1 (en) | 2014-07-15 | 2023-12-05 | F5, Inc. | Methods for managing L7 traffic classification and devices thereof |
US20150032589A1 (en) | 2014-08-08 | 2015-01-29 | Brighterion, Inc. | Artificial intelligence fraud management solution |
US20150066771A1 (en) | 2014-08-08 | 2015-03-05 | Brighterion, Inc. | Fast access vectors in real-time behavioral profiling |
US9280661B2 (en) | 2014-08-08 | 2016-03-08 | Brighterion, Inc. | System administrator behavior analysis |
US20150339673A1 (en) | 2014-10-28 | 2015-11-26 | Brighterion, Inc. | Method for detecting merchant data breaches with a computer network server |
US20160055427A1 (en) | 2014-10-15 | 2016-02-25 | Brighterion, Inc. | Method for providing data science, artificial intelligence and machine learning as-a-service |
US9560074B2 (en) * | 2014-10-07 | 2017-01-31 | Cloudmark, Inc. | Systems and methods of identifying suspicious hostnames |
US10091312B1 (en) | 2014-10-14 | 2018-10-02 | The 41St Parameter, Inc. | Data structures for intelligently resolving deterministic and probabilistic device identifiers to device profiles and/or groups |
US10546099B2 (en) | 2014-10-15 | 2020-01-28 | Brighterion, Inc. | Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers |
US20160078367A1 (en) | 2014-10-15 | 2016-03-17 | Brighterion, Inc. | Data clean-up method for improving predictive model training |
US20160071017A1 (en) | 2014-10-15 | 2016-03-10 | Brighterion, Inc. | Method of operating artificial intelligence machines to improve predictive model training and performance |
US11080709B2 (en) | 2014-10-15 | 2021-08-03 | Brighterion, Inc. | Method of reducing financial losses in multiple payment channels upon a recognition of fraud first appearing in any one payment channel |
US20160063502A1 (en) | 2014-10-15 | 2016-03-03 | Brighterion, Inc. | Method for improving operating profits with better automated decision making with artificial intelligence |
US10290001B2 (en) | 2014-10-28 | 2019-05-14 | Brighterion, Inc. | Data breach detection |
US10339527B1 (en) | 2014-10-31 | 2019-07-02 | Experian Information Solutions, Inc. | System and architecture for electronic fraud detection |
TWI544764B (zh) | 2014-11-17 | 2016-08-01 | 緯創資通股份有限公司 | 垃圾郵件判定方法及其郵件伺服器 |
RU2580424C1 (ru) * | 2014-11-28 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
US10182013B1 (en) | 2014-12-01 | 2019-01-15 | F5 Networks, Inc. | Methods for managing progressive image delivery and devices thereof |
US20200067861A1 (en) * | 2014-12-09 | 2020-02-27 | ZapFraud, Inc. | Scam evaluation system |
US11895138B1 (en) | 2015-02-02 | 2024-02-06 | F5, Inc. | Methods for improving web scanner accuracy and devices thereof |
EP3252646B1 (en) * | 2015-03-05 | 2019-06-05 | Nippon Telegraph and Telephone Corporation | Device for calculating maliciousness of communication destination, method for calculating maliciousness of communication destination, and program for calculating maliciousness of communication destination |
US9930065B2 (en) | 2015-03-25 | 2018-03-27 | University Of Georgia Research Foundation, Inc. | Measuring, categorizing, and/or mitigating malware distribution paths |
US9736185B1 (en) | 2015-04-21 | 2017-08-15 | Infoblox Inc. | DNS or network metadata policy for network control |
US9521157B1 (en) * | 2015-06-24 | 2016-12-13 | Bank Of America Corporation | Identifying and assessing malicious resources |
US11151468B1 (en) | 2015-07-02 | 2021-10-19 | Experian Information Solutions, Inc. | Behavior analysis using distributed representations of event data |
US10671915B2 (en) | 2015-07-31 | 2020-06-02 | Brighterion, Inc. | Method for calling for preemptive maintenance and for equipment failure prevention |
US9762542B2 (en) * | 2015-08-04 | 2017-09-12 | Farsight Security, Inc. | Parallel detection of updates to a domain name system record system using a common filter |
US10057198B1 (en) | 2015-11-05 | 2018-08-21 | Trend Micro Incorporated | Controlling social network usage in enterprise environments |
US10305839B2 (en) | 2015-11-17 | 2019-05-28 | Clover Leaf Environmental Solutions, Inc. | Electronic information system enabling email-based transactions with forms |
US11856260B2 (en) * | 2016-03-30 | 2023-12-26 | Covenant Eyes, Inc. | Applications, systems and methods to monitor, filter and/or alter output of a computing device |
US10313348B2 (en) * | 2016-09-19 | 2019-06-04 | Fortinet, Inc. | Document classification by a hybrid classifier |
LT3297221T (lt) | 2016-09-19 | 2018-12-27 | Retarus Gmbh | Įtartinų elektroninių pranešimų aptikimo būdas |
US10346223B1 (en) * | 2016-11-23 | 2019-07-09 | Google Llc | Selective obfuscation of notifications |
US10284579B2 (en) * | 2017-03-22 | 2019-05-07 | Vade Secure, Inc. | Detection of email spoofing and spear phishing attacks |
EP3389237B1 (de) * | 2017-04-10 | 2019-04-03 | ise Individuelle Software und Elektronik GmbH | Verfahren, vorrichtung, computerlesbares medium und system zum aufbau von verbindungen zwischen einem client und einem ziel- oder endgerät |
US11757914B1 (en) * | 2017-06-07 | 2023-09-12 | Agari Data, Inc. | Automated responsive message to determine a security risk of a message sender |
US10805259B2 (en) | 2017-06-30 | 2020-10-13 | Microsoft Technology Licensing, Llc | Geolocation using reverse domain name server information |
US10708297B2 (en) | 2017-08-25 | 2020-07-07 | Ecrime Management Strategies, Inc. | Security system for detection and mitigation of malicious communications |
US11665195B2 (en) | 2017-08-31 | 2023-05-30 | Barracuda Networks, Inc. | System and method for email account takeover detection and remediation utilizing anonymized datasets |
US10778717B2 (en) | 2017-08-31 | 2020-09-15 | Barracuda Networks, Inc. | System and method for email account takeover detection and remediation |
US11563757B2 (en) | 2017-08-31 | 2023-01-24 | Barracuda Networks, Inc. | System and method for email account takeover detection and remediation utilizing AI models |
US10891373B2 (en) * | 2017-08-31 | 2021-01-12 | Micro Focus Llc | Quarantining electronic messages based on relationships among associated addresses |
EP3675433A4 (en) * | 2017-09-14 | 2020-09-30 | Mitsubishi Electric Corporation | ELECTRONIC MAIL INSPECTION DEVICE, METHOD AND PROGRAM |
US10699028B1 (en) | 2017-09-28 | 2020-06-30 | Csidentity Corporation | Identity security architecture systems and methods |
US10896472B1 (en) | 2017-11-14 | 2021-01-19 | Csidentity Corporation | Security and identity verification system and architecture |
RU2672616C1 (ru) * | 2017-11-22 | 2018-11-16 | Акционерное общество "МаксимаТелеком" | Комплекс и способ для предотвращения блокировки рекламного контента |
US11044213B2 (en) * | 2017-12-19 | 2021-06-22 | Nice Ltd. | Systems and methods for invisible identification of agents participating in on-line communication sessions |
US20190342297A1 (en) | 2018-05-01 | 2019-11-07 | Brighterion, Inc. | Securing internet-of-things with smart-agent technology |
EP3614280A1 (de) * | 2018-08-20 | 2020-02-26 | Siemens Aktiengesellschaft | Bestimmen eines ergebniswerts einer uniform resource identifier-, uri, zeichenfolge |
US10965691B1 (en) * | 2018-09-28 | 2021-03-30 | Verizon Media Inc. | Systems and methods for establishing sender-level trust in communications using sender-recipient pair data |
US11050793B2 (en) | 2018-12-19 | 2021-06-29 | Abnormal Security Corporation | Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior |
US11824870B2 (en) | 2018-12-19 | 2023-11-21 | Abnormal Security Corporation | Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time |
US10686826B1 (en) | 2019-03-28 | 2020-06-16 | Vade Secure Inc. | Optical scanning parameters computation methods, devices and systems for malicious URL detection |
US11526572B2 (en) * | 2019-08-07 | 2022-12-13 | Acxiom Llc | System and method for ethical collection of data |
US11710137B2 (en) | 2019-08-23 | 2023-07-25 | Yandex Europe Ag | Method and system for identifying electronic devices of genuine customers of organizations |
US11411919B2 (en) | 2019-10-01 | 2022-08-09 | EXFO Solutions SAS | Deep packet inspection application classification systems and methods |
RU2752241C2 (ru) | 2019-12-25 | 2021-07-23 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для выявления вредоносной активности предопределенного типа в локальной сети |
US11050879B1 (en) * | 2019-12-31 | 2021-06-29 | First Orion Corp. | Call traffic data monitoring and management |
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
US11784948B2 (en) * | 2020-01-29 | 2023-10-10 | International Business Machines Corporation | Cognitive determination of message suitability |
WO2021178423A1 (en) | 2020-03-02 | 2021-09-10 | Abnormal Security Corporation | Multichannel threat detection for protecting against account compromise |
US10945051B1 (en) | 2020-04-06 | 2021-03-09 | Bank Of America Corporation | System and method for intentionally distorting digital media to reduce the accuracy of generative machine learning algorithms |
EP4139801A1 (en) | 2020-04-23 | 2023-03-01 | Abnormal Security Corporation | Detection and prevention of external fraud |
US11108714B1 (en) * | 2020-07-29 | 2021-08-31 | Vmware, Inc. | Integration of an email client with hosted applications |
KR102527260B1 (ko) * | 2020-09-15 | 2023-04-27 | 주식회사 카카오 | 스팸 url을 판단하는 방법 및 시스템 |
US11563659B2 (en) | 2020-10-13 | 2023-01-24 | Vmware, Inc. | Edge alert coordinator for mobile devices |
US11528242B2 (en) * | 2020-10-23 | 2022-12-13 | Abnormal Security Corporation | Discovering graymail through real-time analysis of incoming email |
US11687648B2 (en) | 2020-12-10 | 2023-06-27 | Abnormal Security Corporation | Deriving and surfacing insights regarding security threats |
CN112733898A (zh) * | 2020-12-30 | 2021-04-30 | 光通天下网络科技股份有限公司 | 基于特征权重的数据鉴别方法、装置、电子设备及介质 |
US11882131B1 (en) * | 2020-12-31 | 2024-01-23 | Proofpoint, Inc. | Systems and methods for prioritizing URL review for sandboxing based on accelerated velocities of URL features in network traffic |
US11277375B1 (en) * | 2021-01-04 | 2022-03-15 | Saudi Arabian Oil Company | Sender policy framework (SPF) configuration validator and security examinator |
US11570149B2 (en) | 2021-03-30 | 2023-01-31 | Palo Alto Networks, Inc. | Feedback mechanism to enforce a security policy |
US11831661B2 (en) | 2021-06-03 | 2023-11-28 | Abnormal Security Corporation | Multi-tiered approach to payload detection for incoming communications |
US11829423B2 (en) * | 2021-06-25 | 2023-11-28 | Microsoft Technology Licensing, Llc | Determining that a resource is spam based upon a uniform resource locator of the webpage |
WO2023096964A1 (en) * | 2021-11-23 | 2023-06-01 | Insurance Services Office, Inc. | Systems and methods for automatic url identification from data |
US20230336571A1 (en) * | 2022-04-19 | 2023-10-19 | Akamai Technologies, Inc. | Real-time detection and prevention of online new-account creation fraud and abuse |
KR102472447B1 (ko) * | 2022-06-13 | 2022-11-30 | (주)유알피시스템 | 머신러닝을 이용한 복합 문서내 특정 콘텐츠 자동 차단 시스템 및 방법 |
Family Cites Families (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8918553D0 (en) | 1989-08-15 | 1989-09-27 | Digital Equipment Int | Message control system |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US5619648A (en) | 1994-11-30 | 1997-04-08 | Lucent Technologies Inc. | Message filtering techniques |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
GB2316588B (en) | 1995-05-08 | 2000-05-31 | Compuserve Inc | Rules based electronic message management system |
US5845077A (en) * | 1995-11-27 | 1998-12-01 | Microsoft Corporation | Method and system for identifying and obtaining computer software from a remote computer |
US6101531A (en) * | 1995-12-19 | 2000-08-08 | Motorola, Inc. | System for communicating user-selected criteria filter prepared at wireless client to communication server for filtering data transferred from host to said wireless client |
US5704017A (en) * | 1996-02-16 | 1997-12-30 | Microsoft Corporation | Collaborative filtering utilizing a belief network |
US5884033A (en) * | 1996-05-15 | 1999-03-16 | Spyglass, Inc. | Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions |
US6151643A (en) | 1996-06-07 | 2000-11-21 | Networks Associates, Inc. | Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer |
US6453327B1 (en) * | 1996-06-10 | 2002-09-17 | Sun Microsystems, Inc. | Method and apparatus for identifying and discarding junk electronic mail |
US6072942A (en) | 1996-09-18 | 2000-06-06 | Secure Computing Corporation | System and method of electronic mail filtering using interconnected nodes |
DE69607166T2 (de) * | 1996-10-15 | 2000-12-14 | St Microelectronics Srl | Elektronische Anordnung zur Durchführung von Konvolutionsoperationen |
US5805801A (en) * | 1997-01-09 | 1998-09-08 | International Business Machines Corporation | System and method for detecting and preventing security |
US5905859A (en) * | 1997-01-09 | 1999-05-18 | International Business Machines Corporation | Managed network device security method and apparatus |
US6122657A (en) * | 1997-02-04 | 2000-09-19 | Networks Associates, Inc. | Internet computer system with methods for dynamic filtering of hypertext tags and content |
US6742047B1 (en) * | 1997-03-27 | 2004-05-25 | Intel Corporation | Method and apparatus for dynamically filtering network content |
DE69724235T2 (de) * | 1997-05-28 | 2004-02-26 | Siemens Ag | Computersystem und Verfahren zum Schutz von Software |
US7117358B2 (en) * | 1997-07-24 | 2006-10-03 | Tumbleweed Communications Corp. | Method and system for filtering communication |
US20050081059A1 (en) * | 1997-07-24 | 2005-04-14 | Bandini Jean-Christophe Denis | Method and system for e-mail filtering |
US6199102B1 (en) * | 1997-08-26 | 2001-03-06 | Christopher Alan Cobb | Method and system for filtering electronic messages |
RU2127959C1 (ru) | 1997-11-17 | 1999-03-20 | Борис Семенович Пинскер | Способ исключения нежелательной информации в режиме приема программ телевизионным приемником и устройство для его осуществления |
US6041324A (en) | 1997-11-17 | 2000-03-21 | International Business Machines Corporation | System and method for identifying valid portion of computer resource identifier |
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6393465B2 (en) * | 1997-11-25 | 2002-05-21 | Nixmail Corporation | Junk electronic mail detector and eliminator |
US6351740B1 (en) | 1997-12-01 | 2002-02-26 | The Board Of Trustees Of The Leland Stanford Junior University | Method and system for training dynamic nonlinear adaptive filters which have embedded memory |
US6023723A (en) * | 1997-12-22 | 2000-02-08 | Accepted Marketing, Inc. | Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms |
WO1999032985A1 (en) * | 1997-12-22 | 1999-07-01 | Accepted Marketing, Inc. | E-mail filter and method thereof |
US6052709A (en) * | 1997-12-23 | 2000-04-18 | Bright Light Technologies, Inc. | Apparatus and method for controlling delivery of unsolicited electronic mail |
GB2334116A (en) * | 1998-02-04 | 1999-08-11 | Ibm | Scheduling and dispatching queued client requests within a server computer |
US6484261B1 (en) * | 1998-02-17 | 2002-11-19 | Cisco Technology, Inc. | Graphical network security policy management |
US6504941B2 (en) * | 1998-04-30 | 2003-01-07 | Hewlett-Packard Company | Method and apparatus for digital watermarking of images |
US6314421B1 (en) * | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6074942A (en) * | 1998-06-03 | 2000-06-13 | Worldwide Semiconductor Manufacturing Corporation | Method for forming a dual damascene contact and interconnect |
US6308273B1 (en) * | 1998-06-12 | 2001-10-23 | Microsoft Corporation | Method and system of security location discrimination |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6167434A (en) * | 1998-07-15 | 2000-12-26 | Pang; Stephen Y. | Computer code for removing junk e-mail messages |
US7275082B2 (en) * | 1998-07-15 | 2007-09-25 | Pang Stephen Y F | System for policing junk e-mail messages |
US6112227A (en) * | 1998-08-06 | 2000-08-29 | Heiner; Jeffrey Nelson | Filter-in method for reducing junk e-mail |
US6434600B2 (en) * | 1998-09-15 | 2002-08-13 | Microsoft Corporation | Methods and systems for securely delivering electronic mail to hosts having dynamic IP addresses |
US6732273B1 (en) * | 1998-10-21 | 2004-05-04 | Lucent Technologies Inc. | Priority and security coding system for electronic mail messages |
GB2343529B (en) * | 1998-11-07 | 2003-06-11 | Ibm | Filtering incoming e-mail |
US6546416B1 (en) * | 1998-12-09 | 2003-04-08 | Infoseek Corporation | Method and system for selectively blocking delivery of bulk electronic mail |
US6643686B1 (en) * | 1998-12-18 | 2003-11-04 | At&T Corp. | System and method for counteracting message filtering |
US6615242B1 (en) * | 1998-12-28 | 2003-09-02 | At&T Corp. | Automatic uniform resource locator-based message filter |
US6654787B1 (en) * | 1998-12-31 | 2003-11-25 | Brightmail, Incorporated | Method and apparatus for filtering e-mail |
US6266692B1 (en) * | 1999-01-04 | 2001-07-24 | International Business Machines Corporation | Method for blocking all unwanted e-mail (SPAM) using a header-based password |
US6330590B1 (en) * | 1999-01-05 | 2001-12-11 | William D. Cotten | Preventing delivery of unwanted bulk e-mail |
US6424997B1 (en) * | 1999-01-27 | 2002-07-23 | International Business Machines Corporation | Machine learning based electronic messaging system |
US6449634B1 (en) * | 1999-01-29 | 2002-09-10 | Digital Impact, Inc. | Method and system for remotely sensing the file formats processed by an E-mail client |
US6477551B1 (en) * | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
US7032030B1 (en) * | 1999-03-11 | 2006-04-18 | John David Codignotto | Message publishing system and method |
US6732149B1 (en) * | 1999-04-09 | 2004-05-04 | International Business Machines Corporation | System and method for hindering undesired transmission or receipt of electronic messages |
US6370526B1 (en) * | 1999-05-18 | 2002-04-09 | International Business Machines Corporation | Self-adaptive method and system for providing a user-preferred ranking order of object sets |
US6592627B1 (en) * | 1999-06-10 | 2003-07-15 | International Business Machines Corporation | System and method for organizing repositories of semi-structured documents such as email |
AU7080700A (en) * | 1999-09-01 | 2001-03-26 | Peter L. Katsikas | System for eliminating unauthorized electronic mail |
US6449636B1 (en) * | 1999-09-08 | 2002-09-10 | Nortel Networks Limited | System and method for creating a dynamic data file from collected and filtered web pages |
US6321267B1 (en) * | 1999-11-23 | 2001-11-20 | Escom Corporation | Method and apparatus for filtering junk email |
US6728690B1 (en) * | 1999-11-23 | 2004-04-27 | Microsoft Corporation | Classification system trainer employing maximum margin back-propagation with probabilistic outputs |
US6915344B1 (en) * | 1999-11-30 | 2005-07-05 | Microsoft Corporation | Server stress-testing response verification |
US6633855B1 (en) | 2000-01-06 | 2003-10-14 | International Business Machines Corporation | Method, system, and program for filtering content using neural networks |
US6701440B1 (en) * | 2000-01-06 | 2004-03-02 | Networks Associates Technology, Inc. | Method and system for protecting a computer using a remote e-mail scanning device |
US7822977B2 (en) | 2000-02-08 | 2010-10-26 | Katsikas Peter L | System for eliminating unauthorized electronic mail |
US6438584B1 (en) | 2000-03-07 | 2002-08-20 | Letter Services, Inc. | Automatic generation of graphically-composed correspondence via a text email-interface |
US6691156B1 (en) * | 2000-03-10 | 2004-02-10 | International Business Machines Corporation | Method for restricting delivery of unsolicited E-mail |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
US7210099B2 (en) * | 2000-06-12 | 2007-04-24 | Softview Llc | Resolution independent vector display of internet content |
US20040073617A1 (en) * | 2000-06-19 | 2004-04-15 | Milliken Walter Clark | Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail |
US6990513B2 (en) * | 2000-06-22 | 2006-01-24 | Microsoft Corporation | Distributed computing services platform |
US7003555B1 (en) * | 2000-06-23 | 2006-02-21 | Cloudshield Technologies, Inc. | Apparatus and method for domain name resolution |
TW533702B (en) * | 2000-07-28 | 2003-05-21 | Wistron Corp | Network communication system and dynamic message routing method therefor |
US6779021B1 (en) * | 2000-07-28 | 2004-08-17 | International Business Machines Corporation | Method and system for predicting and managing undesirable electronic mail |
US6842773B1 (en) * | 2000-08-24 | 2005-01-11 | Yahoo ! Inc. | Processing of textual electronic communication distributed in bulk |
US6971023B1 (en) * | 2000-10-03 | 2005-11-29 | Mcafee, Inc. | Authorizing an additional computer program module for use with a core computer program |
US6757830B1 (en) * | 2000-10-03 | 2004-06-29 | Networks Associates Technology, Inc. | Detecting unwanted properties in received email messages |
US6748422B2 (en) | 2000-10-19 | 2004-06-08 | Ebay Inc. | System and method to control sending of unsolicited communications relating to a plurality of listings in a network-based commerce facility |
US7243125B2 (en) * | 2000-12-08 | 2007-07-10 | Xerox Corporation | Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material |
JP3554271B2 (ja) * | 2000-12-13 | 2004-08-18 | パナソニック コミュニケーションズ株式会社 | 情報通信装置 |
US6775704B1 (en) * | 2000-12-28 | 2004-08-10 | Networks Associates Technology, Inc. | System and method for preventing a spoofed remote procedure call denial of service attack in a networked computing environment |
US20050159136A1 (en) * | 2000-12-29 | 2005-07-21 | Andrew Rouse | System and method for providing wireless device access |
US20020129111A1 (en) | 2001-01-15 | 2002-09-12 | Cooper Gerald M. | Filtering unsolicited email |
US6941466B2 (en) * | 2001-02-22 | 2005-09-06 | International Business Machines Corporation | Method and apparatus for providing automatic e-mail filtering based on message semantics, sender's e-mail ID, and user's identity |
US20020124025A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporataion | Scanning and outputting textual information in web page images |
GB2373130B (en) | 2001-03-05 | 2004-09-22 | Messagelabs Ltd | Method of,and system for,processing email in particular to detect unsolicited bulk email |
US6928465B2 (en) * | 2001-03-16 | 2005-08-09 | Wells Fargo Bank, N.A. | Redundant email address detection and capture system |
US6751348B2 (en) * | 2001-03-29 | 2004-06-15 | Fotonation Holdings, Llc | Automated detection of pornographic images |
US8949878B2 (en) * | 2001-03-30 | 2015-02-03 | Funai Electric Co., Ltd. | System for parental control in video programs based on multimedia content information |
US6920477B2 (en) * | 2001-04-06 | 2005-07-19 | President And Fellows Of Harvard College | Distributed, compressed Bloom filter Web cache server |
US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US8095597B2 (en) * | 2001-05-01 | 2012-01-10 | Aol Inc. | Method and system of automating data capture from electronic correspondence |
US7103599B2 (en) * | 2001-05-15 | 2006-09-05 | Verizon Laboratories Inc. | Parsing of nested internet electronic mail documents |
US6768991B2 (en) * | 2001-05-15 | 2004-07-27 | Networks Associates Technology, Inc. | Searching for sequences of character data |
US20030009698A1 (en) * | 2001-05-30 | 2003-01-09 | Cascadezone, Inc. | Spam avenger |
US7502829B2 (en) * | 2001-06-21 | 2009-03-10 | Cybersoft, Inc. | Apparatus, methods and articles of manufacture for intercepting, examining and controlling code, data and files and their transfer |
US20030009495A1 (en) * | 2001-06-29 | 2003-01-09 | Akli Adjaoute | Systems and methods for filtering electronic content |
US7328250B2 (en) * | 2001-06-29 | 2008-02-05 | Nokia, Inc. | Apparatus and method for handling electronic mail |
TW533380B (en) * | 2001-07-23 | 2003-05-21 | Ulead Systems Inc | Group image detecting method |
US6769016B2 (en) * | 2001-07-26 | 2004-07-27 | Networks Associates Technology, Inc. | Intelligent SPAM detection system using an updateable neural analysis engine |
US7146402B2 (en) | 2001-08-31 | 2006-12-05 | Sendmail, Inc. | E-mail system providing filtering methodology on a per-domain basis |
KR100369282B1 (ko) | 2001-09-28 | 2003-01-24 | 주식회사 케이티 | 가상 전자우편주소를 이용한 스팸메일 방지 서비스 시스템및 그 방법 |
JP3590936B2 (ja) | 2001-10-06 | 2004-11-17 | テラス テクノロジーズ,インコーポレイテッド | 動的ipフィルタリングモジュールを有する電子メールサービスシステム及び動的ipアドレスフィルタリング方法 |
US20060036701A1 (en) * | 2001-11-20 | 2006-02-16 | Bulfer Andrew F | Messaging system having message filtering and access control |
US8561167B2 (en) * | 2002-03-08 | 2013-10-15 | Mcafee, Inc. | Web reputation scoring |
JP2003263391A (ja) | 2002-03-11 | 2003-09-19 | Nec Corp | 迷惑メールのフィルタリング方式 |
US6785820B1 (en) * | 2002-04-02 | 2004-08-31 | Networks Associates Technology, Inc. | System, method and computer program product for conditionally updating a security program |
US20030204569A1 (en) * | 2002-04-29 | 2003-10-30 | Michael R. Andrews | Method and apparatus for filtering e-mail infected with a previously unidentified computer virus |
US20030229672A1 (en) * | 2002-06-05 | 2003-12-11 | Kohn Daniel Mark | Enforceable spam identification and reduction system, and method thereof |
US8046832B2 (en) * | 2002-06-26 | 2011-10-25 | Microsoft Corporation | Spam detector with challenges |
US8924484B2 (en) * | 2002-07-16 | 2014-12-30 | Sonicwall, Inc. | Active e-mail filter with challenge-response |
US7363490B2 (en) * | 2002-09-12 | 2008-04-22 | International Business Machines Corporation | Method and system for selective email acceptance via encoded email identifiers |
US7188369B2 (en) * | 2002-10-03 | 2007-03-06 | Trend Micro, Inc. | System and method having an antivirus virtual scanning processor with plug-in functionalities |
US20040083270A1 (en) | 2002-10-23 | 2004-04-29 | David Heckerman | Method and system for identifying junk e-mail |
US7149801B2 (en) * | 2002-11-08 | 2006-12-12 | Microsoft Corporation | Memory bound functions for spam deterrence and the like |
US6732157B1 (en) * | 2002-12-13 | 2004-05-04 | Networks Associates Technology, Inc. | Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages |
US20060265498A1 (en) * | 2002-12-26 | 2006-11-23 | Yehuda Turgeman | Detection and prevention of spam |
US7533148B2 (en) * | 2003-01-09 | 2009-05-12 | Microsoft Corporation | Framework to enable integration of anti-spam technologies |
US7171450B2 (en) * | 2003-01-09 | 2007-01-30 | Microsoft Corporation | Framework to enable integration of anti-spam technologies |
US7725544B2 (en) * | 2003-01-24 | 2010-05-25 | Aol Inc. | Group based spam classification |
US7249162B2 (en) | 2003-02-25 | 2007-07-24 | Microsoft Corporation | Adaptive junk message filtering system |
US7219148B2 (en) * | 2003-03-03 | 2007-05-15 | Microsoft Corporation | Feedback loop for spam prevention |
US7543053B2 (en) | 2003-03-03 | 2009-06-02 | Microsoft Corporation | Intelligent quarantining for spam prevention |
US20040177120A1 (en) * | 2003-03-07 | 2004-09-09 | Kirsch Steven T. | Method for filtering e-mail messages |
US7366761B2 (en) * | 2003-10-09 | 2008-04-29 | Abaca Technology Corporation | Method for creating a whitelist for processing e-mails |
US7320020B2 (en) * | 2003-04-17 | 2008-01-15 | The Go Daddy Group, Inc. | Mail server probability spam filter |
US7653698B2 (en) | 2003-05-29 | 2010-01-26 | Sonicwall, Inc. | Identifying e-mail messages from allowed senders |
US7293063B1 (en) * | 2003-06-04 | 2007-11-06 | Symantec Corporation | System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection |
US7263607B2 (en) | 2003-06-12 | 2007-08-28 | Microsoft Corporation | Categorizing electronic messages based on trust between electronic messaging entities |
US8533270B2 (en) * | 2003-06-23 | 2013-09-10 | Microsoft Corporation | Advanced spam detection techniques |
US7051077B2 (en) | 2003-06-30 | 2006-05-23 | Mx Logic, Inc. | Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers |
US7155484B2 (en) | 2003-06-30 | 2006-12-26 | Bellsouth Intellectual Property Corporation | Filtering email messages corresponding to undesirable geographical regions |
US20050015455A1 (en) * | 2003-07-18 | 2005-01-20 | Liu Gary G. | SPAM processing system and methods including shared information among plural SPAM filters |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US20050050150A1 (en) * | 2003-08-29 | 2005-03-03 | Sam Dinkin | Filter, system and method for filtering an electronic mail message |
US7451487B2 (en) | 2003-09-08 | 2008-11-11 | Sonicwall, Inc. | Fraudulent message detection |
US7257564B2 (en) | 2003-10-03 | 2007-08-14 | Tumbleweed Communications Corp. | Dynamic message filtering |
US7451184B2 (en) * | 2003-10-14 | 2008-11-11 | At&T Intellectual Property I, L.P. | Child protection from harmful email |
US7610341B2 (en) * | 2003-10-14 | 2009-10-27 | At&T Intellectual Property I, L.P. | Filtered email differentiation |
US7930351B2 (en) | 2003-10-14 | 2011-04-19 | At&T Intellectual Property I, L.P. | Identifying undesired email messages having attachments |
US7373385B2 (en) | 2003-11-03 | 2008-05-13 | Cloudmark, Inc. | Method and apparatus to block spam based on spam reports from a community of users |
US20050102366A1 (en) | 2003-11-07 | 2005-05-12 | Kirsch Steven T. | E-mail filter employing adaptive ruleset |
US20050120019A1 (en) | 2003-11-29 | 2005-06-02 | International Business Machines Corporation | Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM) |
US7359941B2 (en) * | 2004-01-08 | 2008-04-15 | International Business Machines Corporation | Method and apparatus for filtering spam email |
US7590694B2 (en) | 2004-01-16 | 2009-09-15 | Gozoom.Com, Inc. | System for determining degrees of similarity in email message information |
US7693943B2 (en) | 2004-01-23 | 2010-04-06 | International Business Machines Corporation | Classification of electronic mail into multiple directories based upon their spam-like properties |
US20050182735A1 (en) * | 2004-02-12 | 2005-08-18 | Zager Robert P. | Method and apparatus for implementing a micropayment system to control e-mail spam |
US7640322B2 (en) | 2004-02-26 | 2009-12-29 | Truefire, Inc. | Systems and methods for producing, managing, delivering, retrieving, and/or tracking permission based communications |
US20050204159A1 (en) * | 2004-03-09 | 2005-09-15 | International Business Machines Corporation | System, method and computer program to block spam |
US7627670B2 (en) * | 2004-04-29 | 2009-12-01 | International Business Machines Corporation | Method and apparatus for scoring unsolicited e-mail |
WO2006002076A2 (en) | 2004-06-15 | 2006-01-05 | Tekelec | Methods, systems, and computer program products for content-based screening of messaging service messages |
US20060123083A1 (en) * | 2004-12-03 | 2006-06-08 | Xerox Corporation | Adaptive spam message detector |
US7937480B2 (en) * | 2005-06-02 | 2011-05-03 | Mcafee, Inc. | Aggregation of reputation data |
US7971137B2 (en) * | 2005-12-14 | 2011-06-28 | Google Inc. | Detecting and rejecting annoying documents |
-
2003
- 2003-06-04 US US10/454,168 patent/US7272853B2/en active Active
-
2004
- 2004-03-25 US US10/809,163 patent/US7464264B2/en not_active Expired - Fee Related
- 2004-05-17 TW TW093113883A patent/TWI353146B/zh not_active IP Right Cessation
- 2004-05-18 JP JP2004148159A patent/JP4672285B2/ja active Active
- 2004-05-20 CA CA2467869A patent/CA2467869C/en active Active
- 2004-05-21 EP EP04102242.7A patent/EP1484893B1/en active Active
- 2004-05-21 MY MYPI20041958A patent/MY142668A/en unknown
- 2004-05-24 ZA ZA200404018A patent/ZA200404018B/xx unknown
- 2004-05-25 KR KR1020040037227A patent/KR101137065B1/ko active IP Right Grant
- 2004-05-25 AU AU2004202268A patent/AU2004202268B2/en active Active
- 2004-05-27 BR BRPI0401849A patent/BRPI0401849B1/pt active IP Right Grant
- 2004-05-28 US US10/856,978 patent/US7409708B2/en active Active
- 2004-06-02 MX MXPA04005335A patent/MXPA04005335A/es active IP Right Grant
- 2004-06-03 PL PL04368364A patent/PL368364A1/xx not_active Application Discontinuation
- 2004-06-03 RU RU2004116904/09A patent/RU2378692C2/ru not_active IP Right Cessation
- 2004-06-04 CN CN2004100639539A patent/CN1573784B/zh active Active
-
2007
- 2007-01-09 US US11/621,363 patent/US7665131B2/en active Active
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101558398B (zh) * | 2005-05-05 | 2012-11-28 | 思科埃恩波特系统有限公司 | 基于被引用资源的概率分析检测不想要的电子邮件消息 |
CN101573956B (zh) * | 2006-11-03 | 2013-04-10 | 信息实验室有限公司 | 图像垃圾信息的检测方法和系统 |
CN101163161B (zh) * | 2007-11-07 | 2012-02-29 | 福建星网锐捷网络有限公司 | 统一资源定位器地址过滤方法及中间传输设备 |
CN101364955B (zh) * | 2008-09-28 | 2010-10-20 | 杭州电子科技大学 | 一种分析和提取电子邮件客户端证据的方法 |
WO2011047571A1 (zh) * | 2009-10-23 | 2011-04-28 | 中兴通讯股份有限公司 | 防范垃圾电子邮件的实现方法和系统 |
CN103179024A (zh) * | 2013-03-18 | 2013-06-26 | 北京二六三企业通信有限公司 | 邮件过滤方法及装置 |
CN103198396A (zh) * | 2013-03-28 | 2013-07-10 | 南通大学 | 基于社会网络行为特征的邮件分类方法 |
CN103634422B (zh) * | 2013-11-29 | 2017-03-08 | 北京奇安信科技有限公司 | 一种cdn源站的ip地址识别方法及装置 |
CN103634422A (zh) * | 2013-11-29 | 2014-03-12 | 北京奇虎科技有限公司 | 一种cdn源站的ip地址识别方法及装置 |
CN107294834A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种识别垃圾邮件的方法和装置 |
CN105912674A (zh) * | 2016-04-13 | 2016-08-31 | 精硕世纪科技(北京)有限公司 | 数据降噪及分类方法、装置及系统 |
CN106028297A (zh) * | 2016-04-28 | 2016-10-12 | 北京小米移动软件有限公司 | 携带网址的短信处理方法及装置 |
CN106028297B (zh) * | 2016-04-28 | 2019-11-08 | 北京小米移动软件有限公司 | 携带网址的短信处理方法及装置 |
CN109328448A (zh) * | 2016-06-13 | 2019-02-12 | 微软技术许可有限责任公司 | 基于网络流数据的垃圾邮件分类系统 |
CN109328448B (zh) * | 2016-06-13 | 2021-02-19 | 微软技术许可有限责任公司 | 基于网络流数据的垃圾邮件分类系统 |
CN109218162A (zh) * | 2017-07-05 | 2019-01-15 | 北京二六三企业通信有限公司 | 邮件投递方法及装置 |
CN109218162B (zh) * | 2017-07-05 | 2021-04-27 | 北京二六三企业通信有限公司 | 邮件投递方法及装置 |
CN111046283A (zh) * | 2019-12-04 | 2020-04-21 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
AU2004202268A1 (en) | 2004-12-23 |
US7665131B2 (en) | 2010-02-16 |
BRPI0401849B1 (pt) | 2017-04-11 |
US20050022031A1 (en) | 2005-01-27 |
TW200509615A (en) | 2005-03-01 |
EP1484893A2 (en) | 2004-12-08 |
US20040260922A1 (en) | 2004-12-23 |
AU2004202268B2 (en) | 2009-12-03 |
US20050022008A1 (en) | 2005-01-27 |
MY142668A (en) | 2010-12-15 |
EP1484893B1 (en) | 2017-07-05 |
PL368364A1 (en) | 2004-12-13 |
BRPI0401849A (pt) | 2005-02-09 |
JP4672285B2 (ja) | 2011-04-20 |
KR20040104902A (ko) | 2004-12-13 |
CN1573784B (zh) | 2012-11-07 |
RU2004116904A (ru) | 2005-11-10 |
RU2378692C2 (ru) | 2010-01-10 |
EP1484893A3 (en) | 2006-05-24 |
US20070118904A1 (en) | 2007-05-24 |
ZA200404018B (en) | 2005-05-20 |
JP2004362559A (ja) | 2004-12-24 |
TWI353146B (en) | 2011-11-21 |
US7272853B2 (en) | 2007-09-18 |
CA2467869C (en) | 2013-03-19 |
KR101137065B1 (ko) | 2012-07-02 |
CA2467869A1 (en) | 2004-12-04 |
MXPA04005335A (es) | 2005-03-31 |
US7464264B2 (en) | 2008-12-09 |
US7409708B2 (en) | 2008-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1573784A (zh) | 用于阻止垃圾邮件的源/目的地的特征和列表 | |
CN1573782B (zh) | 先进的垃圾邮件侦测技术 | |
US10042919B2 (en) | Using distinguishing properties to classify messages | |
US9985978B2 (en) | Method and system for misuse detection | |
US8194564B2 (en) | Message filtering method | |
US7761567B2 (en) | Method and apparatus for scoring unsolicited e-mail | |
US9123027B2 (en) | Social engineering protection appliance | |
US20170155666A1 (en) | Attracting and analyzing spam postings | |
US7904958B2 (en) | Spam honeypot domain identification | |
JP2005339545A (ja) | 外部データを使用した検索エンジンスパムの検出 | |
CN1809821A (zh) | 用于防止垃圾邮件的反馈循环 | |
US8321512B2 (en) | Method and software product for identifying unsolicited emails | |
CN1573783A (zh) | 外发垃圾邮件的阻止 | |
US8301702B2 (en) | Method and an apparatus to screen electronic communications | |
CN1658572A (zh) | 用于预防兜售信息的智能隔离 | |
US7406503B1 (en) | Dictionary attack e-mail identification | |
Wavhal | BAYESIAN FILTER TECHNIQUE FOR SPAM E-MAIL DETECTION: AN OVERVIEW |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150513 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150513 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |