本文通过分析新浪、搜狐、网易、腾讯、百度、中国新闻网、中华网、21CN网这八大网站中的噪音数据特点和它所产生的影响,并利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可用于网页正文的自动提取。当然,这两种方法对于XHTML和XML也是可行的。为简便起见,本文在下面的全部内容中,将省略对XHTML和XML的重复说明。 本文的研究内容及成果如下: (1)在分析网页中与网页正文内容相关和无关的文字链接和图像链接的基础上,结合HTML标签及其内容,提出了与网页正文内容无关的链接判断模型。 (2)本文综合分析了大量的新闻网页中图像标签的特点,在统计的基础上得出了与网页正文内容相关和无关图像的较准确范围。 (3)分析传统的DOM树、静态正则表达式等提取网页正文的技术之后,本文提出了区域分块的概念、确定网页正文标题位置的相似率,并在此基础上,进一步提出了基于的HTML标签的提取网页正文内容的两种方法:基于区域分块的HTML元素删除和元素内嵌式提取法。 (4)采用八大网站的新闻网页作为测试集,针对本文提出的两种网页正文提取方法,做了充分的测试。将本文中的两种网页正文提取方法和传统的方法做了比较,结果表明,文中的两种方法都能比传统方法更好地实现网页正文内容提取。

书籍详述:

ISBN-13:

978-3-639-82895-5

ISBN-10:

363982895X

EAN:

9783639828955

书籍语言:

中文

By (author) :

红要 常
征宇 朱

页数 :

88

出版于:

21.11.2016

分类:

Internet