NpsHtmlParser用于HTML网页的字段分析、提取。
| void |
NpsHtmlparser(String url,String encoding) 构造函数。url为要读取网页URL路径,encoding为字符集。 |
| org.w3c.dom.Element |
GetElementById(String id) 根据id获得Element对象,Element接口方法参加org.w3c.dom.Element接口定义。 |
| org.w3c.dom.Node[] |
GetElementsByName(String name) 获取指定name的Element对象数组 |
| org.w3c.dom.Node[] |
GetElementsByTagName(String name) 获取指定Tag name的Element对象数组。例如GetElementByTagName("input")返回所有input类型的字段。 |
| org.w3c.dom.Node[] |
GetElementsByTagNameAndFilter(String name,String formula) 获取指定Tag name和formula要求的Element对象数组。formula参见NpsFormula说明,字段的属性可以在formula中引用。 例如,GetElementsByTagNameAndFilter("input","type='hidden'")表示查找所有隐藏的input字段 |
| String |
GetNodeValue(org.w3c.dom.Node obj) 获得指定节点的value值 |
| String |
GetAttributeValue(org.w3c.dom.Node obj,String attribute_name) 获得指定节点的属性值 |
| String |
ExtractFileNameFromURL(String url) 从url串中获得文件名。 ExtractFileNameFromURL("http://www.sina.com.cn/news/1883.jpg") 结果为1883.jpg |
| String |
GetSuffixOfFileName(String filename) 获得文件名的后缀 |