测试Twitter4J的API时,发现在Android上不能显示中文,但是纯JAVA的是可以显示,debug了好久,也没发现哪个地方错了。
通过:br = new BufferedReader(new InputStreamReader(stream, “UTF-8”));读出来的就是UTF8的了,我试着将“UTF-8”去掉,结果还是一样的,中文都变成了下面这个样子:

1
在android上不能显示中文,还是UTF8格式,很奇怪,但纯JAVA的没问题

接着将它导入到xml解析器中,但奇怪的是在Android上会将中文自动去掉,从中文开始的位置就会自动删掉了。但是纯JAVA是没有问题的,很怪异,不知道这个是不是与平台有关系。

接着搜了下如何将UTF8转成中文:
http://topic.csdn.net/u/20090611/09/b746291c-a2a7-43fb-961b-c37701056d71.html
参考了其中的一段代码。

还要用到正则表达式:
参考这个地方:
http://edu.yesky.com/edupxpt/18/2143018.shtml

于是写出了下面的转换函数:

Read More

记录一段用HTMLParser解析html的python代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
data = urllib.urlopen('http://10.85.40.153').read()
 
#data = response.read()
print data
 
class parseHtml(HTMLParser.HTMLParser):
    def handle_starttag(self, tag, attrs):
        print tag
        if 'input'.__contains__(tag):
            for name, value in attrs:
                print 'name=%s,value=%s' % (name, value)
                if value.__contains__('Home'):
                    print value
                    print self.get_starttag_text()
 
 
 
parse = parseHtml()
parse.feed(data)