package com.bob.digcsdn.utils;
import java.util.ArrayList;
import java.util.List;
import org.json.JSONArray;
import org.json.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import com.bob.digcsdn.CommentsActivity;
import com.bob.digcsdn.models.Blog;
import com.bob.digcsdn.models.BlogItem;
import com.bob.digcsdn.models.Comment;
import com.bob.digcsdn.interfaces.JsonCallBackListener;
/**
*csdn的博客样式都是多页显示,所以就有了我们的Page类
*Created by bob on 15-6-13.
*/
public class JsoupUtil {//jsoup解析html还需要好好研究研究
public static boolean contentLastPage = true; // 最后一页
private static final String BLOG_URL = "http://blog.csdn.net"; // CSDN博客地址
// 链接样式文件,代码块高亮的处理,搞不懂,也就是根据字符串里的部分分析代码部分
public final static String linkCss = "<script type=\"text/javascript\" src=\"file:///android_asset/shCore.js\"></script>"
+ "<script type=\"text/javascript\" src=\"file:///android_asset/shBrushJScript.js\"></script>"
+ "<script type=\"text/javascript\" src=\"file:///android_asset/shBrushJava.js\"></script>"
+ "<link rel=\"stylesheet\" type=\"text/css\" href=\"file:///android_asset/shThemeDefault.css\">"
+ "<link rel=\"stylesheet\" type=\"text/css\" href=\"file:///android_asset/shCore.css\">"
+ "<script type=\"text/javascript\">SyntaxHighlighter.all();</script>";
/**
* 使用Jsoup解析博客摘要视图列表
* @param blogType
* @param html
* @return
*/
public static void getBlogItemList(final int blogType, final String html, final JsonCallBackListener listener) {
new Thread(){
@Override
public void run() {
List<BlogItem> list = new ArrayList<>();
// 将html字符串解析为Document对象
Document doc = Jsoup.parse(html);
// Log.e("doc--->", doc.toString());
// 获取class="article_item"的所有节点元素,也就是视图列表的一个条目
Elements blogList = doc.getElementsByClass("article_item");
// Log.e("elements--->", blogList.toString());
for (Element blogItem : blogList) {//一一遍历每一个article_item,从而分析出每一个item的信息,得到一个个的BlogItem
BlogItem item = new BlogItem();
String title = blogItem.select("h1").text(); //得到<h1></h1>节点里的内容,也就是当前文章标题,这里类似于xml的pull解析
// System.out.println("title----->" + title);
String description = blogItem.select("div.article_description")
.text();//抓取class属性是article_description的div的内容
// System.out.println("descrition--->" + description);
String msg = blogItem.select("div.article_manage").text();
String date = blogItem.getElementsByClass("article_manage").get(0)
.text();//获取article_manage下的第一个元素内容,即就是日期link_postdate
// System.out.println("date--->" + date);
String link = BLOG_URL//h1下a节点的href属性值
+ blogItem.select("h1").select("a").attr("href");
// System.out.println("link--->" + link);
item.setTitle(title);
item.setMsg(msg);
item.setContent(description);
item.setDate(date);
item.setLink(link);
item.setBlogType(blogType);
// 没有图片,那还要他有何用?
item.setImgLink(null);
list.add(item);
}
listener.onFinish(list);//接口回调,送出数据
}
}.start();
}
/**
* 扒取传入url地址的博客详细内容
*
* @param str
* @return
*/
public static List<Blog> getContent( String str) {//对一篇文章的分析,这个list里的Blog代表博文的各个组成部分,详情请见Blog实体类中
List<Blog> list = new ArrayList<>();
// 获取文档内容
Document doc = Jsoup.parse(str);
// 获取class="details"的元素
Element detail = doc.getElementsByClass("details").get(0);
detail.select("script").remove(); // 删除每个匹配元素的DOM。
// 获取标题
Element title = detail.getElementsByClass("article_title").get(0);
Blog blogTitle = new Blog();
blogTitle.setState(Constants.DEF_BLOG_ITEM_TYPE.TITLE); // 设置状态
blogTitle.setContent(ToDBC(title.text())); // 设置标题内容
// 获取文章内容
Element content = detail.select("div.article_content").get(0);
// 获取所有标签为<a的元素
Elements as = detail.getElementsByTag("a");
for (int b = 0; b < as.size(); b++) {
Element blockquote = as.get(b);
// 改变这个元素的标记。例如,<span>转换为<div> 如el.tagName("div");。
blockquote.tagName("bold"); // 转为粗体
}
Elements ss = detail.getElementsByTag("strong");
for (int b = 0; b < ss.size(); b++) {
Element blockquote = ss.get(b);
blockquote.tagName("bold");
}
// 获取所有标签为<p的元素
Elements ps = detail.getElementsByTag("p");
for (int b = 0; b < ps.size(); b++) {
Element blockquote = ps.get(b);
blockquote.tagName("body");
}
// 获取所有引用元素
Elements blockquotes = detail.getElementsByTag("blockquote");
for (int b = 0; b < blockquotes.size(); b++) {
Element blockquote = blockquotes.get(b);
blockquote.tagName("body");
}
// 获取所有标签为<ul的元素
Elements uls = detail.getElementsByTag("ul");
for (int b = 0; b < uls.size(); b++) {
Element blockquote = uls.get(b);
blockquote.tagName("body");
}
// 找出粗体
Elements bs = detail.getElementsByTag("b");
for (int b = 0; b < bs.size(); b++) {
Element bold = bs.get(b);
bold.tagName("bold");
}
// 遍历博客内容中的所有元素
for (int j = 0; j < content.children().size(); j++) {
Element c = content.child(j); // 获取每个元素
// 抽取出图片
if (c.select("img").size() > 0) {
Elements imgs = c.getElementsByTag("img");
System.out.println("img");
for (Element img : imgs) {
if (!img.attr("src").equals("")) {
Blog blogImgs = new Blog();
// 大图链接
if (!img.parent().attr("href").equals("")) {
blogImgs.setImgLink(img.parent().attr("href"));
System.out.println("href="
+ img.parent().attr("href"));
if (img.parent().parent().tagName().equals("p")) {
// img.parent().parent().remove();
}
img.parent().remove();
}
blogImgs.setContent(img.attr("src"));
blogImgs.setImgLink(img.attr("src"));
System.out.println(blogImgs.getContent());
blogImgs.setState(Constants.DEF_BLOG_ITEM_TYPE.IMG);
list.add(blogImgs);
}
}
}
c.select("img").remove();
// 获取博客内容
Blog blogContent = new Blog();
blogContent.setState(Constants.DEF_BLOG_ITEM_TYPE.CONTENT);
if (c.text().equals("")) {
continue;
} else if (c.children().size() == 1) {
if (c.child(0).tagName().equals("bold")
|| c.child(0).tagName().equals("span")) {
if (c.ownText().equals("")) {
// 小标题,咖啡色
blogContent
.setState(Constants.DEF_BLOG_ITEM_TYPE.BOLD_TITLE);
}
}
}
// 代码
if (c.select("pre").attr("name").equals("code")) {
blogContent.setState(Constants.DEF_BLOG_ITEM_TYPE.CODE);
blogContent.setContent(ToDBC(c.outerHtml()));
} else {
blogContent.setContent(ToDBC(c.outerHtml()));
}
list.add(blogContent);
}
return list;
}
/**
* 获取博文评论列表
*
* @param json
* html请求返回的是json字符串.......总算是要复习到json数据的解析了
* @return
*/
public static List<Comment> getBlogCommentList(String json, int pageIndex,
int pageSize) {
List<Comment> list = new ArrayList<>();
LogUtil.i("jsonString", json);
try {
// 创建一个JSONObject对象
JSONObject jsonObject= new JSONObject(json);
LogUtil.i("jsonObject", jsonObject.toString());
JSONArray jsonArray = jsonObject.getJSONArray("list"); // 获取list头的json数组
LogUtil.i("jsonArray", jsonArray.toString());
int index = 0;
int len = jsonArray.length();
CommentsActivity.commentCount = String.valueOf(len); // 评论条数
// 如果评论数大于20,假设有25条数据,应该是第三页,那么就应该index== 40
if (len > 20) {//设置起始下标
index = (pageIndex * pageSize) - 20;//pageIndex 表示当前页数,pageSize表示每一页的大小
}
if (len < pageSize && pageIndex > 1) {//不是第一页,并且长度小于20
return list;
}
if ((pageIndex * pageSize) < len) {//如果长度大于当前加载的所有最大数据量,就将长度设为最大数据量
len = pageIndex * pageSize;
}
for (int i = len-1; i >= index; i--) {//遍历JsonObject里的{}obj对象,倒序可以让显示的时候正序
JSONObject item = jsonArray.getJSONObject(i);
String commentId = item.getString("CommentId");//评论id
String content = item.getString("Content");//评论内容
String username = item.getString("UserName");//用户名称
String parentId = item.getString("ParentId");//父节点id
String postTime = item.getString("PostTime");//提交时间
String userFace = item.getString("Userface");//用户头像(子评论里不显示头像)
Comment comment = new Comment();
comment.setCommentId(commentId);
comment.setContent(content);
comment.setUsername(username);
comment.setParentId(parentId);
comment.setPostTime(postTime);
comment.setUserface(userFace);
if (parentId.equals("0")) {
// 如果parentId为0的话,表示它是评论的topic
comment.setType(Constants.DEF_COMMENT_TYPE.PARENT);
} else {
comment.setType(Constants.DEF_COMMENT_TYPE.CHILD);
}
list.add(comment);
}
} catch (Exception e) {
e.printStackTrace();
}
return list;
}
/*
* 获得博主个人资料
*
* @param str
* @return
public static Blogger getBloggerInfo(String str) {
if (str == null) {
return null;
}
// 获取文档内容
Document doc = Jsoup.parse(str);
Element profile = doc.getElementsByClass("panel").get(0);
Element profileBody = profile.select("ul.panel_body.profile").get(0);
Element userface = profileBody.getElementById("blog_userface");
String userfaceLink = userface.select("a").select("img").attr("src"); // 得到头像链接
String username = userface.getElementsByTag("a").get(1).text(); // 用户名
Element blog_rank = profileBody.getElementById("blog_rank");
Element blog_statistics = profileBody.getElementById("blog_statistics");
Elements rankLi = blog_rank.select("li");
StringBuilder sb = new StringBuilder();
String rankStr = "";
for (Element rank : rankLi) {
sb.append(rank.text()).append("|");
}
rankStr = sb.toString();
String statistics = "";
StringBuilder sb2 = new StringBuilder();
Elements blogLi = blog_statistics.select("li");
for (Element info : blogLi) {
sb2.append(info.text()).append("|");
}
statistics = sb2.toString();
Blogger blogger = new Blogger();
blogger.setUserface(userfaceLink);
blogger.setUsername(username);
blogger.setRank(rankStr);
blogger.setStatistics(statistics);
return blogger;
}*/
/**
* 半角转换为全角 全角---指一个字符占用两个标准字符位置。 半角---指一字符占用一个标准的字符位置。
*
* @param input
* @return
*/
public static String ToDBC(String input) {
char[] c = input.toCharArray();
for (int i = 0; i < c.length; i++) {
if (c[i] == 12288) {
c[i] = (char) 32;
continue;
}
if (c[i] > 65280 && c[i] < 65375)
c[i] = (char) (c[i] - 65248);
}
return new String(c);
}
}