大数据挖掘:手把手教你分析头条小程序文章数据

news/2024/7/19 9:44:55 标签: 大数据, java, 数据, 爬虫, 小程序

数据>大数据挖掘手把手教你分析头条小程序文章数据">数据>大数据挖掘:手把手教你分析头条小程序文章数据

本次分析思路:

  1. 爬虫爬取数据
  2. 词频统计
  3. 绘制文字云

49517 字的文章中提取以下关键字:

这里写图片描述
从上图的结果中发现,经分割后的词中有许多无意义的词,如“可以”,“使用”,“这个”,“我们”等,这些词是需要剔除的。
这里写图片描述
从上图中显示,一些无意义的词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。
通过java使用工具echarts绘制的个性化文字云:
这里写图片描述
发现“微信小程序”这个词非常明显,但到底是什么微信小程序呢?下面来看一看都是哪些句子包含不错这样的字眼。

含有“微信小程序”字眼的评论有3378条,这就需要人为干涉,将这些“微信小程序”进行简化并组成词典。

这是一个非常繁工的过程,需要耐心的查看这些句子中都是怎么表达的情感的。

经过约3个小时的人为选词(不断反复查看),结果分析后,具体如下:

结论:
从文字云的返回结果可知:
1) 微信小程序是一个触手可及,用完即走的应用
2) 用户使用方便,同时公众号的流量倒流到小程序
3) 出现用户量井喷
4) 小程序拥有社交功能,营销功能
5) 当然也有一些负面评价,如用户体验上小程序无法媲美原生app等

词穷了,无法装13下去了,请各位大牛继续。。。

本篇分析的是小程序目前的状况,运用的是java分词等技术,并没有运用数据>大数据挖掘的工具等,

因此分析结果可能不被大家接受,或者结果是片面的,仅用做学习参考。

词云前端代码:

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c"%>
<%@ taglib uri="http://java.sun.com/jsp/jstl/fmt" prefix="fmt"%>
<%
String path = request.getContextPath();
int port = request.getServerPort();
String basePath =null;
String baseImgPath =null;
if(port==80){
     basePath = request.getScheme()+"://"+request.getServerName()+path;
     baseImgPath = request.getScheme()+"://"+request.getServerName();
}else{
     basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path;
     baseImgPath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort();
}
request.setAttribute("basePath",basePath);
request.setAttribute("baseImgPath",baseImgPath);
%>
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>Document</title>
    <script src="${basePath}/resource/test/js/jquery.min.js">javascript"></script>
    <script src="${basePath}/resource/test/js/echarts.js">javascript"></script>
    <script src="${basePath}/resource/test/js/worldcloud.js">javascript"></script>
</head>
<body>
    <div id="main" style="width:600px;height:400px;"></div>
    <script>javascript">
    $(function(){
        var myData = '${myData}';
        var obj = eval(myData); 
        echartsCloud(obj);//初始化echarts图
    })
function echartsCloud(myData){
    // 基于准备好的dom,初始化echarts实例
    var myChart = echarts.init(document.getElementById('main'));

    myChart.setOption({
        title: {
            text: '小程序文章单词云图'
        },
        tooltip: {},
        series: [{
            type : 'wordCloud',  //类型为字符云
                shape:'smooth',  //平滑
                gridSize : 2, //网格尺寸
                size : ['80%','80%'],
                //sizeRange : [ 50, 100 ],  
                rotationRange : [ 46, 80 ], //旋转范围
                textStyle : {  
                    normal : {
                        fontFamily:'sans-serif',
                        color : function() {  
                            return 'rgb('  
                                    + [ Math.round(Math.random() * 160),  
                                            Math.round(Math.random() * 160),  
                                            Math.round(Math.random() * 160) ]  
                                            .join(',') + ')';  
                        }  
                    },  
                    emphasis : {  
                        shadowBlur : 5,  //阴影距离
                        shadowColor : '#333'  //阴影颜色
                    }  
                },
//                data:[],
                data:myData
               /*  data:[{"name": "云图","value": "200"},
                      {"name": "是个啥","value": "156"},
                      {"name": "他啥都不是","value": "122"},
                      {"name": "就是他呆子","value": "119"},
                      {"name": "傻子和疯子","value": "108"},
                      {"name": "营养快线","value": "101"},
                      {"name": "哈哈哈到家","value": "96"},
                      {"name": "瑞士军刀","value": "84"},
                      {"name": "DW情侣对表","value": "58"},
                      {"name": "清风抽纸","value": "55"},
                      {"name": "OPPO R9S","value": "46"},
                      {"name": "这一刻更清晰","value": "28"},
                      {"name": "呵呵旧宫style","value": "27"},
                      {"name": "债券评级","value": "26"}],*/
        }] 
    });
    // 异步加载数据
   /*  $.get('./cloud.json').done(function (data) {
        // 填入数据
        myChart.setOption({
            series: [{
                data: data.dataCloud
            }]
        });
    }); */
}  


    </script>
</body>
</html>

后端代码请参考:http://blog.csdn.net/sinat_15153911/article/details/78309243

文章中涉及到的数据链接:
链接:http://pan.baidu.com/s/1jHFiXDG 密码:mda9

艳辉广告:

只需一秒数据>大数据带你走上人生巅峰。join in QQ群 : 494808400 。


http://www.niftyadmin.cn/n/785499.html

相关文章

数据挖掘实战——交通大数据预测II

经过了近两个月的艰苦工作&#xff0c;这次在阿里天池的比赛终于结束了。第一次正经的去参加数据挖掘的比赛&#xff0c;从第一赛季开始到第二赛季结束&#xff0c;完整地经历了整个流程&#xff0c;每天提出新想法&#xff0c;学习新的方法&#xff0c;然后用编程的方法去实现…

net中多线程返回值

方法有三种&#xff0c;我们直接上代码&#xff1b; using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading; using System.Threading.Tasks;namespace ConsoleApplication11 {//线程中的返回值&#xff0c;有些事儿…

新版微信分享--图片和描述

微信6.5.6更新后&#xff0c;微信H5页面分享出去没有图片。之前微信会默忍抓取页面第一张大于等于300*300的图片&#xff0c;更新微信版本后&#xff0c;分享出去图片没有抓取到。这是微信为了规范自定义分享链接功能在网页上的使用&#xff0c;修改了分享规则&#xff0c;6.5.…

java应用之openfire入门篇

前言 openfire是一个聊天服务端&#xff0c;好比qq服务端.本质是个socker server. openfire通讯协议是 xmpp ,什么是xmpp参考百科 https://baike.baidu.com/item/XMPP/3430617?fraladdin openfire项目三部分 1.服务端 ---> 2.桌面版客户端spark ---> 3.smack(api客…

百分之九十的程序员都记住的19条MySQL优化技巧

一、EXPLAIN 做MySQL优化&#xff0c;我们要善用 EXPLAIN 查看SQL执行计划。 type列&#xff0c;连接类型。一个好的sql语句至少要达到range级别。杜绝出现all级别 key列&#xff0c;使用到的索引名。如果没有选择索引&#xff0c;值是NULL。可以采取强制索引方式 key_len列…

201671010140. 2016-2017-2 《Java程序设计》java学习第二周

学习第二周&#xff08;Java基本程序设计结构&#xff09; 这一周&#xff0c;着重学习了Java的简单程序设计实现及运行&#xff0c;通过自己操作&#xff0c;发现Java的程序语法大面积的与C语言重合&#xff0c;这无疑对我的Java学习减轻了负担&#xff0c;但同时也要更加注重…

java-pdf转word3.0

java-pdf转word3.0 这是小编写1.0的时候http://blog.csdn.net/sinat_15153911/article/details/53926879 这是2.0 http://blog.csdn.net/sinat_15153911/article/details/78004292 2.0是pdf转图片&#xff0c;现在出3.0图片再转成word&#xff0c;写1.0的时候目的是使用pd…

c++の奇技淫巧

>如何用cmd编译c&#xff1f;-m32究竟是什么操作&#xff1f;这究竟是道德的沦丧还是人性的泯灭&#xff0c;请收看今日的c奇技淫巧 咳咳&#xff0c;扯远了&#xff08;正经脸)主要是今天学了c的一些编译技巧以及cmd的一些操作&#xff0c;总结一下。 >c的编译 >>…