Tensorflow学习笔记2-MNIST数字识别

很早之前写的,鉴于之前Tensorflow学习笔记有1,不能这么轻易弃坑,所以又加了这一部分。

这是最简单的线性回归算法,理解了这种算法,其实就可以搞懂Tensorflow的运行机制了,大概就是把梯度下降的图提前建出来,然后在对于训练数据一次次在图上迭代。

接下来是我自己写的CNN代码,自以为是的用了多个不同的卷积核,具体有没有用?Who Knows?毕竟玄学

 

花火

雪,稀疏撒在暗黑的画布上

光,渐渐出现

雪中光,光中雪,混杂,交融

雪渐浓,光依旧

霎时间,鲜红的“自杀”二字震撼人心。

如“花火”般绚烂绽放,定会像“花火”般壮烈谢幕。

 

海边

宁静

不会记住

那两声枪响

Python修饰器小应用——级数求和算法简化

假设我们遇到了

    \[\sum_{n=1}^{\infty} \frac{3n+5}{3^n}\]

这样一个东西,我们算出了结果,并且需要用python验算。

通过抽象,我们需要计算

    \[\sum_{n=1}^{\infty} f(x,n)\]

用普通的for语句比较麻烦,正巧python有一个叫做修饰器的东西可以简化运算,我们每次只需要把sigma内部的公式输入即可。

series_sum为一个修饰器,只用输入一次,之后我们只需要将我们的f(x,n)用series_sum函数修饰就好了,超级优美!

 

[Pikapika]科技文献的脉络梳理-网页展示的编写

基于Flask编写

既然后端数据处理使用了python,最开始的想法是通过python-flask写网页,也因此学习了flask,但是因为实际写后端的时候没有网,于是乎重新回到了自己比较熟悉的nodejs

基于Nodejs编写

网站demo:http://pikapika.mhy12345.xyz:3000

运用d3的数据图形化的库,展示词云与结构树,过程参见http://blog.mhy12345.xyz/2017/05/18/nodejs学习笔记/

词云

使用d3项目https://www.jasondavies.com/wordcloud/,由其中demo的browserify.js生成。

 

结构树

结构树https://bl.ocks.org/mbostock/4063570,直接把里面的js代码搬下来就好了。当然,需要各种修改以适应这里的情况,不过这些细节就不用说了。

 

Nodejs学习笔记

相关链接

Express

Express官网:http://www.expressjs.com.cn

DC3

DC3官网:https://d3js.org

DC3 tutorials:https://github.com/d3/d3/wiki/Tutorials

选择器原理:https://bost.ocks.org/mike/join/

D3 4.0 API:https://github.com/d3/d3/blob/master/API.md

browserify

官网:http://browserify.org

D3-cloud词云制作

d3-scale-category20 undefined:http://stackoverflow.com/questions/41178111/d3js-d3-scale-category10-not-working

Jade

教程1:http://www.w3cplus.com/html/how-to-use-jade.html

Nodejs 包

Child_process:http://nodejs.cn/api/child_process.html

[Pikapika]科技文献的脉络梳理-构建查询Wiki的数据结构

首先我们需要实现的是一个能够查询Wiki的数据结构,而有如下几种处理方式

  1. 直接的爬虫抓取及其优化
  2. 调用现成python库(基于wiki的api)
  3. 下载离线版wikipedia

直接使用爬虫抓取wikipedia

如果直接使用python的urllib库调用的话,由于网络延迟等问题,效率大概是3sec/search

这里粘贴一个爬取百度百科的代码,wiki可以肯定比百度百科慢,毕竟在墙外面……

 

接着考虑使用更加高效的爬取框架scrapy

代码架构比较复杂,但是搜索的速度可以提升至1sec/search,其原理大概是通过异步的方式解决网络延迟的问题,但是基础的长达3sec的网络延迟还是必定会存在的,不过对于我们的分析还是过于慢了

Python库实现wiki查询

python有一个叫做wikipedia的库,其核心是通过wikipedia的公开api实现查询。还是很慢……

离线Wiki数据查询

离线数据下载主页:https://en.wikipedia.org/wiki/Wikipedia:Database_download

具体来说我下载的离线数据在这里:https://dumps.wikimedia.org/other/static_html_dumps/current/zh/

其中html.lst文件列举了所有文件名,wikipedia-zh-html.tar.7z文件就是实际的数据集,解压后11G,最棒的是解压后发现居然已经帮我把trie树建出来了!

但是,问题来了,虽然在个人的mac上面文件名非常正常,但是把它弄到ubuntu下面就完全不可看,大概就是一堆问号的情况。事实上这只是ssh上去的显示问题,还是可以用程序访问的。

不过速度嘛……

[Pikapika]科技文献的脉络梳理-概述

离散大作业我和wxz希望能够做一个科技文献的脉络梳理的小程序,输入一篇科技文献(可以是html或者纯文本),通过关键词查询等方式实现文献脉络的整理。

其中我们计划的是通过pagerank算法,引入wiki外部语料库建模,提取出科技文献的脉络。

实际上,由于效率的问题,我们并没有使用wiki外部资料库,单纯使用了pagerank。

而demo的展示通过网页实现:http://pikapika.mhy12345.xyz:3000,不过我并不准备长时间维护这个网站,所以说上不去很正常……