豆瓣图书电影top250

使用Python爬取,代码见github:

top250图书:

1 追风筝的人 [美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元
2 小王子 [法] 圣埃克苏佩里 / 马振聘 / 人民文学出版社 / 2003-8 / 22.00元
3 围城 钱锺书 / 人民文学出版社 / 1991-2 / 19.00
4 解忧杂货店 [日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元
5 活着 余华 / 南海出版公司 / 1998-5 / 12.00元
6 白夜行 [日] 东野圭吾 / 刘姿君 / 南海出版公司 / 2008-9 / 29.80元
7 挪威的森林 [日] 村上春树 / 林少华 / 上海译文出版社 / 2001-2 / 18.80元
8 嫌疑人X的献身 [日] 东野圭吾 / 刘子倩 / 南海出版公司 / 2008-9 / 28.00
9 三体 刘慈欣 / 重庆出版社 / 2008-1 / 23.00
10 不能承受的生命之轻 [捷克] 米兰·昆德拉 / 许钧 / 上海译文出版社 / 2003-7 / 23.00元

继续阅读“豆瓣图书电影top250”

我也用下TOR –sci-hub洋葱浏览器测试

在Y叔的微信公众号看到了一个使用TOR访问sci-hub的教程,着实佩服,也测试一下:

1.下载洋葱并配置

最关键的点在于洋葱浏览器的安装了,由于被隔离在GFW内,所以先用蓝灯连接,下载了这个软件,然后是使用了。

测试了一下,首先选择运营商屏蔽,然后使用amazon开头的那个协议,选择不使用本地代理,等了几分钟,竟然成功了,虽然网速感人。这个过程中测试了推荐的协议,进度条走到几分之一就失败,然后第一、二个,直接没有动静,终于都不抱希望使用第三个的时候成功了。后来发现配置完成后不需要代理也能打开,不知道不开代理能不能配置,改天测试一下。 继续阅读“我也用下TOR –sci-hub洋葱浏览器测试”

R语言包安装笔记 Y叔包yyplotr的艰辛安装

在Y叔的微信公众号看到了一个好久就想用的功能包,可以用来看文章发表趋势的,一直心痒,尝试了n次以后,终于安装成功了。这过程中有几个重要的点,需要记录下来:

1.github包的安装

在百度上找的代码已经过时了,虽然仅仅是符号的差别,但是还是挺不方便的,把我找到的代码放在这。

install.packages("devtools")
 library(devtools)
 install_github("GuangchuangYu/yyplot")

继续阅读“R语言包安装笔记 Y叔包yyplotr的艰辛安装”

SILVA数据库全库下载序列的处理

处理用于QPCR引物设计的16S序列

最近在做肠道微生物的课题,搜索得知SILVA数据库是最近更新而且用的最多的,看网上的教程把其全库的序列下载了下来,没有比对的有200多兆,比对完的超过三个G,参考的那个微信公众号文章说只需要下载没有比对的,我还不信邪,把两个都下载下来了,一个解压后有3G,另一个有76g多,实在是难以处理,3g多的还勉强可以操作,于是就一小的文件做了筛选。

筛选用的是我刚入门的python,虽然水平挺菜,但是至少能用,水平也或许制约这我难以处理76g的文件。贴上我的一段筛选代码,及其简单,都没有什么复杂结构,水平啊!就是从中筛选出一个门或者属/种的16S序列。 继续阅读“SILVA数据库全库下载序列的处理”

bioconda中国镜像(2017.10.28更新中科大源地址)

bioconda是conda上一个分发生物信息软件的频道,现在已经有超过2700款软件。由于国内没有基镜像,下载安装生物信息软件速度十分缓慢,经常中断,生物信息人迫切需要一个国内镜像。Bioconda is a channel for the conda package manager specializing in bioinformatics software。

继续阅读“bioconda中国镜像(2017.10.28更新中科大源地址)”

GATK软件配套资源中心有什么,如何获取?

GATK中文社区

gatk-chinese github

生信技能树

有幸参加gatk中文文档的翻译工作,感觉还是好自豪的,虽然我还不是生信从业者,可以以这样的方式为这个行业做点事情,这就是动力!感谢jimmy和生信技能树!这是第一篇: 继续阅读“GATK软件配套资源中心有什么,如何获取?”