澳门188bet官网

Rafa Irtizarry,Roger Peng和Jeff Leek的统计博客

简化 - 整理数据作为服务

TLDR:我们启动了一家名为Streamline Data Science HTTPS://StreamLinedAtascience.io/的公司,它提供整洁的数据作为服务。我们正在寻找客户,伙伴关系和员工,因为我们在完成资金之后扩大了!我的大部分职业生涯,我都在捣碎的数据清洁中。在基因组学的世界中,我的许多研究都集中在批量效应上,将大型基因组数据合成为可用格式,并且通常更容易使用数据。

数据科学家的四个工作

2019年,我写了一篇关于数据科学的文章,试图提炼出数据科学家的关键技能。我在帖子中写道:当我问自己“什么是数据科学?”这个问题时,我倾向于思考以下五个组成部分。数据科学是(1)设计思维在数据问题上的应用(2) 创建和管理用于转换和处理数据的工作流(3) 为数据分析产品确定背景、分配资源和确定受众特征而进行的人际关系谈判(4) 运用统计方法量化证据;将数据分析信息转化为连贯的叙述和故事。

Palantir显示了它的牌

在长期的跟踪下提交这一点,但只有大约四年前我写了关于Palantir,以前秘密的,但现在很快就是公共数据科学公司,以及其估值如何更普遍地评论数据科学价值。嗯,刚才普拉兰特·帕兰蒂尔向公众提起,因此提交了描述其业务的注册声明(S-1)。如果你进入那种东西,这是一个迷人的阅读。

再现性的渐近学

每次偶尔,我都看到了一个推文或帖子,询问一个人是否应该使用工具x或软件y来“使他们的数据分析可重复”。我认为这是一个合理的问题,因为,部分有这么多的好工具!在相对较少的选择时,这对仅仅10年前,这是一件不可否认的。Toolset的问题虽然不是一个值得关注的问题,因为这是一个错误的问题。

放大我相信Covid-19的人

像很多人一样,我一直粘在各种媒体渠道,试图了解Covid-19正在发生的最新信息。我也被挫败了 - 就像很多人一样 - 错误信息和洪水预印和同行评审材料。其中一些信息批判性重要,有些是难以信任的。作为一个非常可见的公共卫生学院的生物统治家,我也有很多媒体外展,但我已经犹豫了做任何面试或谈论Covid-19。188金宝搏手机登录

人工智能是革命性的环境健康吗?

注意:这篇文章是由密歇根州立大学凯文艾略特撰写的;Nicole Kleinstreuer,国家健康研究院;帕特里克麦克伦,克里斯诺;加里米勒,哥伦比亚大学;密歇根大学Bhramar Mukherjee;罗杰D.Peng,约翰霍普金斯大学;梅丽莎佩里,乔治华盛顿大学;Reza Rasoulpour,Corteva Agriscence,以及伊丽莎白博伊尔,国家科学院,工程和医学。这里可以获得这篇文章的研讨会的完整摘要。

您可以用r复制几乎任何剧情

尽管R对于快速地将数据转换成曲线图很有用,但它并没有广泛地用于制作可供出版的数字。但是,只要做了足够的修补,你几乎可以在R。例如查看flowingdata博客或数据可视化基础书籍。这里我展示了我在数据科学课程中使用的五张来自非专业出版社的图表。在过去,我会显示原始的,但我决定在R中复制它们,以便只使用R代码生成类注释(涉及到很多google)。

所以你想开始播客

在过去的10年里,播客在过去的10年里,部分是因为改进硬件和软件。我写了关于我大约2年前编辑和记录我的播客两者的介绍,虽然从那时起并没有太大改变,我认为如果我以更好的方式为刚刚开始与新的人组织的信息组织了这些信息可能会有所帮助播客。

数据熟化意味着没有合理的隐私期望 - 现在是什么?188金宝搏亚洲体育tom

今天,一些不同的事情让我想起了我想到很多人在谈论的事情,但也一直在我的脑海里。我们的想法是我们许多社会社会规范都是基于隐私的合理期望。188金宝搏亚洲体育tom但是,对隐私的合188金宝搏亚洲体育tom理期望越来越多的过去。我正在考虑的三种类型的数据是:显然识别数据:像手机GPS迹线和公共社交媒体帖子等数据是无义务和减少隐私的信息。

教学数据科学的更多数据集:扩展的DSLABS包

简介我们扩展了DSLABS包,我们之前被引入为包含可用于介绍性数据科学课程的现实,有趣和可接近的数据集的程序包。该版本增加了7个关于气候变化,天文学,预期寿命和乳腺癌诊断的新数据集。它们用于改进的问题集和哈维德数据科学专业证书计划中的新项目,该节目教授没有先前编码背景的学生的开始R编程,数据可视化,数据争吵,统计数据和机器学习。