加入收藏 | 设为首页 | 会员中心 | 我要投稿 大连站长网 (https://www.0411zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

SQL是必学的吗?数据科学家的技能树该如何点?

发布时间:2021-12-12 18:54:53 所属栏目:大数据 来源:互联网
导读:SQL 是否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师,而有些团队则只有一位数据科学家。所以数据科学家是否需要了解SQL,你心中自有答案。 但是,讨论一下是否需要了解SOL的原因,以及不需
SQL
 
是否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师,而有些团队则只有一位数据科学家。所以数据科学家是否需要了解SQL,你心中自有答案。
 
但是,讨论一下是否需要了解SOL的原因,以及不需要SOL的时机是颇为有趣且十分重要,讨论这个问题也有助于即将入职的数据科学家了解工作期望。以下是我使用SQL的原因:
 
使用SQL查询表格以获得有用的数据集
保持自主感(尽管也需要帮助)
在现有的SQL查询中随时发现和创建新功能
尽管数据科学可以看作是只专注于Python和R以及复杂机器学习算法的工作,但如果不充分利用SQL的优势,一个团队可能很难执行数据科学运算进程。不过,有时SQL并不是必需的,这取决于个人在数据科学领域的具体角色。
 
如果能从数据工程师或数据分析师那里获得一些帮助,便可以参考其他替代方法。此外,当SQL查询功能完全不符合专业时也不需要SQL,因为此时专注点在于数据科学模型开发,类似于在已获取的数据上相互测试各种机器学习算法。
 
替代方法
 
从数据分析师或数据工程师处获取数据集后,对数据集的下一步改进就是创建新功能要素,而不只是直接从数据表中获取字段。例如,如果数据集中有10个字段,则可以开发几个全新指标作为字段,而不是通过计算第1列和第2列来直接创建新的第11列。除了SQL以外,另一个比较容易进行此计算的工具是pandas。充分理由显示,数据分析师和数据科学家已广泛使用该库。
 
使用pandas,能够快速执行复杂计算,并且只需一行代码。有时很难使用SQL计算数据,因为它在视觉上呈多行布局(仅为个人看法)。
 
以下是一些常用的pandas 数据框操作,旨在方便化数据集特征工程运算。
SQL是必学的吗?数据科学家的技能树该如何点?

(编辑:大连站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!