首页 >企业动态 > > 正文

支持开票 | Python实证指标构建与文本分析

2022-12-30 01:23:11
付费课程 |支持开票|购前咨询 微信372335839概览为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:


(资料图)

网络爬虫技术解决 如何从网络世界中高效地采集数据?文本分析技术解决 如何从杂乱的文本数据中 抽取文本指标(变量)?一、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

二、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

案例豆瓣读书

案例Boss直聘

如何解析json数据

案例豆瓣电影

案例京东商城

案例用爬虫下载文档及多媒体文件

案例上市公司定期报告pdf批量下载

案例上交所招股说明pdf批量下载

案例深交所招股说明pdf批量下载

爬虫知识点总结

三、初识文本分析

从编码/解码视角重新理解文本

读取不同格式文件中的数据

如何将多个txt文件整理到一个excel中

案例中文分词及数据清洗

案例词频统计&词云图

案例共现法扩展情感词典(领域词典)

案例词向量word2vec扩展领域词典

案例中文情感分析(词典法)

cntext库 情感分析代码操作

案例对excel中的文本进行情感分析 91

案例 语言具体性与心理距离 | 以JCR2021论文为例

案例 使用MD&A数据测量企业数字化| 以管理世界2021、财经研究2022论文为例

四、机器学习与文本分析

了解机器学习ML

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

案例在线评论文本分类

使用标注工具对数据进行标注

案例计算文本情感分析(有权重)

案例 文本相似性计算

案例 使用文本相似性识别变化(政策连续性)

案例 Kmeans聚类算法

案例 LDA话题模型

使用机器学习从图片中提取文本信息

五、词嵌入与认知

词嵌入原理及应用概述

案例 豆瓣影评-训练词向量&使用词向量

案例 使用词向量做话题建模

案例 认知指标(态度、偏见等)的测量

总结-文本分析在社科(经管)领域中的应用

相关文献

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。

[1]沈艳,陈赟,&黄卓.(2019).文本大数据分析在经济学和金融学中的应用:一个文献综述.经济学(季刊),18(4),1153-1186.[2]王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.[4]KaiLi,FengMai,RuiShen,XinyanYan,MeasuringCorporateCultureUsingMachineLearning,*TheReviewofFinancialStudies*,2020[5]LoughranT,McDonaldB.Textualanalysisinaccountingandfinance:Asurvey[J].*JournalofAccountingResearch*,2016,54(4):1187-1230.AuthorlinksopenoverlaypanelComputationalsocioeconomics[6]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."*JournalofMarketing*84,no.1(2020):1-25.[7]Cohen,Lauren,ChristopherMalloy,andQuocNguyen."Lazyprices."*TheJournalofFinance*75,no.3(2020):1371-1415.[8]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].*中国工业经济*,2017(12):132-150.[9]Wang,Quan,BeibeiLi,andParamVirSingh."Copycatsvs.OriginalMobileApps:AMachineLearningCopycat-DetectionMethodandEmpiricalAnalysis."*InformationSystemsResearch*29.2(2018):273-291.[10]Packard,Grant,andJonahBerger.“Howconcretelanguageshapescustomersatisfaction.”_JournalofConsumerResearch_47,no.5(2021):787-806.[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.[13]彭红枫,&林川.(2018).言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J].金融研究,461(11),133-153.[14]吴非,胡慧芷,林慧妍,and任晓怡.“企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].”管理世界(2021).

免费公开资料-社会科学文本挖掘资料汇总

公众号和博客积累了大量社会科学文本挖掘资料,涵盖文本分析概念、技术、代码、数据等。全部理清楚感兴趣的可以关注收藏。

https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/

文献类

读完本文你就了解什么是文本分析

转载 | 金融学文本大数据挖掘方法与研究进展

视频 | Python文本分析与会计

视频 |文本分析在经管研究中的应用

视频| Python文本挖掘与金融科技

资料 | 量化历史学与经济学研究

近年《管理世界》《管理科学学报》使用文本分析论文

管理世界 | 使用中文LM金融词典做管理层语调分析

管理世界 | 使用文本分析&机器学习测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

文本分析在市场营销研究中的应用

营销研究中文本分析应用概述(含案例及代码)

计算文本的语言具体性 | 以JCR2021论文为例

文本分析方法在2021管理世界中的应用

转载 | 大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

文本可读性研究及应用清单

词嵌入测量不同群体对某概念的态度(偏见)

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 历史语言记录揭示了近几十年来认知扭曲的激增

PNAS | 情侣分手3个月前就有预兆!聊天记录还能反映分手后遗症

PNAS|词汇熟悉度对线上参与和资金筹集的预测性效用

MS | 使用网络算法识别创新的颠覆性与否

文本可读性研究及应用清单

代码类

Python语法入门 | 含视频代码

30天Python编程学习挑战

中文金融情感词典

在会计研究中使用Python进行文本分析

Python与文化分析入门

免费社科类Python编程课程列表

tomotopy库 | 速度最快的LDA主题模型

cntext库 | 中文情感分析包

认知的测量 | 向量距离vs语义投影

BERTopic主题建模库

doccano|为机器学习建模做数据标注

PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)

WordBias库 | 发现偏见(刻板印象)的交互式工具

whatlies库 | 可视化词向量

KeyBERT | 关键词发现库

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

Top2Vec | 主题建模和语义搜索库

tfidf有权重的情感分析

Shifterator库 | 词移图分辨两文本用词风格差异

使用Pandas处理文本数据

Label-Studio|多媒体数据标注工具

工具分享 | 正则表达式解析

EmoBank | 中文维度情感词典

Maigret库 | 查询某用户名在各平台网站的使用情况

百度指数 | 使用qdata采集百度指数

Asent库 | 英文文本数据情感分析

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

Python | 词移距离(Word Mover"s Distance)

豆瓣影评| 探索词向量妙处

karateclub库 | 计算社交网络中节点的向量

causalinference库 | 使用Python做因果推断

机器学习实战 | 信用卡欺诈检测

实战 | 构建基于客户细分的 K-Means 聚类算法!

nlp-roadmap | 文本分析知识点思维脑图

R语言 | ggplot2简明绘图之散点图

R语言 | 使用posterdown包制作学术会议海报

R语言 | 使用ggsci包绘制sci风格图表

R语言 | ggpubr包让数据可视化更加优雅

R语言 | 让统计更easy的easystats集合包

R语言 | 使用shiny的reactive表达式写应用程序

R语言 | 使用stargazer包输出格式化回归结果

R语言 | 使用word2vec词向量模型

Latex | 为Rmarkdown配置tinytex环境

LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形

数据集

YelpDaset | 酒店管理类数据集10+G

70G上交所年报数据集

14G数据集 | 2007-2021年A股上市公司年度报告(txt文件)

17G资源 | 深交所企业社会责任报告

27G数据集 | 使用Python对27G招股说明书进行文本分析

1850万条 | 世界地图POI兴趣点数据集

1.5G数据集 | 200万条Indiegogo众筹项目信息

12G数据集 | 23w条Kickstarter项目信息

中文语义常用词典 | ChineseSemanticKB

中文词向量资源汇总 & 使用方法

NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源

Google Books Ngram Viewer显示英文词汇历史使用趋势

上一篇: 下一篇:
x
推荐阅读

支持开票 | Python实证指标构建与文本分析

2022-12-30

【当前热闻】交通运输部:已建立医疗物资运输保障日调度制度

2022-12-29

头条:NBA战报丨神仙打架!公牛加时119-113逆转雄鹿,字母哥45+22德罗赞42+10

2022-12-29

今日热文:武汉买房落户政策2023

2022-12-29

ppmoney逾期两年到时还款会怎么样:全球观察

2022-12-29

异动快报:鲁抗医药(600789)12月29日10点11分触及涨停板

2022-12-29

环球看点!2022年光伏行业火爆“出圈” 产业资本“跨界”投资引发行业洗牌

2022-12-29

环球快看:恺英网络旗下三款游戏顺利取得版号

2022-12-28

兰兹博格37分准绝杀 祝铭震25+8 山东险胜广州

2022-12-28

2023重庆渝中消费券领取时间+面额+方式+规则_天天观热点

2022-12-28

【世界热闻】公司吊销三年会不会注销了

2022-12-28

科达利:拟不超5亿元建设四川宜宾新能源汽车动力电池精密结构件三期项目:要闻

2022-12-27

宏润建设涨停,拟斥资10亿元跨界投资高效光伏电池组件项目

2022-12-27

广发证券:碳纤维需求快速增长可期 国产替代将进一步加速:环球看点

2022-12-27

速递!主要煤运通道增开22对货物列车 保障居民供暖和生产需求

2022-12-26

天原股份:非公开发行股票申请获得证监会审核通过_热消息

2022-12-26

苏宁易家广场店进京 豪赌还是机遇

2022-12-26

京城商圈重燃“烟火气” 今日观点

2022-12-25

天天热点!超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former

2022-12-25

【坚定信心 勇毅前行⑥】海南:四海揽才共建自贸港

2022-12-24

中科江南: 独立董事关于第三届董事会第十四次会议相关审议事项的独立意见

2022-12-23

ST国安董秘回复:公司与国安国际并无往来,该事项对公司没有影响_每日热点

2022-12-23

今日精选:欧盟理事会批准欧盟与英国2023年渔业协议

2022-12-23

世界球精选!滨海泰达物流(08348.HK):天津丰田物流与丰田通商订立物流服务协议

2022-12-22

翼龙贷逾期了一天还不上会上征信吗 热议

2022-12-22

芯海科技(688595)12月21日主力资金净卖出846.43万元-世界快消息

2022-12-22

证监会:推动企业境外上市制度改革落地实施:天天热文

2022-12-21

发改委:将继续紧盯生猪市场供需和价格动态 必要时采取收储等储备调节措施_当前时讯

2022-12-21

农村股权证无法办理必须要搬迁吗

2022-12-21

金鹰基金20周年:风雨廿载共成长 坚守初心再出发|天天速看

2022-12-20

谢谢你们,温暖了2022

2022-12-20

加拿大最新数据分析:加拿大11月工业品物价指数月率下降至-0.4%

2022-12-19

每日速讯:鹰瞳科技荣获和讯第20届中国财经风云榜“东方力量2022年度成长力优秀企业”奖项

2022-12-19

首创环保于烟台投资水务公司,注册资本1.95亿-全球看热讯

2022-12-19

扶沟:严把疫情防控关 筑牢“外防输入”坚固防线-环球热闻

2022-12-19

当前报道:安逸花网贷逾期12年还不起会上征信系统吗

2022-12-18

今天全国大部干燥持续 东北等地进入核心降温时段:全球热资讯

2022-12-17

煮玉米多久能熟 煮玉米多长时间能熟呢 世界视点

2022-12-17

杂牌1804拖拉机哪个质量好点,什么拖拉机便宜耐用

2022-12-16

世界聚焦:席梦思负债10亿美元申请破产,中国十余家分公司已注销

2022-12-16

观焦点:投资是世界上最难赚钱的一种行为

2022-12-15

信息:先导智能涨5.23%,中航证券一个月前给出“买入”评级

2022-12-15

打造共建共治共享的智慧城市生态圈

2022-12-15

济南高新: 济南高新第十届董事会第三十六次临时会议决议公告-焦点报道

2022-12-14

湖南祁阳打造高粱种植特色小镇 红高粱种出“红日子”

2022-12-14

港股通占比异动统计|12月14日

2022-12-14

远东传动: 河南三佳汽车零部件有限公司全部资产、负债市场价值资产评估报告

2022-12-13

延江股份:当原材料成本上涨或下跌超过一定比例时,会调整下个季度的商品价格:全球滚动

2022-12-13

乔布斯倘若在世会是什么模样?AI绘制出来了:身材是亮点:每日热闻

2022-12-12

重庆移动抗疫期间助农直销蔬菜:快讯

2022-12-12

山东黄金(01787.HK):将成为银泰黄金的控股股东-天天动态

2022-12-11

道氏技术董秘回复:我们已经与下游客户合作开发钠离子前驱体

2022-12-09

容大感光(300576)12月7日主力资金净卖出726.22万元:世界信息

2022-12-08

天天微动态丨山东路桥(000498.SZ):联合体各方签署74.77亿元的东营至青州高速公路改扩建工程合同

2022-12-06

总投资3172.5亿元 石家庄提前超额完成年度目标任务

2022-03-20

石家庄海关共签发RCEP原产地证书864份 货值3.9亿元

2022-03-20

蚌埠海关累计签发RCEP原产地证书35份 涉及金额2583.09万元

2022-03-20

绥化望奎以工业化思维为引领 推动肉类加工制造产业腾飞

2022-03-20

衡阳耒阳免费发放油茶苗 助推油茶产业稳步发展

2022-03-20

郴州安仁文旅项目集中开工 总投资1000万元

2022-03-20

2022年郴州计划重点推进文旅项目101个 总投资354亿元

2022-03-20

宿州泗县深入推进文旅融合发展 擦亮城市品牌

2022-03-20

汽车零部件产业“领头羊” 锦州力争一季度“开门红”

2022-03-20

油价或有望冲击“九元”大关 宁波新能源汽车市场如何

2022-03-20

从水塘到“云”端 全国最大高邮鸭养殖基地实现智慧养殖

2022-03-20

淡季不忘引流 京郊民宿市场有望迎来回暖

2022-03-20

镇江乡村一二三产业融合发展 闯出“镇江之路”

2022-03-20

总投资30亿元 盐城东台8个重大产业项目相继开工

2022-03-20

去年南京规上信息软件业企业实现营收7577.28亿元 同比增长10.3%

2022-03-20

2021年南京农业保险保费收入53.07亿元 同比增长19.13%

2022-03-20

安阳本土确诊病例上升至26例

2022-01-10

3次推迟婚期 满洲里抗疫民警兑现承诺:“我回来娶你了!”

2022-01-10

上海公安民警在岗位上迎接2022年“中国人民警察节”

2022-01-10

郑州核酸检测为中小学生开辟“绿色通道”

2022-01-10

反扒便衣警察“小曹”:藏在人海中的隐形“守护者”

2022-01-10

哥哥移植肾脏给病重弟弟 已在上海顺利康复

2022-01-10

网友与人裸聊被敲诈10万余元 被告人获刑5年

2022-01-10

1月10日起天津市暂停开展旅行社旅游业务活动

2022-01-10

“3·28”特大跨境电信网络诈骗案公开审理

2022-01-10

忠诚履职 守护万家灯火

2022-01-10

奥密克戎病例已涉天津、安阳 “动态清零”必须坚持!

2022-01-10

专家协作成功完成亲体肾移植 同“肾”兄弟顺利康复

2022-01-10

著名指挥陈燮阳携苏州交响乐团“相约北京”

2022-01-10

中国热科院选育出4个木薯新品种

2022-01-10

北京疾控:12月9日以来途经或旅居天津市人员请立即报备

2022-01-10

河南安阳本轮疫情累计报告确诊病例26例

2022-01-10

许勤批示黑土地保护不力问题:加快形成黑土地保护长效机制

2022-01-10

【挑战365天正能量速写画】第041期:当警娃难,当双警家庭的警娃更难

2022-01-10

重庆姐弟坠亡案两被告人5个月间聊天记录曝光

2022-01-10

因疫情防控措施落实不力 江苏金湖一超市被红牌警告

2022-01-10

江歌案一审判决刘鑫赔偿近70万元 有何依据?专家解读

2022-01-10

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

2022-01-10

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

2022-01-10

青海保障门源地震后生活必需品应急物资

2022-01-10

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

2022-01-10

呼和浩特:寒假期间有条件的学校要开展校内托管服务

2022-01-10

广西东兴口岸恢复通关 入境需网上预约

2022-01-10

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

2022-01-10

天津市委市政府致全市父老乡亲的慰问信:我们一定能够打赢

2022-01-10

北京市十五届人大五次会议胜利闭幕

2022-01-10