AI 开源项目精选:GPT2.0、激活可视化、全面基本面分析包
文末免费送电子书:七月在线干货组最新 升级的《名企AI面试100题》免费送!
项目一:EssayKiller_V2 基于开源GPT2.0的初代创作型人工智能
EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创作AI框架,目前第一版finetune模型针对高考作文(主要是议论文),可以有效生成符合人类认知的文章,多数文章经过测试可以达到正常高中生及格作文水平。
框架说明:
- 基于EAST、CRNN、Bert和GPT-2语言模型的高考作文生成AI
- 支持bert tokenizer,当前版本基于clue chinese vocab
- 17亿参数多模块异构深度神经网络,超2亿条预训练数据
- 线上点击即用的文本生成效果demo:17亿参数作文杀手
- 端到端生成,从试卷识别到答题卡输出一条龙服务
模型结构:
整个框架分为EAST、CRNN、Bert、GPT-2、DNN 5个模块,每个模块的网络单独训练,参数相互独立。infer过程使用pipeline串联,通过外接装置直接输出到答题卡。
模型亮点:
- 简单的管道实现在当时较高精度的文本检测。
- 图像通过FCN处理产生像素级文本缩放地图和几何图形的多个频道。
- 可旋转的文本框,可以检测文本也可以检测单词。
项目地址:
https://github.com/EssayKillerBrain/EssayKiller_V2
项目二:see-rnn Rnn 一般权重、渐变和激活可视化
Keras 和 TensorFlow 中的 Rnn 权重、渐变和激活可视化 (Lstm 、 Gru 、 Simplernn 、 Cudnn 和所有其他)
特性:
- 权重、渐变、激活可视化
- 内核视觉对象:内核、循环内核和偏置显式显示
- 门视觉对象:门控架构(LSTM、GRU)中的门明确显示
- 通道视觉对象:显式显示的单元格单元(功能提取器
- 一般视觉对象:也适用于CNN和其他方法
- 重量规范跟踪:可用于分析重量衰减
内省是调试、规范和理解神经网络的有力工具。此项目的方法启用:
- 监视权重和激活进度 - 每个更改epoch-to-epoch、iteration-to-iteration
- 评估学习效率 - 梯度反传播对层到层的、时间到时间步长的影响
- 评估层健康 - 神经元的"死亡"或"爆炸"的百分比
- 跟踪体重衰减 - 各种方案(例如 l2 惩罚)如何影响重量规范
能够回答以下问题:
- 我的 RNN 是否学习长期依赖关系?>> 监控梯度:如果非零梯度每次时间步道流动,则每个时间步有助于学习 -> 即,由此产生的梯度源于对每个输入时间步长的核算,因此整个序列会影响权重更新。因此,RNN 不再忽略长序列的部分,而被迫从它们中吸取教训
- 我的 Rnn 是否学习独立表示?>>监控激活:如果每个通道的输出不同且相互关联,则 RNN 提取了
- 为什么我有验证损失峰值?>>所有:瓦尔尖峰可能源于由于较大的梯度导致的层权重的急剧变化,这将明显改变激活模式;查看详细信息有助于通知更正
- 我的权重衰减是过度还是不足?>>监控权重规范:如果值斜减到许多倍,则衰减可能过大 - 或者,如果没有看到任何效果,则增加衰减
项目地址:
https://github.com/OverLordGoldDragon/see-rnn
项目三:FundamentalAnalysis 全面的基本面分析包
此包从 FinancialModelingPrep 收集来自大型公司集团的基本面和详细的公司股票数据 (13.000+),并使用 Yahoo Financial 获取任何金融工具的股票数据。它允许用户做大部分的基本分析。它还提供了快速比较多个公司或进行行业分析的可能性。
功能:
- 详细信息
- 可用公司 - 显示可用于基础数据收集的公司的完整列表,包括当前价格和公司列出的交易所。这是一个广泛的列表,有超过13000家公司
- 配置文件 - 提供有关行业、行业交易所和公司描述等
- 报价 - 提供有关公司的实际信息,其中包括日高、市值、开盘价和收盘价以及价格与权益
- 企业 - 显示股票价格、股票数量、市值和企业价值。
- 评级 - 基于特定比率,提供公司是(强)买入、中性还是(强)卖出的信息
- discounted_cash_flow - 计算公司一段时间的贴现现金流量,包括今天的 DCF.
- earnings_calendar - 显示有关今年大量品种的盈利日期的信息,包括预期的市盈率。
- financial_statement
- income_statement - 收集一个完整的损益表随着时间的推移。
- balance_sheet_statement - 收集一段时间的完整资产负债表。
- cash_flow_statement - 收集一个完整现金流量表随着时间的推移。
- 比率
- key_metrics - 列出公司一段时间(每年和每季度)的关键指标(共 57
个指标)。这包括,除其他外,股本回报率(ROE)、流动资本、流动比率和债务 - financial_ratios - 包括公司的深度比率(共 57个比率)在一段时间(年度和季度)。其中包括价格与账面比率、支付比率和运营周期
- financial_statement_growth - 衡量多个财务报表项目和比率在一段时间(年度和季度)的增长。其中包括收入增长(3年、5 年和 10 年)、库存增长和运营现金流增长(3 年、5 年和 10 年)。
- stock_data
- stock_data - 收集所提供的股票代码的所有股票数据(包括收盘、调整后、高、低、开盘和成交量)。这可能是任何金融工具
- stock_data_detailed - 收集大量股票数据(包括收盘、调整后收盘、高、低、开盘、成交量、未调整交易量、绝对变化、百分比变化、交易量加权平均价格(VWAP)、日期标签和时间变化)。数据收集仅限于在功能公司中上市的公司。使用stock_data函数了解任何其他内容。(ETF、共同基金、期权、指数等)
项目地址:
https://github.com/JerBouma/FundamentalAnalysis
帮助数千人成功上岸的《名企AI面试100题》书,电子版,限时免费送,评论区回复“100题”领取!
本书涵盖计算机语⾔基础、算法和⼤数据、机器学习、深度学习、应⽤⽅向 (CV、NLP、推荐 、⾦融风控)等五⼤章节,每⼀段代码、每⼀道题⽬的解析都经过了反复审查或review,但不排除可能仍有部分题⽬存在问题,如您发现,敬请通过官⽹/APP七月在线 - 国内领先的AI职业教育平台 (julyedu.com)对应的题⽬页⾯留⾔指出。
为了照顾⼤家去官⽹对应的题⽬页⾯参与讨论,故本⼿册各个章节的题⽬顺序和官⽹/APP题库内的题⽬展⽰顺序 保持⼀致。 只有100题,但实际笔试⾯试不⼀定局限于本100题,故更多烦请⼤家移步七⽉在线官⽹或 七⽉在线APP,上⾯还有近4000道名企AI笔试⾯试题等着⼤家,刷题愉快。