2020-01至2020-03——新浪新闻网爬虫系统(个人项目)
项目描述:可以通过url访问新浪新闻网站,发现网站存在两级url和一级详细内容页面,通过scrapy框架访问url,用redis保存url指纹,爬取每个板块下的每篇新闻。
1、搭建Scrapy框架,建立User-Agent代理池。
2、获取新浪新闻首页,用Xpath解析提取一级url和标题。
3、通过redis建指纹表,存储url,每爬取完一个url内容,删除指纹信息。
4、用xpath提取二级页面,在二级页面下提取所有网页下的文章
2019-05至2020-03——股票买入卖出推荐分析
所属公司:江苏灵匠信息科技有限公司
项目描述:金融市场数据多样繁杂,由于用户自身经验或知识不足,难以做出合理决策,需要进行分类,及时分析,描绘用户画像,用机器学习训练出最优模型,推荐合适的股票基金给用户,并提供合理的参数指标以供用户分析选择,从而规避盲进等部分风险。该系统则是基于这一点,对用于选择的基金和股票,进行多维度分析,在数据分析和算法推荐下,在个人金融信息页面给予最优的风险规避时机和买入卖出建议,以供决策。
1、利用python连接Mysql数据库,提取数据,并存储。
2、运用python中的Pandas、Numpy对数据进行预处理,包括缺失值,异常值的处理。
3、用Matplotlib库在Jupyter上,绘制均线图、布林带、K线图、散点图、直方图等进行图像分析。
4、通过对上述图像信息进行挖掘和挑出存在相关性的样本数据,选择合适的模型,去训练模型,保存模型。
5、用F1得分,查准率,交叉验证、网格搜索等评估手段进行评估,选出最优模型,交接整理报告。
2018-06至2019-04——基于不同用户的电影个性化推荐
所属公司:江苏灵匠信息科技有限公司
项目描述:为了增加用户黏度,我们需要对用户进行肖像描绘,通过数据分析手段得出用户的爱好和相似用户,选取合适的模型建模预测,可进行合理且有人情味的电影推荐,本项目采用django框架作为中转站,将数据转发至登录后的首页,并显示推荐电影。
1、利用爬虫技术爬取豆瓣、猫眼电影等电影网站的数据,主要获取电影名称,评分,导演,演员等数据。
2、获取数据库电影名称用户评分演员等数据和爬取获得的数据,进行数据的整理,设计用户画像。
3、根据每个用户画像标签的特点,为每个用户预测标签体系,并构建基于用户的协同过滤算法。
4、整理用户特征向量,基于KMeans训练聚类模型,获取相似用户,通过相似用户获取电影推荐清单。
5、通过django框架,将推荐数据传递到登录后的首页。
2017-12至2018-05——基于ROS 系统机械臂抓取工件图像处理设计
所属公司:江苏灵匠信息科技有限公司
项目描述:本移动机器人平台是上下料机械臂自动识别工件,方便机械臂对相应工件分析抓取,简化工人操作,实现工厂生产工业智能化。
1、USB 摄像头相关OpenCV 库驱动,基于OpenCV 进行过图像获取、裁剪、灰度处理。
2、使用ImageTransport API 发布摄像头帧。
3、采用image_proc 进行ROS 图像管道,达到获取单色和彩色转换功能。
4、训练建立模型、测试模型、检验模型,提高可靠性。